インターネットアーカイブを利用してウェブサイトの過去をチェックしたことはありませんか?
\ 短期間でアクセス数を増やす専用ツールをご案内!/SEOツール「キーワードファインダー」を無料で見る
Googleの検索エンジンは大小含め定期的にアップデーを繰り返し、それによって検索順位も上下します。
そんな中、あの競合サイトの順位が上昇した理由は?と、考えることもSEO対策を行う上では重要な考え方となります。
というのも検索順位は相対評価として成り立っているからであって、自社サイトの順位だけをチェックするだけでなく競合の変動にも気を配ることによって、今現在評価される近況の傾向などを掴むことができるからです。
そのひとつとして、自社・競合の過去の状態を知る必要があるというわけです。
つまり順位に変動があった際、サイトに何か修正・改善を加えたかどうか?仮説を立てて、それを裏付けるために調査するということです。
そういった時に便利なのが、今回ご紹介する“インターネットアーカイブ”という無料ツールです。
このサービスを利用することで、過去に遡ってサイトの状態をチェックすることができるため、検索エンジンからの評価の何が変わったのか?といったことを読み取るヒントになるかもしれません。
では、今回はこのサイトの過去を調べることができる“インターネットアーカイブ”という非営利の図書館の使い方などを詳しくご説明していきたいと思います。
\ 短期間でアクセス数を増やす専用ツールをご案内!/SEOツール「キーワードファインダー」を無料で見る
インターネットアーカイブとは
はじめに、インターネットアーカイブとは、Web上に公開されている膨大なwebページの情報を保存してアーカイブし、無償で閲覧することができる“ウェイバックマシン(Web archive)”といったサービスを運営するサンフランシスコにある非営利団体です。
サイトの過去の状態をチェックすることができるこのサービスは、“インターネットアーカイブ”といった名称が浸透していますが、これはあくまで団体名であり、実際には“ウェイバックマシン”というサービスがそれを担ってます。
もちろん競合サイトの過去も調べることができるため、SEO対策に関してある程度知識をお持ちの方ならこの便利なサービスをご存知の方も多いのではないでしょうか?
そして、この“ウェイバックマシン”によるサービス開始は1996年のようですが、この頃はデータ提供元があり、本格的にインターネットアーカイブによるクローリングが開始したのは2010年後半からです。
また、インターネット上のあらゆる情報をクローリングしているため、その情報量は膨大に及び、wikipediaによると2015年6月で4820億ページを超えているとのこと。
参考:インターネットアーカイブ – Wikipedia
ちなみに運営資金は寄付によるもので無料で閲覧することが可能、キャッシュされた日付けのデータをチェックすることができますが、必ずしも毎日のデータがキャッシュされているとは限りません。
ウェイバックマシンの使い方
では、このインターネットアーカイブが提供する“ウェイバックマシン”の具体的な使い方についてご説明していきます。
まずは、以下のページへアクセスします。
「Internet Archive」
※英語表記
使い方としては非常にシンプルで、表示されているフォームにチェックしたいウェブページurlを入力してエンターを押すか、キーワードから検索することも可能です。
ちなみに、この“ウェイバックマシン”の多くはWebサイトのこれまでキャッシュした過去データをチェックすることが主な利用目的かと思いますが、それ以外にも画像や動画をはじめ、映画、資料、書籍などのファイルもアーカイブされているようで、トップページにそれぞれアイコンが並んでいるのが確認できます。
Internet Archive: Digital Library of Free & Borrowable Books, Movies, Music & Wayback Machine
カレンダーから日付けを選択
では今回は過去のサイトをチェックするということで、上記でurlを入力した結果ページがこちらです。
※今回は例として“Yahoo!JAPAN”をチェック
この“ウェイバックマシン”では、以下のシンプルな手順でサイトの過去をチェックしていきます。
- urlを入力する
- カレンダーでキャッシュされた日付けを選択
ウェブページのurlで検索すると、キャッシュされた日付けが表示されます。次に確認したい日付けをクリックするわけですが、今回の例ではキャッシュされているデータの数が多いため、まずは表示されている時系列にカーソルを持って行き、その中から西暦を選んでクリックしましょう。
ちなみに、その下に表示されているカレンダーはデフォルトで最新のキャッシュが表示されているようで、今回の場合だと2019年のカレンダーが表示された状態となっています。
では、例として一番古いキャッシュの“1996年”をクリックしてみます。
すると、下記のようにキャッシュされた日付けに色が付いて表示され、さらにロールオーバーすると、時刻などのキャッシュ情報まで知ることができます。
ちなみに、サイトのアクセスによっては1日のうち複数回キャッシュされることもあり、その場合はこのロールオーバーにリンク付きの時刻が複数行に渡って表示されます。
色の違いについて
このカレンダーに表示されている丸は、アーカイブされていることを意味していて、その色によってキャッシュされた日のWebサーバー結果コードが異なり、以下のようなサイトの状態を確認することができます。(丸の大小はキャッシュの数によるものと思われます。)
- 青:2nn
- 緑:3nn(リダイレクト)
- オレンジ:4nn(クライアントエラー)
- 赤:5nn(サーバエラー)
他の色が混ざっている場合(特にリダイレクト)だと、SEOのために利用されたサイトである可能性が高くなるというひとつの目安にもなります。
サイトの過去をチェックする
続いてチェックしたい日付けをクリックすると、ご覧の通り当時の状態を確認することができます。
基本はカレンダーに表示されている日付のリンクや、ページ上部に表示されている時系列にカーソルを持ってくるとキャッシュされた日付けごとにリンクが表示されているので、調べたい日付けをクリックしてチェックするわけですが、表示されているページでも内部リンクを辿ってページを閲覧ことは可能です。(ただしリンク切れがあったり、全てがその日のアーカイブのものとは限りません。)
古いキャッシュだとデザインの傾向そのものが異なるように、例えばサイトの横幅なんかも解像度が高いモニターが登場するに連れてサイズが広くなっているのがわかります。
手動で保存する
そして、この“ウェイバックマシン”では先ほどもご説明した通り毎日必ずキャッシュするわけではなく、アクセス数が多ければ多いほどクローラーが巡回しているようで、キャッシュされた日付けが少ないサイトも多いかと思われます。
その場合、手動でキャッシュさせる機能があり、こちらは「Wayback Machine」のページに“Save Page Now”という項目があるので、フォームにキャッシュさせたいページのurlを入力して“SAVE PAGE”をクリックします。
すると、ウェイバックマシンにその日のキャッシュが保存された状態となります。
見られない場合
この“ウェイバックマシン”は、見られなくなったWebサイトをチェックするためでもあるわけですが、カレンダーにリンクが付いていない場合、キャッシュそのものがないという意味となるためサイトの過去を見ることはできません。
その他に、サイトの所有者が何らかの理由があって、“インターネットアーカイブ”に削除申請したことによるキャッシュの削除などが考えられます。
また、日付けの丸いリンクが赤だった場合、キャッシュしたその時にサーバーエラーによる表示だったことで確認できない可能性もあります。
削除したい場合
場合によってはご自身のアーカイブされたサイトの情報を削除したいケースも考えられるかと思います。
そういった場合、公式ページのヘルプによると所有者の確認が必要とはなりますが、「Email: info@archive.org」宛てにメールを送信することで削除申請を行うことができるようです。
ここで言う所有者の確認とは、キャッシュされたサイト内に記載されているメールアドレスや、X(旧Twitter)アカウントなどが挙げられます。
もしサイトを削除する際に、必要であれば所有者をキャッシュさせて証拠として申請し、サーバー解約の前に“ウェイバック”の削除を先に済ましておくと良いでしょう。
クローラーを拒否する方法
上記の削除申請するよりも、前もってインターネットアーカイブのクローラーにクロールの拒否を指定しておくという方法があります。
クローラーを拒否する場合は、robots.txtに以下のタグを記述してサーバーのトップディレクトリにアップしておきます。
意味としては、ユーザーエージェントである“インターネットアーカイブ”のボットによるクロールを“Disallow(拒否)”するということで、これによって、“ウェイバックマシン”にはご自身のサイトが残らない状態となります。
User-agent: ia_archiverDisallow: /
ウェイバックマシンの活用方法
この“ウェイバックマシン”による自社・競合サイトの過去をチェックして何に活用するのかというと、まずは冒頭でもご説明したような検索順位の変動時においてどういった傾向にあるのか?という点をアルゴリズム変動のあった時期前後でチェックする場合なども含めSEO対策に活用する方法が考えられます。
その他にも、中古ドメインを購入する際に以前どういった運用をされていたのかをチェックする際に役立ちます。
例えば、検索エンジンから何かしらペナルティ判定を受ける可能性があるコンテンツや、そもそも被リンク目的のサテライトサイト用のドメインで、時期によってサイトそのものが入れ替わっているようであれば、あまり良いドメインとは言えないでしょう。
さらに、上記でご説明した通りキャッシュされた日付けが通常なら青い色で表示されているところ、リダイレクトされていたりすると、何らかの意図的なサイト運用をうかがい知ることができます。
他には、比較的大規模なサイトが施したUIの変更などが考えられます。
この場合、流行したデザインの傾向もありますが、なぜそのUIにしたのか?じっくりとサイトを研究するには欠かせないサービスと言えます。
インターネットアーカイブの使い方注意点「著作権」
インターネットアーカイブでダウンロードしたデータの著作権については、十分な注意が必要です。
インターネットアーカイブ(ウェイバックマシン)に保存されているウェブページや画像、動画、書籍などのコンテンツは、アーカイブされているだけであり、著作権が消滅しているわけではありません。多くの場合、元の著作権者が権利を保持しています。
そのため、アーカイブからダウンロードしたデータを自分のウェブサイトや資料などで再利用・公開する場合は、著作権法に基づく利用許諾が必要となる場合があります。特に商用利用や転載、再配布を行う際は、必ず元の著作権者の許可を得るようにしましょう。
また、インターネットアーカイブ自体も利用規約で「アーカイブの利用は個人の調査・研究・保存目的に限る」といった制限を設けている場合があります。利用前に必ず公式サイトの利用規約や著作権に関するガイドラインを確認してください。
このように、インターネットアーカイブでダウンロードしたデータは自由に使えるわけではなく、著作権や利用規約を守って正しく利用することが大切です。
まとめ
今回は、サイトの過去を調べる特徴を持つ“インターネットアーカイブ”が運営する無料webアーカイブサービス“ウェイバックマシン”についてご説明しました。
過去のサイトの状態を自社・競合含めSEO順位の推移などと合わせて見比べることで、上位表示に効果的なwebページの特徴に気付くことができるかもしれません。
こういったインターネットアーカイブサービスは、うまく利用することでSEOにも役立てることができ、さらにデザイン・UIを改善する際の参考にもなるため、ぜひ知っておきたいサービスのひとつと言えるでしょう。