【インターネットアーカイブ】サイトの過去を調べる方法について

インターネットアーカイブ

インターネットアーカイブを利用してサイトの過去をチェックしたことはありませんか?

\ 簡単申込ですぐ使える!今なら、オンラインマニュアル無料GET! /SEOツール無料デモを申し込む

Googleの検索エンジンは大小含め定期的にアップデーを繰り返し、それによって検索順位も上下します。
そんな中、あのサイトが上がったのはなぜだろう?と考えることもSEO対策を行う上では重要な考え方となります。

というのも検索順位は相対評価として成り立っているからであって、自社の順位だけをチェックするだけでなく競合の変動にも気を配ることによって、今現在評価される近況の傾向などを掴むことができます。

そのひとつとして、自社・競合の過去の状態を知る必要があるというわけです。
つまり順位に変動があった際、サイトに何か修正・改善を加えたかどうか?仮説を立てて、それを裏付けるために調査するということです。

そういった時に便利なのが、今回ご紹介する“インターネットアーカイブ”という無料ツールです。

このサービスを利用することで、過去にさかのぼってサイトの状態をチェックすることができるため、検索エンジンからの評価の何が変わったのか?といったことを読み取るヒントになるかもしれません。

では、今回はこのサイトの過去を調べることができる“インターネットアーカイブ”について使い方などを詳しくご説明していきたいと思います。

\ 簡単申込ですぐ使える!今なら、オンラインマニュアル無料GET! /SEOツール無料デモを申し込む
SEOキーワードツール「キーワードファインダー」

インターネットアーカイブとは

まずインターネットアーカイブとは、Web上に公開されている膨大なページの情報を保存してアーカイブし、無償で閲覧することができる“ウェイバックマシン”といったサービスを運営するサンフランシスコにある非営利団体です。

サイトの過去の状態をチェックすることができるこのサービスは、“インターネットアーカイブ”といった名称が浸透していますが、これはあくまで団体名であり、実際には“ウェイバックマシン”というサービスがそれを担ってます。

もちろん競合サイトの過去も調べることができるため、SEO対策に関してある程度知識をお持ちの方ならこの便利なサービスをご存知の方も多いのではないでしょうか?

そして、この“ウェイバックマシン”によるサービス開始は1996年のようですが、この頃はデータ提供元があり、本格的にインターネットアーカイブによるクローリングが開始したのは2010年後半からです。

また、インターネット上のあらゆる情報をクローリングしているため、その情報量は膨大に及び、wikipediaによると2015年6月で4820億ページを超えているとのこと。
参考:インターネットアーカイブ – Wikipedia

この“ウェイバックマシン”では、日々行われる大規模なクロールによる情報収集によって過去の状態を閲覧することが可能となっています。
ちなみに運営資金は寄付によるもので無料で閲覧することが可能、キャッシュされた日付けのデータをチェックすることができますが、必ずしも毎日のデータがキャッシュされているとは限りません。

ウェイバックマシンの使い方

では、このインターネットアーカイブが提供する“ウェイバックマシン”の具体的な使い方についてご説明していきます。

まずは、以下のページへアクセスします。
Internet Archive
※英語表記となっていますが、使用するにあたってそこまで問題ないかと思われます。

使い方としては非常にシンプルで、表示されているフォームにチェックしたいurlを入力してエンターを押すか、キーワードから検索することも可能です。

ちなみに、この“ウェイバックマシン”の多くはWebサイトのこれまでキャッシュした過去データをチェックすることが主な利用目的かと思いますが、それ以外にも映画や書籍などもアーカイブされているようで、トップページにそれぞれアイコンが並んでいるのが確認できます。

Internet Archive: Digital Library of Free & Borrowable Books, Movies, Music & Wayback Machine

カレンダーから日付けを選択

では今回は過去のサイトをチェックするということで、上記でurlを入力した結果ページがこちらです。
※今回は例として“Yahoo!JAPAN”をチェック

この“ウェイバックマシン”では、以下のシンプルな手順でサイトの過去をチェックしていきます。

  • urlを入力する
  • カレンダーでキャッシュされた日付けを選択

ということでurlで検索すると、まずはキャッシュされた日付けが表示され、次に確認したい日付けをクリックするわけですが、今回の例ではキャッシュされているデータの数が多いため、まずは表示されている時系列にカーソルを持って行き、その中から西暦を選んでクリックしましょう。

ちなみに、その下に表示されているカレンダーはデフォルトで最新のキャッシュが表示されているようで、今回の場合だと2019年のカレンダーが表示された状態となっています。

では、例として一番古いキャッシュの“1996年”をクリックしてみます。
すると、下記のようにキャッシュされた日付けに色が付いて表示され、さらにロールオーバーすると、時刻などのキャッシュ情報まで知ることができます。

ちなみに、サイトのアクセスによっては1日のうち複数回キャッシュされることもあり、その場合はこのロールオーバーにリンク付きの時刻が複数行に渡って表示されます。

色の違いについて

このカレンダーに表示されている丸は、アーカイブされていることを意味していて、その色によってキャッシュされた日のWebサーバー結果コードが異なり、以下のようなサイトの状態を確認することができます。(丸の大小はキャッシュの数によるものと思われます。)
参考:Using The Wayback Machine – Internet Archive Help Center

  • 青:2nn
  • 緑:3nn(リダイレクト)
  • オレンジ:4nn(クライアントエラー)
  • 赤:5nn(サーバエラー)
後ほど詳しくご説明しますが、中古ドメインをチェックする場合、通常のサイト運用を行っていれば青い色で表示されているはずです。
これが、他の色が混ざっている場合(特にリダイレクト)だと、SEOのために利用されたサイトである可能性が高くなるというひとつの目安にもなります。

サイトの過去をチェックする

続いてチェックしたい日付けをクリックすると、ご覧の通り当時の状態を確認することができます。

基本はカレンダーに表示されている日付のリンクや、ページ上部に表示されている時系列にカーソルを持ってくるとキャッシュされた日付けごとにリンクが表示されているので、調べたい日付けをクリックしてチェックするわけですが、この表示されているページでも内部リンクを辿ってページを閲覧ことは可能です。(ただしリンク切れがあったり、全てがその日のアーカイブのものとは限りません。)

古いキャッシュだとデザインの傾向そのものが異なるように、例えばサイトの横幅なんかも解像度が高いモニターが登場するに連れてサイズが広くなっているのがわかります。

\ 集客効果の高いキーワードを自動で取得!/
SEOキーワードツール「キーワードファインダー」

手動で保存する

そして、この“ウェイバックマシン”では先ほどもご説明した通り毎日必ずキャッシュするわけではなく、アクセス数が多ければ多いほどクローラーが巡回しているようで、キャッシュされた日付けが少ないサイトも多いかと思われます。

その場合、手動でキャッシュさせる機能があり、こちらは「Wayback Machine」のページに“Save Page Now”という項目があるので、フォームにキャッシュさせたいページのurlを入力して“SAVE PAGE”をクリックします。

すると、ウェイバックマシンにその日のキャッシュが保存された状態となります。

SEOキーワードツール「キーワードファインダー」

見られない場合

この“ウェイバックマシン”は、見られなくなったWebサイトをチェックするためでもあるわけですが、上記のようにカレンダーにリンクが付いていない場合、キャッシュそのものがないという意味となるためサイトの過去を見ることはできません。

その他に、サイトの所有者が何らかの理由があって、“インターネットアーカイブ”に削除申請したことによるキャッシュの削除などが考えられます。

また、日付けの丸いリンクが赤だった場合、キャッシュしたその時にサーバーエラーによる表示だったことで確認できない可能性もあります。

削除したい場合

上記のように、場合によってはご自身のアーカイブされたサイトの情報を削除したいケースも考えられるかと思います。

そういった場合は、公式ページのヘルプによると…所有者の確認が必要とはなりますが、「Email: info@archive.org」宛てにメールを送信することで削除申請を行うことができるようです。
参考:How do I remove an item page from the site? – Internet Archive Help Center

ここで言う所有者の確認とは、キャッシュされたサイト内に記載されているメールアドレスや、Twitterアカウントなどが挙げられます。

注意点としては、サイトの所有者であることを証明しなければいけないため、場合によっては削除することが難しくなってしまいます。
もしサイトを削除する際に、必要であれば所有者をキャッシュさせて証拠として申請し、サーバー解約の前に“ウェイバック”の削除を先に済ましておくと良いでしょう。

クローラーを拒否する方法

上記の削除申請するよりも、前もってインターネットアーカイブのクローラーにクロールの拒否を指定しておく方法があります。

この場合は、robots.txtに以下のタグを記述してサーバーのトップディレクトリにアップしておきます。

意味としては、ユーザーエージェントである“インターネットアーカイブ”のボットによるクロールを“Disallow(拒否)”するということで、これによって、“ウェイバックマシン”にはご自身のサイトが残らない状態となります。

User-agent: ia_archiver
Disallow: /

ウェイバックマシンの活用方法

この“ウェイバックマシン”による自社・競合サイトの過去をチェックして何に活用するのかというと…まずは冒頭でもご説明したような検索順位の変動時においてどういった傾向にあるのか?この辺りを変動のあった時期前後でチェックする場合をはじめ、SEO対策に活用する方法が考えられます。

その他にも、中古ドメインを購入する際に以前どういった運用をされていたのか?これをチェックする際に役立ちます。

例えば、検索エンジンから何かしらペナルティ判定を受ける可能性があるコンテンツや、そもそも被リンク目的のサテライトサイト用のドメインで、時期によってサイトそのものが入れ替わっているようであれば、あまり良いドメインとは言えないでしょう。

さらに、上記でご説明した通りキャッシュされた日付けが通常なら青い色で表示されているところ、リダイレクトされていたりすると、何らかの意図的なサイト運用をうかがい知ることができます。

他には、比較的大規模なサイトが施したUIの変更などが考えられます。
この場合、流行したデザインの傾向もありますが、なぜそのUIにしたのか?じっくりとサイトを研究するには欠かせないサービスと言えます。

そのため、中古ドメインを選ぶ時には、必ず以前どういった運用をされていたのか?いくつか時期を分けてチェックするようにしましょう。

まとめ

今回は、サイトの過去を調べる“インターネットアーカイブ”が運営する無料サービス“ウェイバックマシン”についてご説明しました。

過去のサイトの状態を自社・競合含め順位の推移などと合わせて見比べることで、上位表示に効果的な面白いポイントに気付くことができるかもしれません。

このように、こういったサービスは、うまく利用することでSEOにも役立てることができ、さらにデザイン・UIを改善する際の参考にもなるため、ぜひ知っておきたいサービスのひとつと言えるでしょう。

「キーワードファインダー」

キーワード選定でお悩みですか?

\ 簡単申込ですぐ使える!今なら、オンラインマニュアル無料GET! /SEOツール無料デモを申し込む

「キーワードファインダー」なら、検索ボリュームから順位チェック、関連語や新しいキーワードの発見など、アクセスを伸ばすために重要なキーワード選定を自動取得、一括管理が可能!

また、自動取得したキーワードは、ご自身のサイトだけでなく競合の順位も取得します。この整理された情報を元にあなたの集客経路の拡大にお役立てください!


SEOツール無料デモを申し込む

  • このエントリーをはてなブックマークに追加
  • Pocket
  • LINEで送る

関連記事

\ 簡単申込ですぐ使える!今なら、オンラインマニュアル無料GET! /

SEOツール無料デモを申し込む