ウェブアーカイブ

ウェブアーカイブとは、その情報を残すためにWebサイトを記録した保管所 (アーカイブ) です。

サービス

Internet Archive

Internet Archive: Wayback Machineでページ上部のテキストボックスにURLを入力し、[BROWSE HISTORY]をクリックします。

そのとき「Page cannot be displayed due to robots.txt.」としてページを確認できない場合には、robots.txtに従わないarchive.isでの閲覧を試みます。

対象となるアーカイブ URLのパターン
アーカイブの一覧 https://web.archive.org/web/*/http://example.com
https://web.archive.org/web/*/example.com
特定の日時のアーカイブ https://web.archive.org/web/YYYYMMDDhhmmss/http://example.com
最新のアーカイブ https://web.archive.org/web/http://example.com
最新の日時のアーカイブへリダイレクトされます。
最古のアーカイブ https://web.archive.org/web/1/http://example.com
Internet Archive Wayback Machineの便利な使い方、文字化けの直し方 - Yahoo!知恵袋 Wayback Machine APIs | Internet Archive

archive.is

Archive.todayは改称され、Archive.isとなっています。

Webpage archiveでページ下部の[URLで魚拓を検索]にURLを入力し、[検索]をクリックします。そのときページ上部のテキストボックスはページを記録するためのリクエストのため、間違えないように気をつけます。

Google Cache

Googlebotが最後にアクセスした時点のウェブページを確認できます。キャッシュされているページを見るには、Googleの検索結果の[キャッシュ]をクリックするか、検索オプションcache:urlをクエリとしてGoogleで検索します。

たとえばwww.yahoo.co.jpのキャッシュを見るには[http://webcache.googleusercontent.com/search?q=cache:www.yahoo.co.jp]のようにアクセスします。

Bing

対象ページのURLをキーワードに検索し、検索結果のリンク脇の[キャッシュ ページ]をクリックします。

その他

アーカイブされることの拒否

ウェブアーカイブがrobots.txtの指示に従うならば、それで管理するウェブサイトがアーカイブされるのを拒否することができます。

たとえばInternet Archiveからのアーカイブを拒否するには、robots.txtに

User-agent: ia_archiver
Disallow: /
Internet Archive Contacts

のように記述します。一方でarchive.isのようにrobots.txtに従わないことを明言しているウェブアーカイブもあり、このようなサービスにはrobots.txtは無効です。

Why does archive.today not obey robots.txt?

Because it is not a free-walking crawler, it saves only one page acting as a direct agent of the human user. Such services don't obey robots.txt (e.g. Google Feedfetcher, screenshot- or pdf-making services, isup.me, …)

FAQ - Why does archive.today not obey robots.txt?
複数の技術系サイトから、まとめて検索