ウェブアーカイブとは、その情報を残すためにWebサイトを記録した保管所 (アーカイブ) です。
Internet Archive: Wayback Machineでページ上部のテキストボックスにURLを入力し、[BROWSE HISTORY]をクリックします。
そのとき「Page cannot be displayed due to robots.txt.」としてページを確認できない場合には、robots.txtに従わないarchive.isでの閲覧を試みます。
対象となるアーカイブ | URLのパターン |
---|---|
アーカイブの一覧 | https://web.archive.org/web/*/http://example.com |
https://web.archive.org/web/*/example.com | |
特定の日時のアーカイブ | https://web.archive.org/web/YYYYMMDDhhmmss/http://example.com |
最新のアーカイブ | https://web.archive.org/web/http://example.com 最新の日時のアーカイブへリダイレクトされます。 |
最古のアーカイブ | https://web.archive.org/web/1/http://example.com |
Archive.todayは改称され、Archive.isとなっています。
Webpage archiveでページ下部の[URLで魚拓を検索]にURLを入力し、[検索]をクリックします。そのときページ上部のテキストボックスはページを記録するためのリクエストのため、間違えないように気をつけます。
Googlebotが最後にアクセスした時点のウェブページを確認できます。キャッシュされているページを見るには、Googleの検索結果の[キャッシュ]をクリックするか、検索オプションのcache:url
をクエリとしてGoogleで検索します。
たとえばwww.yahoo.co.jpのキャッシュを見るには[http://webcache.googleusercontent.com/search?q=cache:www.yahoo.co.jp]のようにアクセスします。
対象ページのURLをキーワードに検索し、検索結果のリンク脇の[キャッシュ ページ]をクリックします。
ウェブアーカイブがrobots.txtの指示に従うならば、それで管理するウェブサイトがアーカイブされるのを拒否することができます。
たとえばInternet Archiveからのアーカイブを拒否するには、robots.txtに
User-agent: ia_archiver Disallow: /Internet Archive Contacts
のように記述します。一方でarchive.isのようにrobots.txtに従わないことを明言しているウェブアーカイブもあり、このようなサービスにはrobots.txtは無効です。
Why does archive.today not obey robots.txt?
Because it is not a free-walking crawler, it saves only one page acting as a direct agent of the human user. Such services don't obey robots.txt (e.g. Google Feedfetcher, screenshot- or pdf-making services, isup.me, …)
FAQ - Why does archive.today not obey robots.txt?