今回はWayback machine downloaderを用いてarchive.org(Wayback machine)に保存されている複数のページを一括ダウンロードする方法を紹介します。
https://github.com/hartator/wayback-machine-downloader
詳しい説明は開発者のgithubページをご覧ください。
この記事は下に明記されている記事から訳されたものです。
2023/12/15 訂正:最近wayback machineは接続数に制限を設定したそうです。
制限された場合、おそらくこのエラーメッセージが表示されるでしょう。
Failed to open TCP connection ~~~
出典(イタリア語): Come scaricare copie di siti scaduti – Wayback machine downloader
インターネットアーカイブウェイバックマシンは2,790億を超えるWebページの歴史的アーカイブで、訪問者がWebページを閲覧できるし、場合によってはポータル全体でさえも時間をかけて閲覧することのができます。インターネットアーカイブは、最も人気のあるサイトを優先して数千のページを引き続き保存し、それらを簡単にアクセスできるタイムインデックスで利用できるようにします。特に有効期限が切れたドメインの復元を処理するときにこのツールの実際に可能性を理解するためにクリックするだけです。実際には、CSSイメージとJavaScriptを使用した元の完全版に近いバージョンのサイトを一時的に復元することが、人的ミスとSEO戦略の両方のためにしばしば起こります。Rubyライブラリには、ウェイバックマシンのAPIと組み合わせて、コマンドラインからWebサイトの完全なコピーをダウンロードするのに役立つものであるかもしれません。
このサイトの過去のコピーを素早くダウンロードするにはどうすればいいのか。Rubyをダウンロードする(Windows用)
このアドレスに最新バージョンのRuby(バージョン1.9.2以上)をダウンロードしてインストールし、次のステップに進んでください。
1.Wayback Machine Downloaderのスクリプトをインポートする。
Rubyを管理者としてコマンドプロンプト(Start Command Prompt with Ruby)を実行します。次のコマンドを入力して、wayback_machine_downloaderライブラリをインストールします。
2.ダウンロードするWebサイトのバージョンを検索する
私は古いPianoWebサイトで最初の実験を行いました。
http://web.archive.org/web/20120826121114/https://pianoweb.eu/
3.ダウンロードを開始する
スナップショット全体をダウンロードするためにはRubyのコマンドプロンプトにダウンロードするコマンドを入力します。例:
ダウンロード時間は、使用しているマシン、使用可能な接続の種類、Wayback Machineサーバーの障害、つまり非常に過負荷で低速のサイトによって異なります。 数ページのサイトの場合、約10分かかります。私の場合、システムは1160秒かかりました。(ほぼ20分)
結果は、インターフェースの観点からはあまり満足のいくものではありませんでしたが、Webサイトのすべてのページを正しく保存し、すべてのコンテンツがフォルダごとに分けて保存されました。保存先はデフォルト設定として「C:\Users\ユーザー名\websites\保存されているサイト名」または「C:\Windows\System32\websites」を確認してください。(注釈:Usersは”ユーザー”というフォルダーを意味します)
よく分からないなら、「websites」というフォルダー名を検索して探してください。
ページの内容を確認するためにはindex.htmlを開く。
後書き
もし、サイト全体ではなく、一部だけ保存されている場合また抜かれてるページがある場合は他の日付に変更して試みる場合もあります。