特定のウェブサイトを見たくない理由はいくらでもあります。たとえば、競合他社を「監視」していることに気づかれたくないとか。あるいは、ターゲットに警戒心を抱かせたくない調査中かもしれません。では、訪問することなく、ウェブサイトの内容を把握するにはどうすればよいのでしょうか。
実はいくつかの方法があります。
オンラインアーカイブ
まず、ウェブサイトがオンラインでアーカイブされている可能性があるかどうかを確認します。使えそうなアーカイブは2つあります。
Archive.org (The Wayback Machine)
Archive.orgは、おそらく最も有名で、最も大きなものでしょう。Wayback Machineの使い方はいたって簡単です。https://web.archive.org にアクセスし、検索バーに希望のドメインを入力するだけです。Wayback Machineにアーカイブされたバージョンがあれば、すぐにその結果を見ることができます。この方法で、ウェブサイトの所有者を心配させることなく、好きなだけページを閲覧することができます。
あなたのウェブサイトはWayback Machineに登録されていないのですか?アーカイブのリクエストを送ることができます。しかし、注意してください。ウェブサイトの所有者は、Wayback Machineのクローラーがそのウェブサイトを訪れていることに気づくかもしれません。https://web.archive.org/ にアクセスし、右側の検索バーにある「Save Page Now」というタイトルをクリックし、希望のアドレスを入力すれば、登録することができます。
Archive.ph (Archive.today)
トップレベルドメインは時々変わるが、archive.ph か archive.today のいずれかが、ウェブサイトのオンラインアーカイブに案内してくれるだろう。レスポンスの良さにつられて一番上の検索バーに行ってしまわないように、ほんの少し下にスクロールして、「保存したスナップショットのアーカイブを検索したい」というタイトルの一番下の検索バー(濃い青色)へ行ってみてください。一番上(赤)の検索バーで「My URL is live and I want to archive its content」というタイトルで検索すると、希望のウェブサイトのアーカイブを要求することができます。
Domaintools Whois
domaintools.comというウェブサイトをご存知の方もいらっしゃるかと思います。このサイトが提供するものの1つに、無料のドメイン検索、「whois」があります。https://whois.domaintools.com/、ドメイン名を入力すると、そのドメインが誰に属しているかを確認することができます。更に、そのドメインに関する小さなスクリーンショットも提供されています。次の手順で拡大された画像を見ることも可能です。
スクリーンショットが公開されていることもありますが、残念ながら有料アカウントでないとアクセスできません。とはいえ、忘れられがちな素晴らしいオプションです。
サーチエンジンのキャッシュ
GoogleとBingの両社は、インデックスに登録された検索結果のキャッシュバージョンを提供しています。すべての検索結果にキャッシュ版があるわけではありませんが、ほとんどの検索結果にキャッシュ版があります。
Google Cache
最も人気のある検索エンジン、Googleでは、検索結果のキャッシュバージョンを見ることができます。これは、検索結果に何が含まれているかを知るための素晴らしい方法です。キャッシュされたバージョンは、検索結果の最後にある3つの点のメニューの下に表示されます。このメニューをクリックすると、「キャッシュ」というボタンが表示されます。このボタンが表示されない場合、Googleにはキャッシュされたバージョンがありません。
左が通常のキャッシュ版で、右がライブデータを要求しないキャッシュ版です。ページの見栄えは悪くなりますが、少なくとも安全であることはおわかりいただけると思います。
もう一つの方法は、下記のサイトのようなサードパーティーサイトに、代理でターゲットサイトを訪問するよう依頼することです。これにより、プライバシーとセキュリティを維持しながら、ターゲットサイトのライブコンテンツを見ることができます。
無料で利用できるサービスは、以下の3つです。
上記のサイトは、実際のターゲットサイトからデータを収集し、過去のデータから関連するコンテンツを取り出し、そのコンテンツに対して何らかの分析を行います。具体的には、以下のようなものがあります。
- サイトのスクリーンショット取得
- HTMLとJavaScriptを分析し、悪意のあるコンテンツが提供されているかどうかを判断
- サイトを構成するリソースや、ターゲットサイトがデータを取得したり、リンクしている他のウェブサイトを表示
- コードを分析し、ターゲットに関連する可能性のある他のサイトを見つける
対象のURLを上記の各サイトに通し、データを比較することをお勧めします。
スクリーンショット
最後の2つのオプションは、少しリスクが高いかもしれません。ウェブサイト全体をダウンロードする場合、または第三者にスクリーンショットの作成を依頼する場合、ライブデータを要求する必要があるため、ウェブサイトの所有者に気づかれる可能性があります。スクリーンショットの作成とダウンロードは、あなたの身元や調査を危険にさらす可能性があることを心に留めておいてください。
リスクを負うことをいとわないのであれば、第三者のウェブサイトにスクリーンショットの撮影を依頼するのも一つの方法でしょう。これを可能にするウェブサイトは数多く存在します。そのひとつがsite-shot.comです。上部の検索バーにURLを入力し、左側の設定を調整し、完了したら赤い「撮影」ボタンを押すだけです。
同様のサービスを提供している他のウェブサイトとしては、screenshotmachine.com(PDFとして保存することも可能)またはfullpagescreencapture.comがあります。
コマンドラインツール
ウェブサイトのコンテンツを収集するための非常に強力なコマンドラインツールがいくつかあります。これらの3つのツールはブラウザ上で動作しないかもしれませんが、それでもあなたのコンピューターから直接ターゲットとなるウェブサイトにアクセスするので、あなたのIPアドレスといくつかのシステム情報が明らかになることに注意することが重要です。
しかし、これらのツールは、あらゆるLinuxシステム上で動作するため、世界中のどこのサーバー上でもインストールし、実行することができます。つまり、ブラウザを使わずに、また自分のデバイスを使わずに、ウェブサイト全体のコンテンツを取得することができるのです。では、そのツールについて見ていこう。
Wgetは、ウェブサイトを訪問し、あらゆる種類のファイルをダウンロードすることができるツールで、サイトの基礎を形成するhtmlファイルやcssファイルを含みます。また、robots.txtファイルや他のツールを制限する設定を無視するようにカスタマイズすることができます。
Httrackはウェブサイトアーカイブツールで、サイト全体のコンテンツを自動的にスクレイピングして、自分だけのオフラインバージョンを保持することができます。オフラインになる可能性のあるコンテンツを保存したい場合に便利です。Httrackはコマンドラインツールですが、デスクトップで実行したい場合はGUIバージョンもあります。ただし、自分のマシンから実行すると、対象サイトに足跡が残ります。
EyeWitnessは元々セキュリティツールとして設計されましたが、OSINTにも理想的です。コマンドラインから起動し、指定したURLにアクセスし、ウェブページのスクリーンショットとサーバに関する情報をキャプチャします。以前作成したチュートリアルビデオで、どのように動作するかを見ることができます。