上か下か

○○にも××にも書けないことをだらだらと

魚拓でアーカイブした『とあるまとめサービスのエントリー』が閲覧できない件

結構前の話を覚え書き程度にどこかに残しておきたく。

魚拓等アーカイブサービスからサイトログを収集させないようにする一般的な方法として『robots.txt』があるが、新しいアーカイブサービスがローンチするたびに『robots.txt』を更新しなければならない(いたちごっこ)。

本件は、既に取得済みのログを閲覧できないようにするための比較的シンプルな手法が用いられているサイトがありました、というお話です。

手法

元のページ(カノニカルURL)と異なるドメインから魚拓が呼び出されたらカノニカルURLに転送されるようなスクリプトをヘッダ等に組み込んでおく。
まとめサービス運営が意図して実装した転送スクリプトであり、これは不具合ではなく仕様

実装時期

Internet Archiveに保存されているまとめサービスのトップページの魚拓一覧で確認。
『そのまま閲覧できる魚拓』と『カノニカルURLに転送される魚拓』のタイムスタンプの境界は以下のとおり。

  • 2012/05/27 17:49:55
    魚拓をそのまま閲覧できる最後のログ(カノニカルURLに転送されない)
  • 2012/05/28 17:54:36
    読み込みが完了せずループし続けるログ(スクリプトがうまく動いてない模様)
  • 2012/05/29 18:01:16
    カノニカルURLに転送される最初のログ

同時期に別件のメンテナンス(新機能追加)も行っており、おそらくこの期間中に魚拓を参照できなくするための転送スクリプトを実装したと思われる。

実装理由

推測ですが、権利者からの魚拓削除要請にスムーズに対応するためではないでしょうか。
自社運営サイトだけなら容易ですが、外部サイトにアーカイブされたらそうもいきませんし。

魚拓を見る方法

とりあえず閲覧したい

魚拓のURLを直接開かず、先頭に「view-source:」を付けてソースを表示すれば、いちおう読めるようにはなる(Google Chromeの場合)。

上記の方法だと読みづらい

上記で得た魚拓のソースコードから<BODY>タグ内だけを抽出し、HTMLタグクリーナーのようなツールを使ってHTMLタグだけ削除してしまうのが手っ取り早い。

なるべく元のページに近い状態で閲覧したい

魚拓のソースコードから転送スクリプトに相当する箇所だけを削除してHTML文書として新規保存し、保存したファイルをブラウザ等で開いて表示。

追記

:20/07/20

某ポータル系のニュース記事も、Internet Archiveで取った魚拓がポータルトップページに転送されました。