魚拓でアーカイブした『とあるまとめサービスのエントリー』が閲覧できない件
序
結構前の話を覚え書き程度にどこかに残しておきたく。魚拓等アーカイブサービスからサイトログを収集させないようにする一般的な方法として『robots.txt』があるが、新しいアーカイブサービスがローンチするたびに『robots.txt』を更新しなければならない(いたちごっこ)。
本件は、既に取得済みのログを閲覧できないようにするための比較的シンプルな手法が用いられているサイトがありました、というお話です。
手法
元のページ(カノニカルURL)と異なるドメインから魚拓が呼び出されたらカノニカルURLに転送されるようなスクリプトをヘッダ等に組み込んでおく。まとめサービス運営が意図して実装した転送スクリプトであり、これは不具合ではなく仕様。
実装時期
Internet Archiveに保存されているまとめサービスのトップページの魚拓一覧で確認。『そのまま閲覧できる魚拓』と『カノニカルURLに転送される魚拓』のタイムスタンプの境界は以下のとおり。
- 2012/05/27 17:49:55
魚拓をそのまま閲覧できる最後のログ(カノニカルURLに転送されない) - 2012/05/28 17:54:36
読み込みが完了せずループし続けるログ(スクリプトがうまく動いてない模様) - 2012/05/29 18:01:16
カノニカルURLに転送される最初のログ
同時期に別件のメンテナンス(新機能追加)も行っており、おそらくこの期間中に魚拓を参照できなくするための転送スクリプトを実装したと思われる。
実装理由
推測ですが、権利者からの魚拓削除要請にスムーズに対応するためではないでしょうか。自社運営サイトだけなら容易ですが、外部サイトにアーカイブされたらそうもいきませんし。