ドリコムのクローラーが「餅空blog Nucleus支店」にやってきた。
コイツ。
Drecombot/1.0 (http://career.drecom.jp/bot.html)
ログに記録されたUserAgentに書かれているページをみると、このクローラーは「検索対象となる求人情報・企業情報を収集するため、テスト版のクローラが各企業様のサイトを巡回しております。」と書いてあるが、ここは「企業様」のサイトではありません。何故、個人のblogを求人情報のクローラーがクローリングしているのか?…謎過ぎる。このドメインは1997年から使ってるけど個人として以外使ったことありません。
よくわからないけど、意味も無く蹂躙されるのはいやなので
User-agent: Drecombot
Disallow: /
としておいた。
価格比較系のサイトがショップをクロールしているように、このクローラーが求人情報を得るためにあちこちを徘徊しているのであろう事は理解できる。しかし、価格比較系のクローラーはここには来ません。ターゲットはある程度絞れ、と言いたい。
そもそも(続く)
そもそも、
ログに記録されたUserAgentに書かれているページはブラウザの文字コードを適切に設定しないと文字化けして読めないではないか。私の環境ではFirefoxでもIEでもOperaでも(デフォルトでは)全て文字化けした。HTMLを見る限り、EUC-JPが指定されており、実際の漢字コードもEUC-JPなのになぜ文字化けするのか?不思議に思ってLivehttpheadersで調べてみると
Content-Type: text/html; charset=ISO-8859-1
が送られてきているようだ。
んー… これってApacheの設定で「DefaultCharset」を「ISO-8859-1」で決め打ちしてるせいじゃないの?いくらこのページを読む人が少ないからといって今時、そんなアホな設定をするコンテンツプロバイダーがあっていいのだろうか?
それと、このドリコム求人クローラーはかなり前からあちこちをクロールしているのに、最近になって「クロールしてもいいですか?」とお伺いのメールを出している。どっかから苦情でもあったんだろうか?
なんにせよこんなワケのわからないクローラーは排除推奨です。推奨というより must かも。