[餅] 餅空 blog / Nucleus支店

前の記事: PHPでGoogleMapAPIを扱うクラス
次の記事: J's GOALの勝手RSS配信ができてなかった件

2005-12-02

ドリコムの求人情報クローラー

 ドリコムのクローラーが「餅空blog Nucleus支店」にやってきた。

 コイツ。
Drecombot/1.0 (http://career.drecom.jp/bot.html)

 ログに記録されたUserAgentに書かれているページをみると、このクローラーは「検索対象となる求人情報・企業情報を収集するため、テスト版のクローラが各企業様のサイトを巡回しております。」と書いてあるが、ここは「企業様」のサイトではありません。何故、個人のblogを求人情報のクローラーがクローリングしているのか?…謎過ぎる。このドメインは1997年から使ってるけど個人として以外使ったことありません。

 よくわからないけど、意味も無く蹂躙されるのはいやなので
User-agent: Drecombot
Disallow: /

としておいた。

 価格比較系のサイトがショップをクロールしているように、このクローラーが求人情報を得るためにあちこちを徘徊しているのであろう事は理解できる。しかし、価格比較系のクローラーはここには来ません。ターゲットはある程度絞れ、と言いたい。

 そもそも(続く)

 そもそも、ログに記録されたUserAgentに書かれているページはブラウザの文字コードを適切に設定しないと文字化けして読めないではないか。私の環境ではFirefoxでもIEでもOperaでも(デフォルトでは)全て文字化けした。HTMLを見る限り、EUC-JPが指定されており、実際の漢字コードもEUC-JPなのになぜ文字化けするのか?不思議に思ってLivehttpheadersで調べてみると
Content-Type: text/html; charset=ISO-8859-1

が送られてきているようだ。
 んー… これってApacheの設定で「DefaultCharset」を「ISO-8859-1」で決め打ちしてるせいじゃないの?いくらこのページを読む人が少ないからといって今時、そんなアホな設定をするコンテンツプロバイダーがあっていいのだろうか?

 それと、このドリコム求人クローラーはかなり前からあちこちをクロールしているのに、最近になって「クロールしてもいいですか?」とお伺いのメールを出している。どっかから苦情でもあったんだろうか?

 なんにせよこんなワケのわからないクローラーは排除推奨です。推奨というより must かも。
posted at 03:53:04 on 2005-12-02 by mochy - Category: インターネット

Amazon

Comments

No comments yet

Add Comments



TrackBack

Trackback
There are currently no trackbacks for this item.
Use this TrackBack url to ping this item (right-click, copy link target). If your blog does not support Trackbacks you can manually add your trackback by using this form.

前後の記事

前の記事: PHPでGoogleMapAPIを扱うクラス
次の記事: J's GOALの勝手RSS配信ができてなかった件

MyMiniCity

MyMiniCity

死語ステッカー

死語ブログパーツ

著作権保護期間延長反対

著作権保護期間の延長反対

PR

シマンテックダウンロードストア

ザッピング

あわせて読みたい

あわせて読みたい

TEAM -6%

今年もクールビズ

Blog Scouter