2010/05/30

文字コードの話(2)

getResponseCharSet()を使ってみましたが、文字コード判明率は30%行かない結果となりました。
使い方が悪いのか、そういうものなのか、よく分かりません。


まずは小さい範囲からやったらいいよ、という助言を頂き、全くそのとおりだと思いました。
GoogleのようにWeb全体をクローリングするつもりはありません。


ホストとcharsetを事前に調べておくことで、ある程度フォローできそうです。
無事クロールできたので、これから少しずつ進めていこうと思います。