2010/05/26

文字コードの話

初心者の私はやっぱり文字コードで止まりました。
org.apache.commons.httpclient.methods.GetMethodのgetResponseCharSet()がうまく動かない。
HTTPの仕組みについて確認しておくとしよう。

・エンコード
HttpMethodBase#getResponseCharSetにて取得可能ですが、Httpヘッダにセットされていないサイトなどではiso-8859になりますので、ここだけ見ていてはNGです。
やはり、HTMLのheadタグないのContent-Typeをパースするほうが無難です。
http://blog.mono-koubou.net/archives/92