文字コード<2013.11.15>

HTMLや標準入出力を扱っていると文字コードが気になりだす。
そんなわけで少し文字コードのお勉強とそのまとめ。

代表的なもの4つを紹介

ASCII 昔からある1バイトの文字コード。1バイトといっても8ビット目は使用していないので128通り。アルファベットと数字と少しの記号が128個割り当てられている。 当然日本語は表せない。
JIS 代表的な日本語のコード。エスケープシーケンスにより文字の種類を決めている。
Shift-JIS ちょっと複雑な仕組みの日本語のコード。1~2バイトの可変長で表示された桁数がバイト数と一致する特徴がある。
UTF8 Unicodeと呼ばれるいろんな国の文字が入っている文字セットのひとつ。1~4バイトの可変長。特にインターネットでは一般的に使われている。

おまけ

ANSI windowsを使っていると文字コードの選択肢に入ってくる。OSで使用している言語に合わせて文字コードを切り替えているらしい。日本語の場合はShift-JIS。

改めて調べてみたら文字コードもいっぱいあるんですね。
とりあえずUTF8使っとけばオールオッケーですかね。