ハングルを判定する正規表現

ハングルは全部で11172文字もあるそうです。
ハングルは基本的な記号の組合せでできているのですが、その組み合わせた結果をすべて書き出すと11172文字になるということのようです。
コンピューターの世界では文字コードとしてはAC00からD7AFに割り当てられています。
10進数だと44032から55215までです。これは11184文字分に相当します。ハングルは全部で11172文字なので収まります。 (さらに…)

MySQLのordが返す値

MySQLで文字コードを得るにはASCII()という関数を使います。
マルチバイト文字(日本語の全角文字など)についてはord()を使います。
しかし返す値がよく分かりません。

リファレンスには次の通り書かれています。 (さらに…)

PHPで文字コードを変換「mb_convert_encoding」

PHPでコードを書く場合、文字化け対策が面倒なので、すべてUTF-8で書くことにしています。

しかし世の中にはShift-JISを使っているページも多く、「file_get_contents」などを使うと文字化けすることがあります。
その場合は「mb_convert_encoding」を使います。

mb_convert_encoding(文字列, 変換後文字コード, 変換前文字コード)

文字コードには「JIS」「UTF-8」「EUC-JP」「SJIS」(Shift-JIS)などをセットします。

例えばPHPのコードをUTF-8で書いている場合、外部のShift-JISで書かれたページを取得する場合は、次のようにします。

$text = file_get_contents("xxxxx.htm");
$newtext = mb_convert_encoding($text, "UTF-8", "SJIS");

タグ

カテゴリー

最近の投稿

最近のコメント

固定ページ

アーカイブ

stabucky

写真

メタ情報