ハングルを判定する正規表現
ハングルは全部で11172文字もあるそうです。
ハングルは基本的な記号の組合せでできているのですが、その組み合わせた結果をすべて書き出すと11172文字になるということのようです。
コンピューターの世界では文字コードとしてはAC00からD7AFに割り当てられています。
10進数だと44032から55215までです。これは11184文字分に相当します。ハングルは全部で11172文字なので収まります。
Unicode 2.0 制定時に、新しく U+AC00-D7AF にハングルが定義され旧領域は破棄された。
これらを実際に書き出してみました。
16進数 | 10進数 | ハングル |
---|---|---|
AC00 | 44032 | 가 |
D7A3 | 55203 | 힣 |
D7AF | 55215 |
ハングルの範囲は「가」から「힣」までとなります。
実は、元々、やりたかったことは、PHPの正規表現でハングルを表すことでした。
こうすればハングルを含むかどうかの判定ができそうです。
[ 2013年4月7日 | カテゴリー: PHP | タグ: ハングル , 文字コード , 正規表現 ]
« Excelでマクロを実行せずにファイルを開く方法 | VBAのエラートラップを使うには »
コメントを残す