ハングルを判定する正規表現

ハングルは全部で11172文字もあるそうです。
ハングルは基本的な記号の組合せでできているのですが、その組み合わせた結果をすべて書き出すと11172文字になるということのようです。
コンピューターの世界では文字コードとしてはAC00からD7AFに割り当てられています。
10進数だと44032から55215までです。これは11184文字分に相当します。ハングルは全部で11172文字なので収まります。

ハングル – Wikipedia

Unicode 2.0 制定時に、新しく U+AC00-D7AF にハングルが定義され旧領域は破棄された。

これらを実際に書き出してみました。

16進数 10進数 ハングル
AC00 44032
D7A3 55203
D7AF 55215

ハングルの範囲は「가」から「힣」までとなります。

実は、元々、やりたかったことは、PHPの正規表現でハングルを表すことでした。

preg_match("/[가-힣]/u",$text);

こうすればハングルを含むかどうかの判定ができそうです。

コメント

タイトルとURLをコピーしました