日本語テキストを絵文字混じり文に変換する「絵文字変換器」

電子メールを使い始めて二十年くらいになると思いますが、顔文字、絵文字の類を使ったことがありませんでした。
しかしiPhoneを使い始めてからは絵文字が充実してきたので使うようになりました。
最近、絵文字がたくさんあることを知りました。
日本語テキストの絵文字に相当する部分を絵文字に変換するツールを作ってみました。 (さらに…)

日本語辞書の順序でソートする「日本語辞書順ソート」

プログラムを使って、ひらがなをソートすると、文字コード順にソートしてしまうので、日本語辞書通りにはなりません。
大きな原因の一つは、小さな文字(捨て文字)と大きな文字の順序が逆である点です。例えば「しやく(試薬)」と「しゃく(尺)」では「しやく」が前になるはずですが、文字コードでは「ゃ」<「や」であるため、プログラムでは「しゃく」が前に来てしまいます。
また長音が正しく処理できません。例えば「あー」と「あか」では「あー」が前になるはずです。「あー」は「ああ」と読むからです。しかし文字コードでは「か」<「ー」であるため、プログラムでは「あか」が前に来てしまいます。なお「あー」は「ああ」の前に来ます。 (さらに…)

gooラボAPIを利用した「日本語解析ツール」

日本語の文章を解析するツールを作りました。
gooラボAPIの形態素解析、固有表現抽出、ひらがな化に対応しています。

日本語解析ツール

gooラボの「固有表現抽出API」を試す

NTTレゾナントが日本語解析技術に関するAPIを「gooラボ」で公開しました。
いくつかありますが、その中の「固有表現抽出API」を試してみました。

固有表現抽出API:文字列中の人名・地名などを抽出する技術 - gooラボ

サンプルは次のとおりです。PHPで書きました。 (さらに…)

「ヶ月」でなく「か月」を使う

「いっかげつ」を表記する場合、「一ヶ月」や「一箇月」など人によって異なります。
私は「一か月」と書いています。
Googleで調べてみると次の通りでした。 (さらに…)

日本語用マークダウン記法

Markdownは簡単な記号を使って書いたテキストをHTMLに変換する仕組みです。
前にいくつか記事を書いています。

Markdown記法のまとめ | You Look Too Cool
JavaScriptでMarkdown記法をHTMLに変換 | You Look Too Cool

便利なのですが、元々、英語用なので日本語になじまない点があります。
例えば、見出しは「#」を使いますが日本語では使いません。
改行は半角スペース2個を末尾にわざわざ付ける必要があります。これがないと改行せずに前の行の後ろにそのまま続けます。

そこで、日本語にもなじむ記法を考えました。
基本的なところは次のとおりです。 (さらに…)

間違いやすい日本語

文化庁では国語に関する世論調査というものを毎年やっています。

国語に関する世論調査|文化庁

よく採り上げられるのが間違いやすい言葉や慣用句の使い方です。
平成23年度から遡って平成18年度まで、この間違いやすい言葉が採り上げられなかった平成21年度を除いた5年分の「問題」をまとめてみました。 (さらに…)

WindowsでGraphvizを使う

DOT言語でテキストを書いてグラフを画像として出力するのに、GraphViz Charts — Google Developersを使っていたのですが、日本語に対応していないので、別の方法を探していました。
今回、本家のソフトを使ったところ、日本語が使えたので紹介します。Windows7で確認しました。 (さらに…)

「間違い」と「間違え」

「間違い」と「間違え」はどちらが正しいか調べてみました。 (さらに…)

「彷彿とさせる」と「彷彿させる」はどちらが正しい?

「彷彿とさせる」と「彷彿させる」はよく見かける表現ですが、どちらが正しいのでしょうか。
結論から言うとどちらも正しいそうです。
詳しくまとめたページがありました。 (さらに…)

新しい記事 | 古い記事

タグ

カテゴリー

最近の投稿

最近のコメント

固定ページ

アーカイブ

stabucky

写真

メタ情報