JavaScriptで類似度を計算する方法

以前、Pythonで類似度を計算する方法を書きましたが、これをJavaScriptに書き換えてみました。
Pythonの方が書き慣れてしまったこともありますが、JavaScriptも便利な記法が増えていて、移植に時間がかかりました。

コード

function calc_tf(term, terms) {
ct = 0;
for (i in terms) {
w = terms[i];
if (w == term) {
ct += 1;
}
}
return ct / terms.length;
}

function calc_tfidf(word, words, texts) {
tr = calc_tf(word, words);
idf = calc_idf(word, texts);
return tr * idf
}

function calc_vector_tfidf(target_terms, texts) {
v = [];
for (i in target_terms) {
target = target_terms[i];
v[target] = calc_tfidf(target, target_terms, texts);
}
return v;
}

テスト

target_terms = ["りんご", "みかん"];
texts = [
["りんご", "みかん"],
["りんご", "みかん", "みかん"],
["りんご", "みかん", "ばなな"],
["りんご", "ぶどう", "ばなな"],
["すいか", "ばなな"],
];
results = get_similar_tfidf(target_terms, texts)
console.log(results);

元となる配列
["りんご", "みかん"]
結果
1.00, ['りんご', 'みかん']
0.96, ['りんご', 'みかん', 'みかん']
0.79, ['りんご', 'みかん', 'ばなな']
0.24, ['りんご', 'ぶどう', 'ばなな']
0.00, ['すいか', 'ばなな']

「りんごみかん」の場合は1.00となり、「すいかばなな」の場合は0.00となります。
その他の結果も妥当であると思われます。

[ 2022年7月31日 | カテゴリー: JavaScript | タグ: 類似度 ]

« 飲食チェーン不祥事一覧 | JavaScriptで簡易的に形態素解析を行い文を検索する方法 »

JavaScriptで簡易的に形態素解析を行い文を検索する方法 | You Look Too Cool より:

2022年7月31日 15:51

[…] JavaScriptで類似度を計算する方法を書きました。これを使って複数の文から類似度の高い文を検索する方法を考えます。 […]

You Look Too Cool

JavaScriptで類似度を計算する方法

コード

テスト

コメント

コメントを残す

タグ

カテゴリー

最近の投稿

最近のコメント

固定ページ

アーカイブ

stabucky

写真

メタ情報