#author("2022-01-09T01:48:12+00:00","default:hotate","hotate") #author("2022-08-11T12:20:44+00:00","default:hotate","hotate") #contents &tag(自然言語処理,日本語); * 類似度 [#n64bc69e] - [[【技術解説】似ている文字列がわかる!レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは - ミエルカAI は、自然言語処理技術を中心とした、RPA開発・サイト改善・流入改善レコメンドエンジンを開発>https://mieruca-ai.com/ai/levenshtein_jaro-winkler_distance/]] レーベンシュタイン距離(Levenshtein Distance)は,ある文字列と別の文字列の最小編集距離で表される距離である. - [[Python で文字列の類似度を比較する - 無駄と文化>https://blog.mudatobunka.org/entry/2016/05/08/154934]] 今回は類似度を用いて二つの単語を評価することで、表記揺れの問題に対処してみます。 * [[用語集]] [#wb255eb3] - [[ジップの法則 | UX TIMES>https://uxdaystokyo.com/articles/glossary/zipfs-law/]] テキスト中の語句ごとの頻出順位と頻度の関係で、k番目に多い語句の頻度が、1番目に多い語句の頻度の1/kの値になる法則 - [[ワードサラダとは - コトバンク>https://kotobank.jp/word/%E3%83%AF%E3%83%BC%E3%83%89%E3%82%B5%E3%83%A9%E3%83%80-687856]] コンピューターで自動生成された、文法的には正しいが、単語の使い方がでたらめなために意味が通らない文章 - [[ネガポジ判定とは 「ネガティブ・ポジティブ判定」 ネガポジはんてい: - IT用語辞典バイナリ>https://www.sophia-it.com/content/%E3%83%8D%E3%82%AC%E3%83%9D%E3%82%B8%E3%81%AF%E3%82%93%E3%81%A6%E3%81%84]] ネガポジ判定とは、主に人の発言や発想などが、前向き(ポジティブ)か後ろ向き(ネガティブ)かを判定することである。 * ツール [#p1747ee9] - [[KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア>https://khcoder.net/]] KH Coderとは、テキスト型(文章型)データを統計的に分析するためのフリーソフトウェアです。アンケートの自由記述・インタビュー記録・新聞記事など、さまざまな社会調査データを分析するために制作しました。 * 関連 [#z44e7542] - [[機械学習]] - [[仕様書]] #related #taglist(tag=自然言語処理)