レーベンシュタイン距離(Levenshtein Distance)は,ある文字列と別の文字列の最小編集距離で表される距離である.
今回は類似度を用いて二つの単語を評価することで、表記揺れの問題に対処してみます。
テキスト中の語句ごとの頻出順位と頻度の関係で、k番目に多い語句の頻度が、1番目に多い語句の頻度の1/kの値になる法則
コンピューターで自動生成された、文法的には正しいが、単語の使い方がでたらめなために意味が通らない文章
KH Coderとは、テキスト型(文章型)データを統計的に分析するためのフリーソフトウェアです。アンケートの自由記述・インタビュー記録・新聞記事など、さまざまな社会調査データを分析するために制作しました。