Janome (蛇の目) は,Pure Python で書かれた,辞書内包の形態素解析器です。
Janome is a Japanese morphological analysis engine written in pure Python.
Pythonの形態素解析エンジン。日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き(単語に分割)したりすることができる。
形態素解析以外の前処理も簡単に統合できるanalyzerについて紹介します。
具体的にpandasのDataFrameの形で存在する日本語データの前処理について考えていきます。
本記事では自然言語処理における前処理の種類とその威力について説明します。
本投稿では形態素解析 (分かち書き) する前、つまり文字レベルでの前処理でよく使っているテクニックを紹介します。
TokenCountFilterは実行結果を単語とカウントのtupleで返す。
単語の出現頻度の可視化をまずしてみます。ただ、単純に出現頻度が多い順に単語を並べても芸がないので、可視化としてインパクトのある「Word Cloud」を使います。