Janome (蛇の目) は,Pure Python で書かれた,辞書内包の形態素解析器です。
Janome is a Japanese morphological analysis engine written in pure Python.
v0.4.0 以上では, 64bit アーキテクチャにおいて mmap=True がデフォルトになりました(32bit アーキテクチャでのデフォルトは False)。
Pythonの形態素解析エンジン。日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き(単語に分割)したりすることができる。
形態素解析以外の前処理も簡単に統合できるanalyzerについて紹介します。
具体的にpandasのDataFrameの形で存在する日本語データの前処理について考えていきます。
本記事では自然言語処理における前処理の種類とその威力について説明します。
本投稿では形態素解析 (分かち書き) する前、つまり文字レベルでの前処理でよく使っているテクニックを紹介します。
ひらがな・カタガナ・英数字の一文字しか無い単語は削除
TokenCountFilterは実行結果を単語とカウントのtupleで返す。