#author("2021-04-14T12:17:35+00:00","default:hotate","hotate") #author("2023-06-04T00:24:06+00:00;2021-04-14T12:17:35+00:00","default:hotate","hotate") #contents &tag(自然言語処理, Python); &tag(自然言語処理,Python); * 情報 [#f9cc2b26] - [[Welcome to janome's documentation! (Japanese)>https://mocobeta.github.io/janome/]] Janome (蛇の目) は,Pure Python で書かれた,辞書内包の形態素解析器です。 - [[mocobeta/janome: Japanese morphological analysis engine written in pure Python>https://github.com/mocobeta/janome]] Janome is a Japanese morphological analysis engine written in pure Python. ** 0.4.0 [#jac825fb] - [[Welcome to janome's documentation! (Japanese) — Janome v0.4 documentation (ja)>https://mocobeta.github.io/janome/#memory-mapped-file-v0-3-3]] v0.4.0 以上では, 64bit アーキテクチャにおいて mmap=True がデフォルトになりました(32bit アーキテクチャでのデフォルトは False)。 -- コメント:[[macOS]]ではデフォルトの上限が"256"なのでエラーが起こる可能性が高い。"ulimit -n 5000"等と上限を増やすか、"mmap=False"として利用する。(2021/04/14) --- https://github.com/mocobeta/janome/issues/100 * 事例 [#afd25f7b] - [[Python, Janomeで日本語の形態素解析、分かち書き(単語分割) | note.nkmk.me>https://note.nkmk.me/python-janome-tutorial/]] Pythonの形態素解析エンジン。日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き(単語に分割)したりすることができる。 - [[Python janomeのanalyzerが便利 - け日記>https://ohke.hateblo.jp/entry/2017/11/02/230000]] 形態素解析以外の前処理も簡単に統合できるanalyzerについて紹介します。 - [[python-snippets/janome_example.py at 4fbbec5042f20edf7a05c4c3bb9aadd4d58145db · nkmk/python-snippets>https://github.com/nkmk/python-snippets/blob/4fbbec5042f20edf7a05c4c3bb9aadd4d58145db/notebook/janome_example.py]] -- コメント:サンプルが豊富に載っている。(2020/01/01) ** 前処理 [#oe66d948] - [[Python3×日本語:自然言語処理の前処理まとめ - Qiita>https://qiita.com/chamao/items/7edaba62b120a660657e]] 具体的にpandasのDataFrameの形で存在する日本語データの前処理について考えていきます。 - [[自然言語処理における前処理の種類とその威力 - Qiita>https://qiita.com/Hironsan/items/2466fe0f344115aff177]] 本記事では自然言語処理における前処理の種類とその威力について説明します。 - [[形態素解析前の日本語文書の前処理 (Python) - け日記>https://ohke.hateblo.jp/entry/2019/02/09/141500]] 本投稿では形態素解析 (分かち書き) する前、つまり文字レベルでの前処理でよく使っているテクニックを紹介します。 - [[Pythonでトピックモデル Word Cloud と LDA - 見習いデータサイエンティストの隠れ家>https://www.dskomei.com/entry/2018/04/11/001944]] ひらがな・カタガナ・英数字の一文字しか無い単語は削除 ** フィルタ [#m9ace8d6] - [[PythonのJanomeを用いた形態素解析 - iMind Developers Blog>https://blog.imind.jp/entry/2019/01/14/174853]] TokenCountFilterは実行結果を単語とカウントのtupleで返す。 -- コメント:フィルタと言いつつも他のフィルタ利用時と比較して、出力形式が異なる点に注意。(2020/01/26) * [[可視化]] [#ce13cccf] - WordCloud * 関連 [#i17e3637] - [[mecab]] - [[Python]] #related #taglist(tag=自然言語処理)