#author("2021-04-21T09:56:35+00:00","default:hotate","hotate") #author("2021-04-21T09:56:58+00:00","default:hotate","hotate") #contents &tag(自然言語処理,Python); * 情報 [#j872f77f] - [[word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - Np-Urのデータ分析教室>https://www.randpy.tokyo/entry/word2vec_skip_gram_model]] そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 * 事例 [#sc1a2f25] - [[【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita>https://qiita.com/naotaka1128/items/2c4551abfd40e43b0146]] 似ている単語 まずは転職クチコミで大人気の「残業」あたりから行きましょう。 - [[B'zの歌詞をPythonと機械学習で分析してみた 〜Word2Vec編〜 - 下町データサイエンティストの日常>https://pira-nino.hatenablog.com/entry/bz_w2v]] Word2vecは、「単語の意味をベクトルで表現する」ためのモデルです。 - [[「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた - Np-Urのデータ分析教室>https://www.randpy.tokyo/entry/python_word2vec]] 全ての単語だと量が多すぎてよく分からない+t-SNEが終わらないので、マジ卍と似ている単語数百個分を使って可視化してみます。 - [[リクルート式 自然言語処理技術の適応事例紹介>https://www.slideshare.net/recruitcojp/ss-56150629]] 2015/11/20 数理システムユーザーコンファレンス 2015での、池田の講演資料になります * [[可視化]] [#n47a134a] - [[【word2vec】会社のクチコミを自然言語処理した結果を可視化してみる - Qiita>https://qiita.com/naotaka1128/items/e617f63907fed035408a]] クラスタリングを行ってプロットを色付けすれば少しは見やすくなるので、各会社のクラスタを求めた上で分布図を書いてみましょう。 - [[gensimのword2vecの結果を手軽に可視化する方法 | ハックノート>https://hacknote.jp/archives/25247/]] gensimで学習させたword2vecの分散表現ベクトルを、scikit-learnのt-SNEで次元圧縮してプロットする。 -- コメント:下記へ置き換えるとワーニングが無くなる。(2020/04/30) # vocab = word2vec_model.__dict__['index2word'] vocab = word2vec_model.wv.vocab - [[Pythonでword2vecを自在に操って高次元ベクトルを可視化 | みんなのメモ帳>https://yoshipc.net/python-word2vec/]] 200次元ベクトルを人間が理解するのは到底不可能なので、ここでは誰でも簡単に理解できる2次元まで次元を圧縮します。 * [[書籍]] [#s7a5bb5f] - [[現場で使える! Python自然言語処理入門 (AI & TECHNOLOGY)>https://amzn.to/3dBhShK]] - [[現場で使える! Python自然言語処理入門 (AI & TECHNOLOGY) - Amazon>https://amzn.to/3dBhShK]] 従来技術と新技術を比較しつつ、「インデックス化」「エンティティ抽出」「関係抽出」「構文解析」「評価・感情・概念分析」を網羅。 * 関連 [#ka612465] - [[Doc2Vec]] #related #taglist(tag=自然言語処理)