そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。
似ている単語 まずは転職クチコミで大人気の「残業」あたりから行きましょう。
Word2vecは、「単語の意味をベクトルで表現する」ためのモデルです。
全ての単語だと量が多すぎてよく分からない+t-SNEが終わらないので、マジ卍と似ている単語数百個分を使って可視化してみます。
クラスタリングを行ってプロットを色付けすれば少しは見やすくなるので、各会社のクラスタを求めた上で分布図を書いてみましょう。
gensimで学習させたword2vecの分散表現ベクトルを、scikit-learnのt-SNEで次元圧縮してプロットする。
# vocab = word2vec_model.__dict__['index2word'] vocab = word2vec_model.wv.vocab
200次元ベクトルを人間が理解するのは到底不可能なので、ここでは誰でも簡単に理解できる2次元まで次元を圧縮します。