#author("2020-04-19T08:15:49+00:00","default:yusami","yusami") #author("2023-06-04T00:15:14+00:00;2020-04-19T08:15:49+00:00","default:hotate","hotate") #contents &tag(自然言語処理, Python); &tag(自然言語処理,Python); * 情報 [#j872f77f] - [[gensim: Doc2Vec Model>https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html]] Introduces Gensim’s Doc2Vec model and demonstrates its use on the Lee Corpus. - [[Doc2Vecについてまとめる - Qiita>https://qiita.com/g-k/items/5ea94c13281f675302ca]] Doc2Vecは任意の長さの文章を固定長のベクトルに変換する技術です -- コメント:サンプルコードもあり分かりやすい。(2020/04/18) - [[Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル - DeepAge>https://deepage.net/machine_learning/2017/01/08/doc2vec.html]] Doc2Vecは、任意の長さの文書をベクトル化する技術で、文やテキストに対して分散表現(Document Embeddings)を獲得することができる。 - [[Doc2Vecによる文書ベクトル推論の安定化について - Sansan Builders Box>https://buildersbox.corp-sansan.com/entry/2019/04/10/110000]] Doc2Vecによる文書ベクトル推論の問題点 1. 同一文書に対するinfer_vector() の実行毎に得られるベクトルが異なる。 -- コメント:確かに実行毎に異なる結果が得られた。(2020/04/18) - [[日本語Wikipediaで学習したdoc2vecモデル - Out-of-the-box>https://yag-ays.github.io/project/pretrained_doc2vec_wikipedia/]] 日本語のdoc2vecの学習済みモデルは探した限り容易に利用できるものがなかったこともあり、せっかくなので作成したモデルを配布します。 -- コメント:モデルのファイルサイズが巨大。未検証。(2020/04/19) * 関連 [#ka612465] #related #taglist(tag=自然言語処理)