著者
吉井 和輝 Eric Nichols 中野 幹生 青野 雅樹
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-106, no.4, pp.1-8, 2015-05-18

単語ベクトルは,統計的自然言語処理で利用しやすい分散意味表現として近年盛んに用いられるようになってきた.しかしながら,今まで主に英語で評価されてきたため,英語以外の言語での有効性は不明である.本研究では,単語の類推 (word analogy) と文完成 (sentence completion) の二つの評価タスクを用い,著名なオープンソースツールである word2vec (gensim の再実装) と GloVe を用いて構築した日本語単語ベクトルの評価を行った.単語の類推タスクでは,英語データで公表されている結果に近い結果を得たが,文完成のタスクでは,精度が大幅に減少した.本稿では,両タスクのエラー解析で明らかになった英語の単語ベクトルと日本語の単語ベクトルの性能差や,日本語特有の問題について調査した結果について述べる.

言及状況

Twitter (72 users, 73 posts, 170 favorites)

日本語単語ベクトルの構築とその評価 https://t.co/FSuOcvNZ02 日本語はword2vecもGloVeもそれほど分散表現として性能が出ない可能性があることを指摘,ですか….語の類推/文完成タスクではN-Gramに負けるという…
NowBrowsing: 日本語単語ベクトルの構築とその評価 https://t.co/S3YGdU6AgG

収集済み URL リスト