著者
青木 竜哉 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.381-406, 2019-06-15 (Released:2019-09-15)
参考文献数
35

ソーシャルメディアにおいては,辞書に掲載されているような用法とは全く異なる使われ方がされている単語が存在する.本論文では,ソーシャルメディアにおける単語の一般的ではない用法を検出する手法を提案する.提案手法では,ある単語が一般的ではない使われ方がされていた場合,その周辺単語は一般的な用法として使われた場合の周辺単語と異なるという仮説に基づいて,着目単語とその周辺単語の単語ベクトルを利用し,注目している単語の周辺単語が均衡コーパスにおける一般的な用法の場合の周辺単語とどの程度異なっているかを評価することにより,一般的ではない用法の検出を行う.ソーシャルメディアにおいて一般的ではない用法を持つ40単語を対象に行った実験の結果,均衡コーパスと周辺単語ベクトルを用いる提案手法の有効性を確認できた.また,一般的でない用法の検出においては,単語ベクトルの学習手法,学習された単語ベクトルの扱い方,学習コーパスを適切に選択することが重要であることがわかった.
著者
川村 陸 青木 竜哉 上垣外 英剛 高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2020, pp.3Rin409, 2020

<p>SNS上のテキストにはスペルミス,強調文字,インターネットスラングなどの非標準的な単語が多く使用される.非標準的な単語を多く含んでいると読者が文章の意味を理解できないだけでなく,SNSを対象とした自然言語処理を行う上の障壁となる.この問題を解決するために,非標準的な単語を含む文を訂正するテキスト標準化が必要とされている.このような需要に対処するため本研究では,深層学習を用いて文字列・音の類似性をモデル化することで,より高度なテキスト標準化を目指す.提案手法では,文字列の類似性を考慮することでpepoleとpeopleの様な表記ゆれに対応することができる.さらに,音の類似性を考慮することで,yesssとyes,disとthisの様な発音に起因した文字の置き換えに対応することが可能である.評価実験では,文字列・音の類似性を考慮した提案手法が最高精度を達成することを確認した.</p>