著者
斉藤 いつみ 貞光 九月 浅野 久子 松尾 義博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.2, pp.297-314, 2017-03-15 (Released:2017-06-15)
参考文献数
16
被引用文献数
1

ソーシャルメディア等の崩れた日本語の解析においては,形態素解析辞書に存在しない語が多く出現するため解析誤りが新聞等のテキストに比べ増加する.辞書に存在しない未知語の中でも,既知の辞書語からの派生に関しては,正規形を考慮しながら解析するという表記正規化との同時解析の有効性が確認されている.本研究では,これまで焦点があてられていなかった,文字列の正規化パタン獲得に着目し,アノテーションデータから文字列の正規化パタンを統計的に抽出する.統計的に抽出した文字列正規化パタンと文字種正規化を用いて辞書語の候補を拡張し形態素解析を行った結果,従来法よりも再現率,精度ともに高い解析結果を得ることができた.

言及状況

外部データベース (DOI)

はてなブックマーク (2 users, 2 posts)

[twitter][nlp][日本語] Twitterで見られるような表記を崩した表現の形態素解析

Twitter (5 users, 6 posts, 5 favorites)

43. 文字列正規化パタンの獲得と崩れ表記正規化に基づく日本語形態素解析 (2017) Twitter等の表記崩れを含む文に, 正規化と形態素解析を同時に行う研究. アライメントモデルの学習→形態素解析器の構築の2段階からなる. 非ニューラル手法ながら分かち書きの性能はF1 0.886 https://t.co/T4grEeIO75 https://t.co/emHr5cxtYP
Twitterで見られるような表記を崩した表現の形態素解析 "自然言語処理24_297 - ja" https://t.co/oeloUhfDEj #twitter #nlp #日本語
文字列正規化パタンの獲得と崩れ表記正規化に基づく日本語形態素解析 "自然言語処理24_297 - ja" https://t.co/oeloUhfDEj

収集済み URL リスト