- 著者
-
池田 和史
柳原 正
松本 一則
滝嶋 康弘
- 出版者
- FIT(電子情報通信学会・情報処理学会)運営委員会
- 雑誌
- 情報科学技術フォーラム講演論文集
- 巻号頁・発行日
- vol.8, no.2, pp.13-18, 2009-08-20
ブログ上の文書には口語的な表現や特有の表記などのくだけた表現が多数含まれるため、一般の形態素解析器を用いても十分な解析精度を得ることはできない。くだけた表現は人手により辞書登録されることが一般的であるが、人的コストの大きさや専門的な知識を必要とすることが課題である。本稿ではくだけた表現を文語的な表現に修正するための教師なし学習手法を提案する。提案手法ではくだけた表現の修正候補文字列をくだけた表現の少ない文書から自動的に検索し、修正ルールを生成する。生成した多数の修正ルールから文脈に適した修正ルールを選択的に適用するために、検索結果における修正候補文字列の出現頻度、修正前後の文字列間における編集距離、修正前後の文の形態素解析結果の比較、を用いて修正ルールをスコアリングする手法を合わせて提案する。提案手法を実装し、従来手法との性能比較評価実験を行った。各手法を利用したときの未知語の出現率や文節区切りの正確さ、修正前後の文の意味変化を定量的に評価した。提案手法では従来手法と同程度の文節区切りの正確さを維持しながら、対象文書の未知語出現数を30.3%減少させることに成功した。これは従来手法における未知語減少数の2倍以上である。