- 著者
-
大山 浩美
小町 守
松本 裕治
- 出版者
- 一般社団法人 言語処理学会
- 雑誌
- 自然言語処理 (ISSN:13407619)
- 巻号頁・発行日
- vol.23, no.2, pp.195-225, 2016
- 被引用文献数
-
5
近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.