著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14
参考文献数
20
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14 (Released:2013-03-19)
参考文献数
20
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.