著者
水本 智也 小町 守
雑誌
情報処理
巻号頁・発行日
vol.53, no.3, pp.217-223, 2012-02-15

日本語学習者は世界的に増加傾向であり,自然言語処理を利用した学習者支援が望まれている.しかしながら,日本語学習者の書いた文は誤りやひらがな,ローマ字を含んでおり,従来の日本語母語話者の文を対象とした自然言語処理の技術をそのまま適用してもうまく処理することができないといった問題がある.本稿では,ウェブの登場によって新しく産まれつつある日本語学習者コーパスとそこに含まれる従来の自然言語処理の技術では扱えない学習者の誤りを紹介し,ウェブから抽出した大規模データを用いた日本語学習支援の新しいアプローチについて述べ,自然言語処理を使った日本語学習支援のための今後の課題を示す.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.5, pp.420-432, 2013-09-01 (Released:2013-07-10)
参考文献数
16
被引用文献数
3 3

Recently, natural language processing research has begun to pay attention to second language learning. However, it is not easy to acquire a large-scale learners' corpus, which is important for a research for second language learning by natural language processing. We present an attempt to extract a large-scale Japanese learners' corpus from the revision log of a language learning social network service.This corpus is easy to obtain in large-scale, covers a wide variety of topics and styles, and can be a great source of knowledge for both language learners and instructors. We also demonstrate that the extracted learners' corpus of Japanese as a second language can be used as training data for learners' error correction using a statistical machine translation approach.We evaluate different granularities of tokenization to alleviate the problem of word segmentation errors caused by erroneous input from language learners.We propose a character-based SMT approach to alleviate the problem of erroneous input from language learners.Experimental results show that the character-based model outperforms the word-based model when corpus size is small and test data is written by the learners whose L1 is English.
著者
三田 雅人 水本 智也 金子 正弘 永田 亮 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.1, pp.160-182, 2021 (Released:2021-03-15)
参考文献数
42
被引用文献数
1

文法誤り訂正の既存研究の多くはこれまで主に CoNLL-2014 評価データセットを用いた単一コーパス上で文法誤り訂正モデルを評価してきた.しかし,書き手の習熟度やエッセイのトピックなど様々なバリエーションのある入力文が想定される文法誤り訂正タスクにおいて,タスクの難易度は各条件下によって異なるため,単一コーパスによる評価では不十分であると考えられる.そこで本研究では,文法誤り訂正の評価の方法論として,単一コーパス評価は不十分であるという仮説に基づきコーパス横断評価の必要性について調査を行う.具体的には,4 種類の手法 (LSTM, CNN, Transformer, SMT) を 6 種類のコーパス (CoNLL-2014, CoNLL-2013, FCE, JFLEG, KJ, BEA-2019) で評価し,各コーパス間でモデル順位にばらつきが生じるかについて検証を行った.評価実験の結果,モデル順位は各コーパスによって大きく変動したため,既存の単一コーパス評価では不十分であることがわかった.また,横断評価はメタ評価方法としてだけではなく,実応用を見据えた場合においても有用であると考えられる.そこで,横断評価の有用性のケーススタディとして,文法誤り訂正の入力に想定される代表的な条件の一つである,書き手の習熟度を評価セグメントとした場合の横断評価について調査を行った.その結果,書き手の習熟度が初中級レベルと上級レベル間ではモデルの性能評価に関して大きな乖離があることがわかった.
著者
水本 智也
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.40-41, 2015-12-15

自然言語処理を用いた応用タスクとして自動英文校正は注目を集めている.英文校正タスクは2011〜2014年と4年連続で訂正性能を競う世界的コンペティションが開かれている.本稿では英文校正の難しさの1つに注目し,2014年に開かれた英文訂正のコンペティションで好成績をおさめた統計的機械翻訳を用いた英文校正システムの結果から分析する.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

我々は統計的機械翻訳の手法を使い,学習者の作文誤り訂正を行ってきた.これまでの研究では,単語から単語への訂正ではなく,文字から文字への訂正を行なう文字単位の手法を用いて性能を向上させた.一方で,文字単位を用いることで単語の情報は失われ,訂正できなくなる場合もあった.そこで本研究では,これまで行ってきた研究の文字単位の手法を発展させ,文字単位と単語単位を組み合せることで性能が向上することを確かめた.
著者
水本智也 松本裕治
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.4, pp.1-5, 2014-05-15

第 2 言語を学習する人が増え,コンピュータによる第 2 言語学習支援に関する研究が盛んに行なわれている.その中でも特に英語の文法誤り訂正の研究が行なわれており,文法誤り訂正の性能を競う世界規模の Shared Task が 4 年連続で開催される.学習者の犯す誤りは様々なタイプがあり,全ての誤りタイプを訂正するために,統計的機械翻訳を用いた誤り訂正が提案されている.本稿では,統計的機械翻訳による誤り訂正結果の n-best の中に,1-best の場合よりもよい訂正が含まれていることに注目する.実際の出力結果を分析することで,リランキングによる性能向上が可能であるかを議論する.
著者
水本智也 松本裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.4, pp.1-5, 2014-05-15

第 2 言語を学習する人が増え,コンピュータによる第 2 言語学習支援に関する研究が盛んに行なわれている.その中でも特に英語の文法誤り訂正の研究が行なわれており,文法誤り訂正の性能を競う世界規模の Shared Task が 4 年連続で開催される.学習者の犯す誤りは様々なタイプがあり,全ての誤りタイプを訂正するために,統計的機械翻訳を用いた誤り訂正が提案されている.本稿では,統計的機械翻訳による誤り訂正結果の n-best の中に,1-best の場合よりもよい訂正が含まれていることに注目する.実際の出力結果を分析することで,リランキングによる性能向上が可能であるかを議論する.