著者
松本 悠太 林崎 由 北山 晃太郎 舟山 弘晃 三田 雅人 乾 健太郎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第36回 (2022)
巻号頁・発行日
pp.3Yin239, 2022 (Released:2022-07-11)

敬語は日本では社会生活上でのコミュニケーションを円滑に行う上で重要とされているが,敬語を適切に使い分けることは日本語を母語としない日本語学習者にとって困難である.このような問題に対して,常体文を自動的に敬体文へ変換してくれるようなシステムの開発についてはほとんど議論がされておらず,またそのようなシステムを評価するためのデータも存在しないのが現状である. 本研究では任意の常体文に対して,意味を保持しつつ適切な敬体文へ自動変換を行う敬語変換という新たなタスクを提案する.また,本タスクの確立に向けた,データアノテーションスキームおよび評価データセットを提供した.さらに,文表現の分解手法を用いた調査によって敬語変換タスクをスタイル変換タスクの一種として見なして解くことの妥当性および実現可能性を示す.
著者
小山 碧海 喜友名 朝視顕 小林 賢治 新井 美桜 三田 雅人 岡 照晃 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.330-371, 2023 (Released:2023-06-15)
参考文献数
144

本稿では,日本語文法誤り訂正のための誤用タグ付き評価コーパスを構築する.評価コーパスはモデルの性能評価に欠かすことができない.英語文法誤り訂正では様々な評価コーパスの公開により,モデル間の精緻な比較が可能になりコミュニティが発展していった.しかし日本語文法誤り訂正では利用可能な評価コーパスが不足しており,コミュニティの発展を阻害している.本研究ではこの不足を解消するため,日本語文法誤り訂正のための評価コーパスを構築し,一般利用可能な形で公開する.我々は文法誤り訂正において代表的な学習者コーパス Lang-8 コーパスの日本語学習者文から評価コーパスを作成する.また文法誤り訂正分野の研究者や開発者が使いやすい評価コーパスとするため,評価コーパスの仕様を英語文法誤り訂正で代表的なコーパスやツールに寄せる.最後に作成した評価コーパスで代表的な文法誤り訂正モデルを評価し,今後の日本語文法誤り訂正においてベースラインとなるスコアを報告する.
著者
藤井 諒 三田 雅人 阿部 香央莉 塙 一晃 森下 睦 鈴木 潤 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.2, pp.450-478, 2021 (Released:2021-06-15)
参考文献数
45
被引用文献数
1

ニューラル機械翻訳 (NMT) の登場により,ニュース記事など文体の整った入力に対する翻訳の品質は著しく向上してきた.しかし,ソーシャル・ネットワーキング・サービス (SNS) に代表されるユーザ生成コンテンツ (UGC) を対象とした NMT の翻訳には依然として多くの課題が残されている.異文化・多言語交流の促進に向けた機械翻訳システムの活用には,そうした特異な入力を正確に扱うことのできる翻訳モデルの構築が不可欠である.近年では,UGC における翻訳品質の向上に向けたコンペティションが開催されるなどその重要性は広く認知されている.一方で,UGC に起因するどのような要因が機械翻訳システムの出力に悪影響を及ぼすのかは明らかでなく,偏在するユーザコンテンツの翻訳に向けた確かな方向性は依然として定まっていない.そこで本研究では,言語現象に着目した日英機械翻訳システムの頑健性測定データセット PheMT を提案する.特定の言語現象を含む文に特化したデータセットにより,当該表現の翻訳正解率,および正規化に基づく翻訳品質の差分を用いた精緻なエラー分析を可能にする.構築したデータセットを用いた評価により,広く商用に利用される機械翻訳システムを含む,最先端の NMT モデルにおいても十分に扱えない,対処すべき言語現象の存在を明らかにする.
著者
三田 雅人 水本 智也 金子 正弘 永田 亮 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.1, pp.160-182, 2021 (Released:2021-03-15)
参考文献数
42
被引用文献数
1

文法誤り訂正の既存研究の多くはこれまで主に CoNLL-2014 評価データセットを用いた単一コーパス上で文法誤り訂正モデルを評価してきた.しかし,書き手の習熟度やエッセイのトピックなど様々なバリエーションのある入力文が想定される文法誤り訂正タスクにおいて,タスクの難易度は各条件下によって異なるため,単一コーパスによる評価では不十分であると考えられる.そこで本研究では,文法誤り訂正の評価の方法論として,単一コーパス評価は不十分であるという仮説に基づきコーパス横断評価の必要性について調査を行う.具体的には,4 種類の手法 (LSTM, CNN, Transformer, SMT) を 6 種類のコーパス (CoNLL-2014, CoNLL-2013, FCE, JFLEG, KJ, BEA-2019) で評価し,各コーパス間でモデル順位にばらつきが生じるかについて検証を行った.評価実験の結果,モデル順位は各コーパスによって大きく変動したため,既存の単一コーパス評価では不十分であることがわかった.また,横断評価はメタ評価方法としてだけではなく,実応用を見据えた場合においても有用であると考えられる.そこで,横断評価の有用性のケーススタディとして,文法誤り訂正の入力に想定される代表的な条件の一つである,書き手の習熟度を評価セグメントとした場合の横断評価について調査を行った.その結果,書き手の習熟度が初中級レベルと上級レベル間ではモデルの性能評価に関して大きな乖離があることがわかった.