著者
Michael Paul Andrew Finch Eiichiro Sumita
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.4, pp.563-583, 2013-09-13 (Released:2013-12-12)
参考文献数
29

Recent research on multilingual statistical machine translation (SMT) focuses on the usage of pivot languages in order to overcome resource limitations for certain language pairs. This paper proposes a new method to translate a dialect language into a foreign language by integrating transliteration approaches based on Bayesian alignment (BA) models with pivot-based SMT approaches. The advantages of the proposed method with respect to standard SMT approaches are threefold: (1) it uses a standard language as the pivot language and acquires knowledge about the relation between dialects and a standard language automatically, (2) it avoids segmentation mismatches between the input and the translation model by mapping the character sequences of the dialect language to the word segmentation of the standard language, and (3) it reduces the translation task complexity by using monotone decoding techniques. Experiment results translating five Japanese dialects (Kumamoto, Kyoto, Nagoya, Okinawa, Osaka) into four Indo-European languages (English, German, Russian, Hindi) and two Asian languages (Chinese, Korean) revealed that the proposed method improves the translation quality of dialect translation tasks and outperforms standard pivot translation approaches concatenating SMT engines for the majority of the investigated language pairs.
著者
清田 陽司 黒橋 禎夫 木戸 冬子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.4, pp.127-145, 2004-10-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
2 2

質問応答システムによって収集された大量のユーザ質問文を含むコーパス中から換喩表現とその解釈表現を自動抽出し, それを質問応答システム「ダイアログナビ」におけるユーザ質問文とテキストのマッチングに応用する方法を提案する.具体的には, 換喩表現 (例: GIFを表示する) とその解釈表現 (例: GIFの画像を表示する) のペアをダイアログナビの同義表現辞書に登録することによって, ユーザ質問文とテキスト文の問の係り受け関係のずれを解消する.抽出された換喩表現・換喩解釈表現ペアについて評価を行ったところ, 大半は適切なものであった.また, テストセットを用いて実験を行った結果, 提案手法がマッチング精度を改善することがわかった.
著者
美野 秀弥 伊藤 均 後藤 功雄 山田 一郎 徳永 健伸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.4, pp.1162-1183, 2021 (Released:2021-12-15)
参考文献数
34

本稿では,文脈を考慮したニューラル機械翻訳の精度向上のため,目的言語側の前文の参照訳と機械翻訳結果の両方を文脈情報として用いる手法を提案する.文脈として,原言語側または目的言語側の周辺の文が利用できるが,目的言語側の周辺の文を用いる手法は翻訳精度が下がることが報告されている.目的言語側の文脈を利用したニューラル機械翻訳では,学習時は参照訳を用い,翻訳時は機械翻訳結果を用いるため,参照訳と機械翻訳結果の特徴の異なり(ギャップ)が原因の 1 つと考えられる.そこで,学習時と翻訳時の目的言語側の文脈情報のギャップを緩和するために,学習時に用いる目的言語側の文脈情報を学習の進行に応じて参照訳から機械翻訳結果へ段階的に切り替えていく手法を提案する.時事通信社のニュースコーパスを用いた英日・日英機械翻訳タスクと,IWSLT2017 の TED トークコーパスを用いた英日・日英,および英独・独英機械翻訳タスクの評価実験により,従来の目的言語側の文脈を利用した機械翻訳モデルと比較して,翻訳精度が向上することを確認した.
著者
Kazuaki Hanawa Ryo Nagata Kentaro Inui
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.3, pp.901-924, 2022 (Released:2022-09-15)
参考文献数
26

Feedback comment generation is the task of generating explanatory notes for language learners. Although various generation techniques are available, little is known about which methods are appropriate for this task. Nagata (2019) demonstrates the effectiveness of neural-retrieval-based methods in generating feedback comments for preposition use. Retrieval-based methods have limitations in that they can only output feedback comments existing in the given training data. Besides, feedback comments can be made on other grammatical and writing items other than preposition use, which has not yet been addressed. To shed light on these points, we investigate a wider range of methods for generating various types of feedback comments in this study. Our close analysis of the features of the task leads us to investigate three different architectures for comment generation: (i) a neural-retrieval-based method as a baseline, (ii) a pointer-generator-based generation method as a neural seq2seq method, (iii) a retrieve-and-edit method, a hybrid of (i) and (ii). Intuitively, the pointer-generator should outperform neural-retrieval, and retrieve-and-edit should perform the best. However, in our experiments, this expectation is completely overturned. We closely analyze the results to reveal the major causes of these counter-intuitive results and report on our findings from the experiments, which will lead to further developments of feedback comment generation.
著者
古山 翔太 高村 大也 岡崎 直観
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.2, pp.542-586, 2022 (Released:2022-06-15)
参考文献数
52
被引用文献数
1

ニューラル文法誤り訂正では,データ拡張によって学習データの不足を補う手法が活発に研究されている.本研究では,既存のデータ拡張手法が,より良いデータ拡張を行い性能向上を目指す上で重要な要素として,(1) 誤りの多様性が訂正性能に寄与すること,(2) 特定の種類の誤り生成がその種類の誤り訂正性能に寄与すること,(3) データ拡張に用いるコーパスの大きさが訂正性能に寄与することの 3 点が仮定されている.本研究では,これらの仮定の妥当性を検証するため,多様な文法カテゴリでの誤り生成規則を組み合わせる手法を提案し,生成する誤りの種類を変えて誤り訂正モデルを学習することで,比較検証を行う.結果として,仮定 (1) (2) は正しいが,一方で,仮定 (3) においては,コーパスの規模ではなく,パラメータの更新回数と誤りの生成回数が影響することが明らかになった.さらに,提案手法は,学習者コーパスを用いない教師なし設定でも高い性能のモデルを学習でき,学習者コーパスを用いた場合でも,既存の手法と同程度に高性能なモデルを学習できることが明らかになった.折り返し翻訳・逆翻訳によるデータ拡張手法との比較を通じて,また,ルールによる誤り生成とこれらの手法を用いたモデルでは,訂正において得意な誤り種類が異なることが判明した.
著者
荒牧 英治 若宮 翔子 矢野 憲 永井 宥之 岡久 太郎 伊藤 薫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.1, pp.119-152, 2018-02-15 (Released:2018-05-15)
参考文献数
15
被引用文献数
3 9

高度な人工知能研究のためには,その材料となるデータが必須となる.医療,特に臨床に関わる分野において,人工知能研究の材料となるデータは主に自然言語文を含む電子カルテである.このようなデータを最大限に利用するには,自然言語処理による情報抽出が必須であり,同時に,情報抽出技術を開発するためのコーパスが必要となる.本コーパスの特徴は,45,000 テキストという我々の知る限りもっとも大規模なデータを構築した点と,単に用語のアノテーションや用語の標準化を行っただけでなく,当該の疾患が実際に患者に生じたかどうかという事実性をアノテーションした点の 2 点である.本稿では病名や症状のアノテーションを対象に,この医療コーパス開発についてその詳細を述べる.人工知能研究のための医療コーパス開発について病名や症状のアノテーションを中心にその詳細を述べる.本稿の構成は以下の通りである.まず,アノテーションの基準について,例を交えながら,概念の定義について述べる.次に,実際にアノテーターが作業した際の一致率などの指標を算出し,アノテーションのフィージビリティについて述べる.最後に,構築したコーパスを用いた病名抽出システムについて報告する.本稿のアノテーション仕様は,様々な医療テキストや医療表現をアノテーションする際の参考となるであろう.
著者
村田 真樹 神崎 享子 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.7, no.1, pp.51-66, 2000-01-10 (Released:2011-03-01)
参考文献数
15

本稿では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する. また, この単語を意味でソートするという考え方を示すと同時に, この考え方と辞書, 階層シソーラスとの関係, さらには多観点シソーラスについても論じる. そこでは単語を複数の属性で表現するという考え方も示し, 今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている. また, 単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.
著者
磯 颯
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.264-269, 2022 (Released:2022-03-15)
参考文献数
8
被引用文献数
1
著者
Yiran Wang Hiroyuki Shindo Yuji Matsumoto Taro Watanabe
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.23-52, 2022 (Released:2022-03-15)
参考文献数
44
被引用文献数
2

This paper presents a novel method for nested named entity recognition. As a layered method, our method extends the prior second-best path recognition method by explicitly excluding the influence of the best path. Our method maintains a set of hidden states at each time step and selectively leverages them to build a different potential function for recognition at each level. In addition, we demonstrate that recognizing innermost entities first results in better performance than the conventional outermost entities first scheme. We provide extensive experimental results on ACE2004, ACE2005, GENIA, and NNE datasets to show the effectiveness and efficiency of our proposed method.
著者
山本 和英 増山 繁 内藤 昭三
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.1, pp.39-55, 1995-01-10 (Released:2011-03-01)
参考文献数
8
被引用文献数
1 2

日本語文章要約システムGREENについて報告する. 一般に, 質の良い文章要約を行うためには, ある一つの言語現象だけをとらえた談話解析だけでは不十分である. なぜなら, 談話に関わる言語現象は相互に関連しているからである. 本研究ではこの観点から, 日本語での様々な表層的特徴をできるだけ多く利用して, 日本語文章の要約を試みる. 本稿では実際に計算機上で試作した論説文要約システムGREENに関して, これで用いられている論説文要約の手法の紹介と, これによって出力された文章の評価を行う.
著者
梶原 智之 西原 大貴 小平 知範 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.4, pp.801-824, 2020-12-15 (Released:2021-03-15)
参考文献数
50

本研究では,日本語の語彙平易化のために,評価用データセット・辞書・実装や評価を支援するツールキットの 3 種類の言語資源を整備する.我々は既存の小規模な単語難易度辞書をもとに単語難易度の推定器を訓練し,大規模な日本語の単語難易度辞書および難解な単語から平易な単語への言い換え辞書を自動構築する.本研究で構築する評価用データセットを用いた評価実験によって,この辞書に基づく語彙平易化システムが高い性能を達成することを示す.我々のツールキットは,辞書の他,語彙平易化パイプラインにおける主要な手法を実装しており,これらの手法を組み合わせたシステムの構築および構築したシステムの自動評価の機能を提供する.
著者
後藤 功雄 田中 英輝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.5, pp.577-597, 2018-12-15 (Released:2019-03-15)
参考文献数
21

ニューラル機械翻訳 (NMT) は入力文の内容の一部が翻訳されない場合があるという問題があるため,NMT の実用には訳出されていない内容を検出できることが重要である.著者らはアテンションの累積確率と出力した目的言語文から入力文を生成する逆翻訳の確率という 2 種類の確率による,入力文の内容の欠落に対する検出効果を調査した.日英の特許翻訳での訳抜けした内容の検出実験を実施し,アテンションの累積確率と逆翻訳の確率はいずれも効果があり,逆翻訳はアテンションより効果が高く,これらを組み合わせるとさらに検出性能が向上することを確認した.また,訳抜けの検出を機械翻訳結果の人手修正のための文選択に応用した場合に効果があることが分かった.