著者
渡邊 大貴 田村 晃裕 二宮 崇 Teguh Bharata Adji
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.1, pp.207-230, 2019-03-15 (Released:2019-06-15)
参考文献数
40

本論文では,ニューラル機械翻訳 (NMT) の性能を改善するため,CKY アルゴリズムから着想を得た,畳み込みニューラルネットワーク (CNN) に基づく新しいアテンション構造を提案する.提案のアテンション構造は,CKY テーブルを模倣した CNN を使って,原言語文中の隣接する単語/句の全ての可能な組み合わせを表現する.提案のアテンション構造を組み込んだ NMT は,CKY テーブルの各セルに対応する CNN の隠れ状態に対するアテンションスコア(言い換えると,原言語文中の単語の組み合わせに対するアテンションスコア)に基づき目的言語の文を生成する.従来の文構造に基づく NMT は予め構文解析器で解析した文構造を活用するが,提案のアテンション構造を用いる NMT は,原言語文の構文解析を予め行うことなく,原言語の文に潜む構造に対するアライメントを考慮した翻訳を行うことができる.Asian Scientific Paper Excerpt Corpus (ASPEC) 英日翻訳タスクの評価実験により,提案のアテンション構造を用いることで,従来のアテンション構造付きのエンコーダデコーダモデルと比較して,1.43 ポイント BLEU スコアが上昇することを示す.さらに,FBIS コーパスにおける中英翻訳タスクにおいて,提案手法は,従来のアテンション構造付きのエンコーダデコーダモデルと同等かそれ以上の精度を達成できることを示す.
著者
田村 晃裕 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.6, pp.1954-1962, 2006-06-15
参考文献数
12

既存の質問応答システムは,複数文で構成される質問には答えられない.そこで,我々はそのような複数文質問にも対応できる質問応答システムの構築を目指す.その第1 段階として,複数文質問の質問タイプを同定する手法を提案する.具体的には,まず最初に,入力として与えられた複数文質問から質問タイプを決める際に最も重要な1 文を抽出する.そして,その抽出された1 文を用いて質問タイプを同定するという手法をとる.また,本論文では,質問タイプを同定する際に有効な情報となる名詞を特定するルールも提案する.複数文質問を含んだ実験データに対して,これらの情報と手法を用いて質問タイプを同定することで,F 値が8.8%,正解率が4.4%改善できた.Conventional QA systems cannot answer to the questions composed of two or more sentences. Therefore, we aim to construct a QA system that can answer such multiple-sentence questions. As the first stage, we propose a method for classifying multiple-sentence questions into question types. Specifically, we first extract the core sentence from a given question text. Then, we use the core sentence in question classification. We also propose a rule for extracting the effective noun in question classification. The result of experiments with the dataset including multiple-sentence questions shows that the proposed method improves F-measure by 8.8% and accuracy by 4.4%.
著者
田村 晃裕 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.17-24, 2006-11-22
被引用文献数
1

係り受け解析を符号化・復号化問題として解く手法を提案する.従来は,2文節間の係りやすさ,つまり係り受け木でいう親子関係になるかを基に係り受けを解析している.この従来の考えに従うと,親子関係の情報を表した符号を用いた符号化・復号化問題を解くことになる.係り受け解析を符号化・復号化問題と捉えると,符号化・復号化問題における,誤りがある程度生じても訂正できるように,符号に冗長な情報を加え,使用する符号間の距離を大きくする手法を係り受け解析に援用できる.そこで,本研究では,親子関係の情報の他に,祖先子孫関係になるかという情報を冗長な情報として符号に加えることで精度の向上をはかった.実際に本手法で係り受け解析をし,高い精度が得られたことを報告する.We propose a novel method for Japanese dependency analysis. In deterministic approaches to this task, dependency trees are constructed by actions of attaching a bunsetsu chunk to one of the nodes in the trees. Therefore the task is reduced to deciding the node for the new bunsetsu chunk to be attached.We propose to encode each decision with a sequence of binary values, that is, a code. This representation of decisions enables the model to incorporate ancestor-descendant relations between nodes in addition to parent-child relations. We also propose to concatenate the code of parent-child relation and the code of ancestor-descendant relation, so that the added redundancy in codes helps errors be corrected. Experimental results show that the proposed method achieves higher accuracy in the task of Japanese dependency analysis.