著者
三浦 康秀 狩野 竜示 谷口 元樹 谷口 友紀 三沢 翔太郎 大熊 智子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.1, pp.59-81, 2019-03-15 (Released:2019-06-15)
参考文献数
42

本稿ではオンライン議論における談話行為を分類するモデルを提案する.提案モデルでは談話行為を分類するために,ニューラルネットワークを用いて議論のパターンを学習する.談話行為の分類において議論のパターンを取り入れる重要性は既存の研究においても確認されているが,対象としている議論に併せたパターン素性を設計する必要があった.提案モデルではパターン素性を用いずに,木構造およびグラフ構造を学習する層を用いて議論のパターンを学習する.提案モデルを Reddit の談話行為を分類するタスクで評価したところ,従来手法と比較して Accuracy で 1.5%,F1 値で 2.2 ポイントの性能向上を確認した.また,提案モデル内の木構造学習層およびグラフ構造学習層間の相互作用を確認するため,提案手法の中間層を注意機構を通じて分析した.
著者
山下 耕二 水上 悦雄
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.39-60, 2007-04-10 (Released:2011-03-01)
参考文献数
34
被引用文献数
1

本研究の目的は, これまで言語学的には感動詞, 言語心理学的には発話の非流暢性として扱われてきた, フィラーを中心に, 情動的感動詞, 言い差し (途切れ) といった話し言葉特有の発話要素を, 人の内的処理プロセスが音声として外化した「心的マーカ」の一部であると捉え, それらが状況によってどのような影響を受けるかを分析し, 対応する内的処理プロセスについて検討することであった.実験的統制のもと, 異なる条件 (役割や親近性, 対面性, 課題難易度) が設定され, 成人男女56名 (18-36歳) に対して, ペアでの協調問題解決である図形説明課題を実施し, 対話データが収集された.その結果, 1) それぞれの出現率は状況差の影響を受けたこと, 2) 出現するフィラーの種類別出現率に差があることが示された.これらの結果が先行研究との対比, 内的処理プロセスと心的マーカの対応, そして結果の応用可能性という観点から考察される.
著者
福田 美穂 関根 聡
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.800-815, 2023 (Released:2023-06-15)
参考文献数
35

一般ドメインでの固有表現抽出が高い精度を実現するようになった今,研究の目標は化学や医療,金融などさまざまなドメインでの固有表現抽出技術の精緻化へとシフトしている.そこで本論文では,ドメイン依存の固有表現抽出技術応用に関する近年の国内研究動向を報告したい.技術に重点を置いた分析は他文献に譲り,具体的な問題を抱えるさまざまなドメインの読者を念頭に「どのようなドメインでどのような対象に対してどのように固有表現抽出が行われているか」を調査した.4 つの学会大会論文および3つの学会論文誌からドメイン依存の固有表現抽出技術に関する論文を調査したところ,該当する論文のうち約半数が,化学ドメインにおける新規商品開発等支援のための化学物質名・化学物質間関係抽出を主題としていた.その他のドメインは,医療,金融,機械加工,文学,食など多岐にわたり,多様な抽出目的・抽出対象を確認できた.技術的には機械学習を使った手法が主流となっており,とくに本論文の調査期間では BiLSTM-CRF および BERT を使う事例が大勢を占めているが,それらを補完する目的で辞書等の言語資源を組み合わせる手法も多く見られている.
著者
Van-Hien Tran Hiroki Ouchi Hiroyuki Shindo Yuji Matsumoto Taro Watanabe
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.304-329, 2023 (Released:2023-06-15)
参考文献数
52

Zero-shot relation extraction aims to recognize (new) unseen relations that cannot be observed during training. Due to this point, recognizing unseen relations with no corresponding labeled training instances is a challenging task. Recognizing an unseen relation between two entities in an input instance at the testing time, a model needs to grasp the semantic relationship between the instance and all unseen relations to make a prediction. This study argues that enhancing the semantic correlation between instances and relations is key to effectively solving the zero-shot relation extraction task. A new model entirely devoted to this goal through three main aspects was proposed: learning effective relation representation, designing purposeful mini-batches, and binding two-way semantic consistency. Experimental results on two benchmark datasets demonstrate that our approach significantly improves task performance and achieves state-of-the-art results. Our source code and data are publicly available.
著者
小澤 俊介 内元 清貴 伝 康晴
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.379-401, 2014-04-18 (Released:2014-07-17)
参考文献数
17
被引用文献数
2 1

言語研究において,新しい品詞体系を用いる場合には,既存の辞書やコーパス,解析器では対応できないことが多いため,これらを再構築する必要がある.これらのうち,辞書とコーパスは再利用できることが少なく,新たに構築する場合が多い.一方,解析器は既存のものを改良することで対応できることが多いものの,どのような改良が必要かは明らかになっていない.本論文では,品詞体系の異なるコーパスの解析に必要となる解析器の改良点を明らかにするためのケーススタディとして,品詞体系の異なる日本語話し言葉コーパス(以下,CSJ)と現代日本語書き言葉均衡コーパス(以下,BCCWJ)を利用して,長単位情報を自動付与した場合に生じる誤りを軽減する方策について述べる.具体的には,CSJ を基に構築した長単位解析器をBCCWJへ適用するため,CSJ と BCCWJ の形態論情報における相違点に応じて,長単位解析器の学習に用いる素性やラベルを改善した.評価実験により提案手法の有効性を示す.

1 0 0 0 OA 最高の文章

著者
鶴岡 慶雅
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.1, 2020-03-15 (Released:2020-06-15)
著者
三村 正人 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.1, pp.88-124, 2023 (Released:2023-03-15)
参考文献数
55

従来の音声認識システムは,入力音声に現れるすべての単語を忠実に再現するように設計されているため,認識精度が高いときでも,人間にとって読みやすい文を出力するとは限らない.これに対して,本研究では,フィラーや言い誤りの削除,句読点や脱落した助詞の挿入,また口語的な表現の修正など,適宜必要な編集を行いながら,音声から直接可読性の高い書き言葉スタイルの文を出力する新しい音声認識のアプローチについて述べる.我々はこのアプローチを単一のニューラルネットワークを用いた音声から書き言葉への end-to-end 変換として定式化する.また,音声に忠実な書き起こしを疑似的に復元し,end-to-end モデルの学習を補助する手法と,句読点位置を手がかりとした新しい音声区分化手法も併せて提案する.700 時間の衆議院審議音声を用いた評価実験により,提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に書き言葉を生成できることを示す.さらに,国会会議録作成時に編集者が行う修正作業を分類・整理し,これらについて提案システムの達成度と誤り傾向の分析を行う.
著者
Michael Paul Andrew Finch Eiichiro Sumita
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.4, pp.563-583, 2013-09-13 (Released:2013-12-12)
参考文献数
29

Recent research on multilingual statistical machine translation (SMT) focuses on the usage of pivot languages in order to overcome resource limitations for certain language pairs. This paper proposes a new method to translate a dialect language into a foreign language by integrating transliteration approaches based on Bayesian alignment (BA) models with pivot-based SMT approaches. The advantages of the proposed method with respect to standard SMT approaches are threefold: (1) it uses a standard language as the pivot language and acquires knowledge about the relation between dialects and a standard language automatically, (2) it avoids segmentation mismatches between the input and the translation model by mapping the character sequences of the dialect language to the word segmentation of the standard language, and (3) it reduces the translation task complexity by using monotone decoding techniques. Experiment results translating five Japanese dialects (Kumamoto, Kyoto, Nagoya, Okinawa, Osaka) into four Indo-European languages (English, German, Russian, Hindi) and two Asian languages (Chinese, Korean) revealed that the proposed method improves the translation quality of dialect translation tasks and outperforms standard pivot translation approaches concatenating SMT engines for the majority of the investigated language pairs.
著者
清田 陽司 黒橋 禎夫 木戸 冬子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.4, pp.127-145, 2004-10-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
2 2

質問応答システムによって収集された大量のユーザ質問文を含むコーパス中から換喩表現とその解釈表現を自動抽出し, それを質問応答システム「ダイアログナビ」におけるユーザ質問文とテキストのマッチングに応用する方法を提案する.具体的には, 換喩表現 (例: GIFを表示する) とその解釈表現 (例: GIFの画像を表示する) のペアをダイアログナビの同義表現辞書に登録することによって, ユーザ質問文とテキスト文の問の係り受け関係のずれを解消する.抽出された換喩表現・換喩解釈表現ペアについて評価を行ったところ, 大半は適切なものであった.また, テストセットを用いて実験を行った結果, 提案手法がマッチング精度を改善することがわかった.
著者
美野 秀弥 伊藤 均 後藤 功雄 山田 一郎 徳永 健伸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.4, pp.1162-1183, 2021 (Released:2021-12-15)
参考文献数
34

本稿では,文脈を考慮したニューラル機械翻訳の精度向上のため,目的言語側の前文の参照訳と機械翻訳結果の両方を文脈情報として用いる手法を提案する.文脈として,原言語側または目的言語側の周辺の文が利用できるが,目的言語側の周辺の文を用いる手法は翻訳精度が下がることが報告されている.目的言語側の文脈を利用したニューラル機械翻訳では,学習時は参照訳を用い,翻訳時は機械翻訳結果を用いるため,参照訳と機械翻訳結果の特徴の異なり(ギャップ)が原因の 1 つと考えられる.そこで,学習時と翻訳時の目的言語側の文脈情報のギャップを緩和するために,学習時に用いる目的言語側の文脈情報を学習の進行に応じて参照訳から機械翻訳結果へ段階的に切り替えていく手法を提案する.時事通信社のニュースコーパスを用いた英日・日英機械翻訳タスクと,IWSLT2017 の TED トークコーパスを用いた英日・日英,および英独・独英機械翻訳タスクの評価実験により,従来の目的言語側の文脈を利用した機械翻訳モデルと比較して,翻訳精度が向上することを確認した.
著者
Kazuaki Hanawa Ryo Nagata Kentaro Inui
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.3, pp.901-924, 2022 (Released:2022-09-15)
参考文献数
26

Feedback comment generation is the task of generating explanatory notes for language learners. Although various generation techniques are available, little is known about which methods are appropriate for this task. Nagata (2019) demonstrates the effectiveness of neural-retrieval-based methods in generating feedback comments for preposition use. Retrieval-based methods have limitations in that they can only output feedback comments existing in the given training data. Besides, feedback comments can be made on other grammatical and writing items other than preposition use, which has not yet been addressed. To shed light on these points, we investigate a wider range of methods for generating various types of feedback comments in this study. Our close analysis of the features of the task leads us to investigate three different architectures for comment generation: (i) a neural-retrieval-based method as a baseline, (ii) a pointer-generator-based generation method as a neural seq2seq method, (iii) a retrieve-and-edit method, a hybrid of (i) and (ii). Intuitively, the pointer-generator should outperform neural-retrieval, and retrieve-and-edit should perform the best. However, in our experiments, this expectation is completely overturned. We closely analyze the results to reveal the major causes of these counter-intuitive results and report on our findings from the experiments, which will lead to further developments of feedback comment generation.
著者
古山 翔太 高村 大也 岡崎 直観
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.2, pp.542-586, 2022 (Released:2022-06-15)
参考文献数
52
被引用文献数
1

ニューラル文法誤り訂正では,データ拡張によって学習データの不足を補う手法が活発に研究されている.本研究では,既存のデータ拡張手法が,より良いデータ拡張を行い性能向上を目指す上で重要な要素として,(1) 誤りの多様性が訂正性能に寄与すること,(2) 特定の種類の誤り生成がその種類の誤り訂正性能に寄与すること,(3) データ拡張に用いるコーパスの大きさが訂正性能に寄与することの 3 点が仮定されている.本研究では,これらの仮定の妥当性を検証するため,多様な文法カテゴリでの誤り生成規則を組み合わせる手法を提案し,生成する誤りの種類を変えて誤り訂正モデルを学習することで,比較検証を行う.結果として,仮定 (1) (2) は正しいが,一方で,仮定 (3) においては,コーパスの規模ではなく,パラメータの更新回数と誤りの生成回数が影響することが明らかになった.さらに,提案手法は,学習者コーパスを用いない教師なし設定でも高い性能のモデルを学習でき,学習者コーパスを用いた場合でも,既存の手法と同程度に高性能なモデルを学習できることが明らかになった.折り返し翻訳・逆翻訳によるデータ拡張手法との比較を通じて,また,ルールによる誤り生成とこれらの手法を用いたモデルでは,訂正において得意な誤り種類が異なることが判明した.