著者
荻野 孝野 植田 禎子 小林 正博 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.4, pp.21-54, 2005-08-26 (Released:2011-03-01)
参考文献数
16
被引用文献数
1 1

係り受け関係のついた大量のコーパスを元にして作成されたデータを対象として, 動詞の結合価に関する検討を行った.これは, 係り受け関係まで付与された大量データからなるコーパスが存在してはじめて可能となった分析である.動詞の結合価に関する検討は, 各動詞の基本的な格パターンに着目して結合価を決定することを中心として検討されてきた.しかし, 省略を含め, 結合価が実際の言語データでどういう形で出現しているかについて, 全容を示すようなものは報告されていない.ここでは, 大量のコーパスデータから作成した結合価データを用い, 実際のデータで動詞にかかる格助詞がどういうパターンで出ているのかを調査し, 格助詞パターンの出現状況を把握するとともに, それらの格助詞パターンを用いて同音異表記がどの程度判定できるかを検討した.動詞約12, 400概念 (表記の異なりレベルで約9, 400単語) から作成した動詞の格助詞組み合わせパターンは, 延べパターン数で37, 237パターン, 異なりパターンで188パターンとなった.また, 同音異表記セットについて, これらのパターンを用い, 表記確定を試みたところ, 結合価のうち格助詞組み合わせパターンの異なりによる判定でも格助詞パターンの出現頻度などを判定基準に付加することによって約73%の判定が可能であることがわかった.
著者
萩行 正嗣 河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.213-247, 2014-04-18 (Released:2014-07-17)
参考文献数
12
被引用文献数
2 3

現在,自然言語処理では意味解析の本格的な取り組みが始まりつつある.意味解析の研究には意味関係を付与したコーパスが必要であるが,従来の意味関係のタグ付きコーパスは新聞記事を中心に整備されてきた.しかし,文書には多様なジャンル,文体が存在し,その中には新聞記事では出現しないような言語現象も出現する.本研究では,従来のタグ付け基準では扱われてこなかった現象に対して新たなタグ付け基準を設定した.Webを利用することで多様な文書の書き始めからなる意味関係タグ付きコーパスを構築し,その分析を行った.
著者
谷中 瞳 峯島 宏次 Pascual Martínez-Gómez 戸次 大介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.3, pp.295-324, 2018-06-15 (Released:2018-09-15)
参考文献数
45

文と文がどのような意味的関係にあるかという文間の関連性の計算は,情報検索や文書分類,質問応答などの自然言語処理の基盤を築く重要な技術である.文の意味をベクトルや数値で表現する手法は未だ発展途上であり,自然言語処理分野においては,様々な機械学習による手法が活発に研究されている.これらの手法では,文字や単語を単位としたベクトルを入力として,それらの表層的な出現パターンとその振る舞いを学習することで,文ベクトルを獲得している.しかし,否定表現を含む文など,文の構造的意味を正確に表現できるかは自明ではない.一方で,形式意味論においては,表現力の高い高階論理に基づいて意味の分析を行う研究が発展しているが,文間の関連性のような,連続的な意味的関係を表現することが困難である.そこで本研究では,機械学習と論理推論という二つの手法を組み合わせて文間の関連性を計算する手法を提案する.具体的には,文間の含意関係を高階論理の推論によって判定するシステムの実行過程から,文間の関連性に寄与する特徴を抽出し,文間の関連性を学習する.文間類似度学習と含意関係認識という2つの自然言語処理タスクに関して提案手法の評価を行った結果,推論の過程に関する情報を特徴量に用いることによって,いずれのタスクにおいても精度が向上した.また,含意関係認識用データセットの一つであるSICKデータセットの評価では,最高精度を達成した.
著者
佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.3, pp.253-254, 2018-06-15 (Released:2018-09-15)
著者
藤田 早苗 平 博順 小林 哲生 田中 貴秋
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.515-539, 2014-06-16 (Released:2014-09-16)
参考文献数
21
被引用文献数
3

これまで,主に新聞などのテキストを対象とした解析では,形態素解析器を始めとして高い解析精度が達成されている.しかし分野の異なるテキストに対しては,既存の解析モデルで,必ずしも高い解析精度を得られるわけではない.そこで本稿では,既存の言語資源を対象分野の特徴にあわせて自動的に変換する手法を提案する.本稿では,絵本を解析対象とし,既存の言語資源を絵本の特徴にあわせて自動的に変換し,学習に用いることで相当な精度向上が可能であることを示す.学習には既存の形態素解析器の学習機能を用いる.さらに,絵本自体にアノテーションしたデータを学習に用いる実験を行い,提案手法で得られる効果は,絵本自体への約 11,000 行,90,000 形態素のアノテーションと同程度であることを示す.また,同じ絵本の一部を学習データに追加する場合と,それ以外の場合について,学習曲線や誤り内容の変化を調査し,効果的なアノテーション方法を示す.考察では,絵本の対象年齢と解析精度の関係や,解析精度が向上しにくい語の分析を行い,更なる改良案を示す.また,絵本以外への適用可能性についても考察する.
著者
西川 仁 平尾 努 牧野 俊朗 松尾 義博 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.4, pp.585-612, 2013-09-13 (Released:2013-12-12)
参考文献数
29

本論文では,複数文書要約を冗長性制約付きナップサック問題として捉える.この問題に基づく要約モデルは,ナップサック問題に基づく要約モデルに対し,冗長性を削減するための制約を加えることで得られる.この問題は NP 困難であり,計算量が大きいことから,高速に求解するための近似解法として,ラグランジュヒューリスティックに基づくデコーディングアルゴリズムを提案する.ROUGE に基づく評価によれば,我々の提案する要約モデルは,モデルの最適解において,最大被覆問題に基づく要約モデルを上回る性能を持つ.要約の速度に関しても評価を行い,我々の提案するデコーディングアルゴリズムは最大被覆問題に基づく要約モデルの最適解と同水準の近似解を,整数計画ソルバーと比べ100倍以上高速に発見できることがわかった.
著者
李 凌寒 鶴岡 慶雅
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.664-688, 2023 (Released:2023-06-15)
参考文献数
41

本論文では,ニューラルネットエンコーダが学習する知識のうち,どのような構造的知識が自然言語のタスクを解くのに転移可能かを調査する.提案するアプローチでは,自然言語の構造を模したいくつかの「人工言語」を用いてエンコーダを訓練し,そのエンコーダの自然言語の下流タスクにおける性能を評価することで,事前学習データに含まれている構造的知識の転移可能性を計測する.実験の結果,転移可能なエンコーダを獲得するにあたって,事前学習のデータ系列中において,統計的依存関係が重要であること,係り受け関係を持つ際に入れ子構造が有用であることなどが明らかとなった.こうした結果は,エンコーダが転移可能な抽象的な知識として,位置を考慮したトークンの文脈依存性があることを示唆している.
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.4, pp.351-365, 2011 (Released:2011-12-28)
参考文献数
20

本稿では係り受け構造情報のタグ付けの一貫性について考える.係り受け構造には,統語的制約により一意に決まる構造と選択選好性によるタグ付け作業者に委ねる構造がある.多くの場合,統語的制約を優先してタグ付けられるが,選択選好性に影響され誤ってタグ付ける例が多々ある.このような事例について誤り傾向の差分を評価するために,ゲームを用いた新しい心理言語実験手法を提案する.埋め込み構造によるガーデンパス文を用いて 13 人の被験者で実験を行ったほか,6 種類の係り受け解析器を用いて解析誤り傾向の比較を行った.さらに最も誤った種類の文に対し,選択選好性がどのように影響したかについて報告する.
著者
徳久 雅人 村上 仁一 池原 悟
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.193-217, 2007-04-10 (Released:2011-03-01)
参考文献数
15
被引用文献数
2 4

信頼性の高い情緒タグ付きテキスト対話コーパスを実現することを狙い, 漫画の対話文を対象に, 登場人物の表情を参照する方法によって情緒タグを付与した. また, 得られた対話コーパスの信頼性を評価した. 通常, 言語表現と話者の情緒とは, 必ずしも直接的な対応関係を持つとは限らず, 多義の存在する場合が多いため, 対話文に内包された情緒を言語表現のみによって正しく判定することは難しい. この問題を解決するため, 既に, 音声の持つ言語外情報を活用する方法が試みられているが, 大量の音声データを収集することは容易ではない. そこで, 本稿では, 漫画に登場する人物の表情が持つ情報に着目し, タグ付与の信頼性向上を図った. 具体的には, 漫画「ちびまる子ちゃん」10冊の対話文 (29, 538文) を対象に, 1話につき2人のタグ付与作業者が一時的な「表情タグ」と「情緒タグ」を付与した後に, 正解とする表情タグと情緒タグを両者が協議して決定するという手順で, コーパスを構築した. 決定された正解の情緒タグは16, 635個となった. 評価結果によれば, 付与された一時的な情緒タグの作業者間での「一致率」は78%で, 音声情報を使用した場合 (81. 75%) と比べて遜色のない値を示していること, また, 最終的に決定した情緒タグに対する作業者以外の者による「同意率」は97%であることから, タグ付与の安定性が確認された. また, 得られたコーパスを「情緒表現性のある文末表現の抽出」に使用したところ, 3, 164件の文末表現が清緒の共起割合とともに抽出され, 自然で情緒的な文末表現が得られたことから, 本コーパスに対しての「言語表現と情緒の関係を分析する上での1つの有効性」が示された. 以上から, 情緒判定において, 漫画に登場する人物の表情は, 音声に匹敵する言語外情報を持つことが分かり, それを利用したタグ付与方法の信頼性が確認された.
著者
平岡 達也 高瀬 翔 内海 慶 欅 惇志 岡崎 直観
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.112-143, 2022 (Released:2022-03-15)
参考文献数
49
被引用文献数
2

本稿では,後段モデルと単語分割器を同時に学習することで,後段モデルに適切な単語分割を獲得する新たな手法を提案する.提案手法では,後段モデルを学習する際に得られる教師信号との損失値を用いて単語分割器の学習を行う.これにより,提案手法は損失値が計算できるあらゆる後段モデルに対して制限なく使用することができ,さまざまな自然言語処理のタスクで単語分割の最適化を行うことができる.さらに,提案手法はすでに学習済みの後段モデルに対しても,後処理として単語分割を最適化することで,後段モデルの処理性能を底上げすることができる.そのため,提案手法は自然言語処理のさまざまな場面で利用することが可能である.実験を通して,提案手法が 3 言語の文書分類タスクで性能の向上に貢献することを確認した.また,8 言語対での機械翻訳タスクにおいても,提案手法が性能向上に寄与することを確認した.
著者
Kosuke Takahashi Katsuhito Sudoh Satoshi Nakamura
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.3-22, 2022 (Released:2022-03-15)
参考文献数
23
被引用文献数
1

As the performance of machine translation has improved, the need for a human-like automatic evaluation metric has been increasing. The use of multiple reference translations against a system translation (a hypothesis) has been adopted as a strategy to improve the performance of such evaluation metrics. However, preparing multiple references is highly expensive and impractical. In this study, we propose an automatic evaluation method for machine translation that uses source sentences as additional pseudo-references. The proposed method evaluates a translation hypothesis via regression to assign a real-valued score. The model takes the paired source, reference, and hypothesis sentences together as input. A pre-trained large-scale cross-lingual language model encodes the input to sentence vectors, with which the model predicts a human evaluation score. The results of experiments show that our proposed method exhibited stably higher correlation with human judgements than baseline methods that solely depend on hypothesis and reference sentences, especially when the hypotheses were very high- or low-quality translations.

3 0 0 0 OA 問題を語る

著者
乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.1, pp.1_1-1_2, 2010 (Released:2011-06-30)
被引用文献数
2