著者
大矢 康介 阪本 浩太郎 渋木 英潔 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.31-63, 2020-03-15 (Released:2020-06-15)
参考文献数
23

本稿では,世界史に関する大学入試論述問題に対して自動要約手法に基づき解答を自動生成する際の知識源の一つとして世界史用語集に注目し,見出し語と語釈部に分かれている文書データから解答となる文章を作成するために,語釈文における見出し語に照応するゼロ代名詞とその表層格を推定する手法を提案する.本稿の扱うタスクは,先行詞候補が見出し語に限られている一方でそれに照応するゼロ代名詞を複数の候補から一つ選ぶという点,および先行詞である見出し語が文中に存在しないため,照応解析において有効な手掛かりとなる先行詞の文脈情報が全く使えないという点で,従来のゼロ代名詞照応解析とは異なる.世界史用語集を対象とした評価実験を行った結果,KNP を用いた既存のゼロ照応解析を使用した手法に比べ,提案手法が有効であることが確認された.さらに,出現頻度の低い表層格で埋め込まれる場合の精度低下が観察されたため,通常の文から擬似訓練事例を生成する手法を検討した.同事例を使用した結果,ヲ格,ニ格の推定の F 値を改善できることが確認された.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.4, pp.67-81, 2007-07-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
1 2

本稿では, 格フレームに基づき構文・格解析を統合的に行う確率モデルを提案する.格フレームは, ウェブテキスト約5億文から自動的に構築した大規模なものを用いる.確率モデルは, 述語項構造を基本単位とし, それを生成する確率であり, 格フレームによる語彙的な選好を利用するものである.ウェブのテキストを用いて実験を行い, 特に述語項構造に関連する係り受けの精度が向上することを確認した.また, 語彙的選好がどの程度用いられているかを調査したところ, 60.7%という高い割合で使われていることがわかり, カバレージの高さを確認することができた.
著者
新納 浩幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.4, pp.329-330, 2018-09-15 (Released:2018-12-15)
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.3, pp.635-652, 2019-09-15 (Released:2019-12-15)
参考文献数
30

ヒトの文処理のモデル化として Hale によりサプライザルが提案されている.サプライザルは文処理の負荷に対する情報量基準に基づいた指標で,当該単語の文脈中の負の対数確率が文処理の困難さをモデル化するとしている.日本語において眼球運動測定を用いて文処理の負荷をモデル化する際に,統語における基本単位である文節単位の読み時間を集計する.一方,単語の文脈中の生起確率は形態素や単語といった単位で評価し,この齟齬が直接的なサプライザルのモデル化を難しくしていた.本論文では,この問題を解決するために単語埋め込みを用いる.skip-gram の単語埋め込みの加法構成性に基づき,文節構成語のベクトルから文節のベクトルを構成し,隣接文節間のベクトルのコサイン類似度を用いて,文脈中の隣接尤度をモデル化できることを確認した.さらに,skip-gram の単語埋め込みに基づいて構成した文節のベクトルのノルムが,日本語の読み時間のモデル化に寄与することを発見した.
著者
有本 泰子 大野 澄雄 飯田 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.147-163, 2007-04-10 (Released:2011-03-01)
参考文献数
19
被引用文献数
2 5

音声認識の精度の向上にともなって, コールセンターなどへの自動音声応答システムの導入の要求が高まり, 人間がコンピュータと対話する機会も増加する傾向にある.これまでの対話システムは言語情報のみを扱い, そのパラ言語情報を扱うことは少ないため, 人間同士の対話と比較すると, コンピュータとの対話ではコンピュータが得る人間の情報は小さい.本研究では音声の音響的特徴と言語表現の特徴から推定可能な「怒り」の感情を検出するために, 感情の程度による音響的・言語的変化を分析し, コンピュータと人間とのインタラクションにおける人間の感情を捉えることを目指す.非対面の擬似対話により, 認識性能に対する不満からくる「苛立ち」や, クレーム対応時におけるユーザの「腹立ち」の内的感情を表現した怒りの音声を収録し, 主観評価により感情の程度を付与した音声データを作成した.本論では, 怒りの感情を含むと判定された発話について, つぎの3種の特性, 声の高さや強さ等の音響的特徴, 言語形態上の語彙使用の特徴, 語用論的な特徴である文末表現の特徴に着目し, 発話者の感情表現とその言語表現・音響的特徴との定量的な関係を分析し, 怒り表現の音声言語の特徴付けを試みた.とくに, 接続助詞「けど」, 「ので」の主節が現れずに発話が中止する接続助詞中止型において, 怒りの程度が高いことを明らかにした.
著者
村田 真樹 長尾 真
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.3, no.1, pp.67-81, 1996-01-10 (Released:2011-03-01)
参考文献数
10

日本語文章における名詞の指す対象が何であるかを把握することは, 対話システムや高品質の機械翻訳システムを実現するために必要である. そこで, 本研究では名詞の指示性と修飾語と所有者の情報を用いて名詞の指示対象を推定する. 日本語には冠詞がないことから, 二つの名詞が照応関係にあるかどうかを判定することが困難である. これに対して, 我々は冠詞にほぼ相当する名詞の指示性を表層表現から推定する研究を行なっており (M. Murata and M. Nagao 1993), この名詞の指示性を用いて名詞が照応するか否かを判定する. 例えば, 名詞の指示性が定名詞ならば既出の名詞と照応する可能性があるが, 不定名詞ならば既出の名詞と照応しないと判定できる. さらに, 名詞の修飾語や所有者の情報を用い, より確実に指示対象の推定を行なう. この結果, 学習サンプルにおいて適合率82%, 再現率85%の精度で, テストサンプルにおいて適合率79%, 再現率77%の精度で, 照応する名詞の指示対象の推定をすることができた. また, 対照実験を行なって名詞の指示性や修飾語や所有者を用いることが有効であることを示した.
著者
横川 博一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.4, pp.3-22, 1999-07-10 (Released:2011-03-01)
参考文献数
18

日本語の照応関係理解のプロセスにおいて, どのようなストラテジーが関与しているのかについて, 言語心理学的実験を通して考察した. 実験1では, 自己のペースによる読解課題およびプローブ認識課題を用いて, 日本語の主語を表す「が」と主題を表す「は」の違いが照応関係理解に影響を及ぼすかどうかについて調査した. その結果, 「は」でマークされた名詞句で読解時間がかかる傾向が見られ, それを照応表現の指示対象として優先する傾向が見られた. また, プローブ認識課題では, 主題を表す「は」の影響が見られ, 目的語名詞句よりも主語名詞句をプローブ語として呈示した場合の方が判断時間が速い傾向が見られた. このように, 主題の影響が見られたことから, 「主題割当方略」とでも言うべきストラテジーが利用されていることが分かった.実験2では, 英語の実験に基づいて提案されている「主語割当方略」や「平行機能方略」と呼ばれるストラテジーが日本語の照応理解にも利用されるのかどうかについて調査した結果, parallelな構造をもつ文では, 平行機能方略が用いられることが分かった. さらに実験3では, これら2つのストラテジーおよびその他のストラテジーと主題割当方略との相互関係について調査を行った. その結果, 日本語の照応関係理解のプロセスでは, これらのストラテジー競合する場合, 主題割当方略が優先的に利用されることが分かった. このことは, 日本語が「主題卓立言語」としての性質を持っていることを示している.
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.301-327, 2019-06-15 (Released:2019-09-15)
参考文献数
32

本論文では,リーダビリティ評価を目的として,日本語テキストの読み時間と節境界分類の対照分析を行う.日本語母語話者の読み時間データ BCCWJ-EyeTrack と節境界情報アノテーションを『現代日本語書き言葉均衡コーパス』上で重ね合わせ,ベイジアン線形混合モデルを用いて節末で,どのように読み時間が変わるかについて検討した.結果,英語などの先行研究で言われている節末で読み時間が長くなるという wrap-up effect とは反対の結果が得られた.他の結果として,節間の述語項関係が読み時間の短縮に寄与することがわかった.
著者
笹野 遼平 河原 大輔 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1207-1233, 2014-12-15 (Released:2015-03-15)
参考文献数
31

日本語において受身文や使役文を能動文に変換する際,格交替が起こる場合がある.本論文では,対応する受身文・使役文と能動文の格の用例や分布の類似性に着目し,Web から自動構築した大規模格フレームと,人手で記述した少数の格の交替パターンを用いることで,受身文・使役文と能動文の表層格の対応付けに関する知識を自動獲得する手法を提案する.さらに,自動獲得した知識を受身文・使役文の能動文への変換における格交替の推定に利用することによりその有用性を示す.
著者
笹野 遼平 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.687-703, 2017

<p>日本語二重目的語構文の基本語順に関しては多くの研究が行われてきた.しかし,それらの研究の多くは,人手による用例の分析や,脳活動や読み時間の計測を必要としているため,分析対象とした用例については信頼度の高い分析を行うことができるものの,多くの仮説の網羅的な検証には不向きであった.一方,各語順の出現傾向は,大量のコーパスから大規模に収集することが可能である.そこで本論文では,二重目的語構文の基本語順はコーパス中の語順の出現割合と強く関係するという仮説に基づき,大規模コーパスを用いた日本語二重目的語構文の基本語順に関する分析を行う.100 億文を超える大規模コーパスから収集した用例に基づく分析の結果,動詞により基本語順は異なる,省略されにくい格は動詞の近くに出現する傾向がある,Pass タイプと Show タイプといった動詞のタイプは基本語順と関係しない,ニ格名詞が着点を表す場合は有生性を持つ名詞の方が「にを」語順をとりやすい,対象の動詞と高頻度に共起するヲ格名詞およびニ格名詞は動詞の近くに出現しやすい等の結論が示唆された.</p>
著者
杉山 享志朗 水上 雅博 Graham Neubig 吉野 幸一郎 鈴木 優 中村 哲
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.5, pp.437-461, 2016-12-15 (Released:2017-03-15)
参考文献数
19

質問応答システムが高い精度で幅広い質問に解答するためには,大規模な知識ベースが必要である.しかし,整備されている知識ベースの規模は言語により異なり,小規模の知識ベースしか持たない言語で高精度な質問応答を行うためには,機械翻訳を用いて異なる言語の大規模知識ベースを利用して言語横断質問応答を行う必要がある.ところが,このようなシステムでは機械翻訳システムの翻訳精度が質問応答の精度に影響を与える.一般的に,機械翻訳システムは人間が与える評価と相関を持つ評価尺度により精度が評価されている.そのため,この評価尺度による評価値が高くなるように機械翻訳システムは最適化されている.しかし,質問応答に適した翻訳結果は,人間にとって良い翻訳結果と同一とは限らない.つまり,質問応答システムに適した翻訳システムの評価尺度は,人間の直感に相関する評価尺度とは必ずしも合致しないと考えた.そこで本論文では,複数の翻訳手法を用いて言語横断質問応答データセットを作成し,複数の評価尺度を用いてそれぞれの翻訳結果の精度を評価する.そして,作成したデータセットを用いて言語横断質問応答を行い,質問応答精度と翻訳精度との相関を調査する.これにより,質問応答精度に影響を与える翻訳の要因や,質問応答精度と相関が高い評価尺度を明らかにする.さらに,自動評価尺度を用いて翻訳結果のリランキングを行うことによって,言語横断質問応答の精度を改善できることを示す.
著者
SANDUIJAV ENKHBAYAR 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.185-205, 2005-10-10 (Released:2011-06-07)
参考文献数
4
被引用文献数
1 4

本論文では, 現時点で利用可能なモンゴル語の言語資源, 特に, 名詞・動詞の語幹のリスト, および, 名詞・動詞に接続する語尾のリストから, モンゴル語の名詞句・動詞句を生成する手法を提案する.具体的には, 名詞・動詞の語幹に語尾が接続する際の音韻論的・形態論的制約を整備し, 語幹・語尾の語形変化の規則を作成する.評価実験の結果において, 100%近くの場合について, 生成された名詞句・動詞句の中に正しい句候補が含まれるという性能を達成した.さらに, 本論文では, この句生成に基づいて, モンゴル語の名詞句・動詞句の形態素解析を行なう手法を提案する.具体的には, まず, 既存のモンゴル語辞書から名詞語幹および動詞語幹を人手で抽出する.次に, これらの語幹に対して, モンゴル語名詞句・動詞句生成規則を適用することにより, 語幹・語尾の組から句を生成するための語形変化テーブルを作成する.そして, この語形変化テーブルを参照することにより, 与えられた名詞句・動詞句を形態素解析して語幹・語尾に分離する.評価実験の結果においては, 語形変化テーブルに登録されている句については, 形態素解析の結果得られる語幹・語尾の組合せの候補の中に, 正しい解析結果が必ず含まれることが確認できた.
著者
江原 暉将 金 淵培
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.3, no.4, pp.67-86, 1996

主語のない日本語文に対し, 確率モデルを用いて自動的にゼロ主語を補完する手法について述べる. これは, 日英機械翻訳の前処理としての自動短文分割の後で適用されるものである. 確率モデルを用いる方法として, 従来 (1) 多次元正規分布に基づくモデルを利用するものがあった. 本稿では, 新たに3種類のゼロ主語補完のためのモデルを提案する. それらは, 連続分布に対して, (2) 正規分布に基づくGram-Charlier展開を多次元に拡張した分布 (疑似正規分布) に基づくモデル, 離散分布に対しては, (3) 1次対数線形分布, (4) 2次対数線形分布に基づくモデルである. これら4種の確率モデルについて, 補完精度を比較する実験を行った. その結果, (1)~(4) の精度は, 順に, 7 3%, 7 8%, 7 8%, 8 1%であり, 2次対数線形分布を用いる方法が最も精度が高かった. また, 補完を誤った事例について考察を加えた結果, 主語と述語の意味的整合性をより正確に計算する必要があることなどがわかった.
著者
関 和広 藤井 敦 石川 徹也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.3, pp.63-85, 2002-07-10 (Released:2011-03-01)
参考文献数
26
被引用文献数
1 2

日本語では, 読み手や聞き手が容易に推測できる語は頻繁に省略される. これらの省略を適切に補完することは, 自然言語解析, とりわけ文脈解析において重要である. 本論文は, 日本語における代表的な省略現象であるゼロ代名詞に焦点を当て, 確率モデルを用いた照応解析手法を提案する. 本手法では, 学習を効率的に行なうため, 確率モデルを統語モデルと意味モデルに分解する. 統語モデルは, ゼロ代名詞の照応関係が付与されたコーパスから学習する. 意味モデルは, 照応関係が付与されていない大規模なコーパスを用いて学習を行ない, データスパースネス問題に対処する. さらに本手法では, 照応解析処理の精度を高めるために確信度を定量化し, 正解としての確信が高いゼロ代名詞のみ選択的に結果を出力することも可能である. 新聞記事を対象にした照応解析実験を通して本手法の有効性を示す.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.419-435, 2012-12-14
参考文献数
23
被引用文献数
1

近年,ウェブの情報を用いて,感染症などの疾病状態を監視するシステムに注目が集まっている.本研究では,ソーシャルメディアを用いたインフルエンザ・サーベイランスに注目する. これまでの多くのシステムは,単純な単語の頻度情報をもとに患者の状態を調査するというものであった.しかし,この方法では,実際に疾患にかかっていない場合の発言を収集してしまう恐れがある.また,そもそも,医療者でない個人の自発的な発言の集計が,必ずしもインフルエンザの流行と一致するとは限らない.本研究では,前者の問題に対応するため, 発言者が実際にインフルエンザにかかっているもののみを抽出し集計を行う.後者の問題に対して,発言と流行の時間的なずれを吸収するための感染症モデルを提案する.実験においては,Twitter の発言を材料にしたインフルエンザ流行の推定値は,感染症情報センターの患者数と相関係数 0.910 という高い相関を示し,その有効性を示した.本研究により,ソーシャルメディア上の情報をそのまま用いるのではなく,文章分類や疾患モデルと組み合わせて用いることで,さらに精度を向上できることが示された.
著者
新納 浩幸 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.5, pp.1011-1035, 2014-09-16 (Released:2014-12-16)
参考文献数
28
被引用文献数
1

本論文では語義曖昧性解消(Word Sense Disambiguation,WSD)の教師なし領域適応の問題に対して,共変量シフト下の学習を試みる.共変量シフト下の学習では確率密度比 w(x) = PT(x)/PS(x) を重みとした重み付き学習を行うが,WSD の場合,推定される確率密度比の値が小さくなる傾向がある.ここでは PT(x) と PS(x) をそれぞれ求めて,その比を取ることで w(x) を推定するが,PS(x) を求める際に,ターゲット領域のコーパスとソース領域のコーパスを合わせたコーパスを,新たにソース領域のコーパス S と見なすことで,先の問題に対処する.BCCWJ の 3 つの領域 OC (Yahoo! 知恵袋),PB(書籍)及び PN(新聞)を選び,SemEval-2 の日本語 WSD タスクのデータを利用して,多義語 16 種類を対象に,WSD の領域適応の実験を行った.w(x) を推定する手法として,PT(x) と PS(x) を求めずに,w(x) を直接推定する uLSIF も試みた.また確率密度比を上方修正するために「p 乗する」「相対確率密度比を取る」という手法も組み合わせて試みた.それらの実験の結果,提案手法の有効性が示された.
著者
田川 裕輝 嶋田 和孝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.4, pp.357-391, 2018

<p>本研究では,日本で人気のある野球に着目し,Play-by-play データからイニングの要約文の生成に取り組む.Web 上では多くの野球に関する速報が配信されている.戦評は試合終了後にのみ更新され,"待望の先制点を挙げる"のような試合の状況をユーザに伝えるフレーズ(本論文では Game-changing Phrase; GP と呼ぶ)が含まれているのが特徴であり,読み手は試合の状況を簡単に知ることができる.このような特徴を踏まえ,任意の打席に対して,GP を含む要約文を生成することは,試合終了後だけでなく,リアルタイムで試合の状況を知りたい場合などに非常に有益であるといえる.そこで,本研究では Play-by-play データから GP を含む要約文の生成に取り組む.また,要約生成手法としてテンプレート型文生成手法と Encoder-Decoder モデルを利用した手法の 2 つを提案する.</p>
著者
外池 昌嗣 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.3-42, 2005

質問応答システムにおける処理の流れのうち, 何らかの方法で抽出された複数の解候補に川頁位付けし, 答えを選ぶステップのことを本論文では, 解選択のステップと呼ぶ.本論文では, 大規模かつ日々更新されるウェブを利用して, 質問文中の重要語句 (キーワード) と解候補の共起に基づく語彙的関係 (連想) の強さを測定し, これに基づいて解選択をする.この連想の強さはウェブのサーチエンジンのヒット数から計算できる尺度で表す.本論文では, この連想を利用した解選択法を2つ提案する.1つ目の手法は, あらかじめ決めておいた語の重みに基づいて質問文からキーワードを選択した後, キーワードと解候補の連想の強さに基づいて解を決める方法である.2つ目の手法は, キーワードと解候補の連想の強さを利用して, その質問にとって最も適切なキーワードと解候補を同時に選ぶ方法である.実験の結果, これら2つの手法を統合した手法で, 4択クイズ「クイズ$ミリオネア」の約79%の問題を解くことができた.また, サーチエンジンのヒット数を用いて解選択を行う従来手法の性能を有意に改善できた.