著者
村田 真樹 長尾 真
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.3, no.1, pp.67-81, 1996-01-10 (Released:2011-03-01)
参考文献数
10

日本語文章における名詞の指す対象が何であるかを把握することは, 対話システムや高品質の機械翻訳システムを実現するために必要である. そこで, 本研究では名詞の指示性と修飾語と所有者の情報を用いて名詞の指示対象を推定する. 日本語には冠詞がないことから, 二つの名詞が照応関係にあるかどうかを判定することが困難である. これに対して, 我々は冠詞にほぼ相当する名詞の指示性を表層表現から推定する研究を行なっており (M. Murata and M. Nagao 1993), この名詞の指示性を用いて名詞が照応するか否かを判定する. 例えば, 名詞の指示性が定名詞ならば既出の名詞と照応する可能性があるが, 不定名詞ならば既出の名詞と照応しないと判定できる. さらに, 名詞の修飾語や所有者の情報を用い, より確実に指示対象の推定を行なう. この結果, 学習サンプルにおいて適合率82%, 再現率85%の精度で, テストサンプルにおいて適合率79%, 再現率77%の精度で, 照応する名詞の指示対象の推定をすることができた. また, 対照実験を行なって名詞の指示性や修飾語や所有者を用いることが有効であることを示した.
著者
横川 博一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.4, pp.3-22, 1999-07-10 (Released:2011-03-01)
参考文献数
18

日本語の照応関係理解のプロセスにおいて, どのようなストラテジーが関与しているのかについて, 言語心理学的実験を通して考察した. 実験1では, 自己のペースによる読解課題およびプローブ認識課題を用いて, 日本語の主語を表す「が」と主題を表す「は」の違いが照応関係理解に影響を及ぼすかどうかについて調査した. その結果, 「は」でマークされた名詞句で読解時間がかかる傾向が見られ, それを照応表現の指示対象として優先する傾向が見られた. また, プローブ認識課題では, 主題を表す「は」の影響が見られ, 目的語名詞句よりも主語名詞句をプローブ語として呈示した場合の方が判断時間が速い傾向が見られた. このように, 主題の影響が見られたことから, 「主題割当方略」とでも言うべきストラテジーが利用されていることが分かった.実験2では, 英語の実験に基づいて提案されている「主語割当方略」や「平行機能方略」と呼ばれるストラテジーが日本語の照応理解にも利用されるのかどうかについて調査した結果, parallelな構造をもつ文では, 平行機能方略が用いられることが分かった. さらに実験3では, これら2つのストラテジーおよびその他のストラテジーと主題割当方略との相互関係について調査を行った. その結果, 日本語の照応関係理解のプロセスでは, これらのストラテジー競合する場合, 主題割当方略が優先的に利用されることが分かった. このことは, 日本語が「主題卓立言語」としての性質を持っていることを示している.
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.301-327, 2019-06-15 (Released:2019-09-15)
参考文献数
32

本論文では,リーダビリティ評価を目的として,日本語テキストの読み時間と節境界分類の対照分析を行う.日本語母語話者の読み時間データ BCCWJ-EyeTrack と節境界情報アノテーションを『現代日本語書き言葉均衡コーパス』上で重ね合わせ,ベイジアン線形混合モデルを用いて節末で,どのように読み時間が変わるかについて検討した.結果,英語などの先行研究で言われている節末で読み時間が長くなるという wrap-up effect とは反対の結果が得られた.他の結果として,節間の述語項関係が読み時間の短縮に寄与することがわかった.
著者
笹野 遼平 河原 大輔 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1207-1233, 2014-12-15 (Released:2015-03-15)
参考文献数
31

日本語において受身文や使役文を能動文に変換する際,格交替が起こる場合がある.本論文では,対応する受身文・使役文と能動文の格の用例や分布の類似性に着目し,Web から自動構築した大規模格フレームと,人手で記述した少数の格の交替パターンを用いることで,受身文・使役文と能動文の表層格の対応付けに関する知識を自動獲得する手法を提案する.さらに,自動獲得した知識を受身文・使役文の能動文への変換における格交替の推定に利用することによりその有用性を示す.
著者
笹野 遼平 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.687-703, 2017

<p>日本語二重目的語構文の基本語順に関しては多くの研究が行われてきた.しかし,それらの研究の多くは,人手による用例の分析や,脳活動や読み時間の計測を必要としているため,分析対象とした用例については信頼度の高い分析を行うことができるものの,多くの仮説の網羅的な検証には不向きであった.一方,各語順の出現傾向は,大量のコーパスから大規模に収集することが可能である.そこで本論文では,二重目的語構文の基本語順はコーパス中の語順の出現割合と強く関係するという仮説に基づき,大規模コーパスを用いた日本語二重目的語構文の基本語順に関する分析を行う.100 億文を超える大規模コーパスから収集した用例に基づく分析の結果,動詞により基本語順は異なる,省略されにくい格は動詞の近くに出現する傾向がある,Pass タイプと Show タイプといった動詞のタイプは基本語順と関係しない,ニ格名詞が着点を表す場合は有生性を持つ名詞の方が「にを」語順をとりやすい,対象の動詞と高頻度に共起するヲ格名詞およびニ格名詞は動詞の近くに出現しやすい等の結論が示唆された.</p>
著者
杉山 享志朗 水上 雅博 Graham Neubig 吉野 幸一郎 鈴木 優 中村 哲
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.5, pp.437-461, 2016-12-15 (Released:2017-03-15)
参考文献数
19

質問応答システムが高い精度で幅広い質問に解答するためには,大規模な知識ベースが必要である.しかし,整備されている知識ベースの規模は言語により異なり,小規模の知識ベースしか持たない言語で高精度な質問応答を行うためには,機械翻訳を用いて異なる言語の大規模知識ベースを利用して言語横断質問応答を行う必要がある.ところが,このようなシステムでは機械翻訳システムの翻訳精度が質問応答の精度に影響を与える.一般的に,機械翻訳システムは人間が与える評価と相関を持つ評価尺度により精度が評価されている.そのため,この評価尺度による評価値が高くなるように機械翻訳システムは最適化されている.しかし,質問応答に適した翻訳結果は,人間にとって良い翻訳結果と同一とは限らない.つまり,質問応答システムに適した翻訳システムの評価尺度は,人間の直感に相関する評価尺度とは必ずしも合致しないと考えた.そこで本論文では,複数の翻訳手法を用いて言語横断質問応答データセットを作成し,複数の評価尺度を用いてそれぞれの翻訳結果の精度を評価する.そして,作成したデータセットを用いて言語横断質問応答を行い,質問応答精度と翻訳精度との相関を調査する.これにより,質問応答精度に影響を与える翻訳の要因や,質問応答精度と相関が高い評価尺度を明らかにする.さらに,自動評価尺度を用いて翻訳結果のリランキングを行うことによって,言語横断質問応答の精度を改善できることを示す.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-46, 2003-01

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
SANDUIJAV ENKHBAYAR 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.185-205, 2005-10-10 (Released:2011-06-07)
参考文献数
4
被引用文献数
1 4

本論文では, 現時点で利用可能なモンゴル語の言語資源, 特に, 名詞・動詞の語幹のリスト, および, 名詞・動詞に接続する語尾のリストから, モンゴル語の名詞句・動詞句を生成する手法を提案する.具体的には, 名詞・動詞の語幹に語尾が接続する際の音韻論的・形態論的制約を整備し, 語幹・語尾の語形変化の規則を作成する.評価実験の結果において, 100%近くの場合について, 生成された名詞句・動詞句の中に正しい句候補が含まれるという性能を達成した.さらに, 本論文では, この句生成に基づいて, モンゴル語の名詞句・動詞句の形態素解析を行なう手法を提案する.具体的には, まず, 既存のモンゴル語辞書から名詞語幹および動詞語幹を人手で抽出する.次に, これらの語幹に対して, モンゴル語名詞句・動詞句生成規則を適用することにより, 語幹・語尾の組から句を生成するための語形変化テーブルを作成する.そして, この語形変化テーブルを参照することにより, 与えられた名詞句・動詞句を形態素解析して語幹・語尾に分離する.評価実験の結果においては, 語形変化テーブルに登録されている句については, 形態素解析の結果得られる語幹・語尾の組合せの候補の中に, 正しい解析結果が必ず含まれることが確認できた.
著者
江原 暉将 金 淵培
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.3, no.4, pp.67-86, 1996

主語のない日本語文に対し, 確率モデルを用いて自動的にゼロ主語を補完する手法について述べる. これは, 日英機械翻訳の前処理としての自動短文分割の後で適用されるものである. 確率モデルを用いる方法として, 従来 (1) 多次元正規分布に基づくモデルを利用するものがあった. 本稿では, 新たに3種類のゼロ主語補完のためのモデルを提案する. それらは, 連続分布に対して, (2) 正規分布に基づくGram-Charlier展開を多次元に拡張した分布 (疑似正規分布) に基づくモデル, 離散分布に対しては, (3) 1次対数線形分布, (4) 2次対数線形分布に基づくモデルである. これら4種の確率モデルについて, 補完精度を比較する実験を行った. その結果, (1)~(4) の精度は, 順に, 7 3%, 7 8%, 7 8%, 8 1%であり, 2次対数線形分布を用いる方法が最も精度が高かった. また, 補完を誤った事例について考察を加えた結果, 主語と述語の意味的整合性をより正確に計算する必要があることなどがわかった.
著者
関 和広 藤井 敦 石川 徹也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.3, pp.63-85, 2002-07-10 (Released:2011-03-01)
参考文献数
26
被引用文献数
1 2

日本語では, 読み手や聞き手が容易に推測できる語は頻繁に省略される. これらの省略を適切に補完することは, 自然言語解析, とりわけ文脈解析において重要である. 本論文は, 日本語における代表的な省略現象であるゼロ代名詞に焦点を当て, 確率モデルを用いた照応解析手法を提案する. 本手法では, 学習を効率的に行なうため, 確率モデルを統語モデルと意味モデルに分解する. 統語モデルは, ゼロ代名詞の照応関係が付与されたコーパスから学習する. 意味モデルは, 照応関係が付与されていない大規模なコーパスを用いて学習を行ない, データスパースネス問題に対処する. さらに本手法では, 照応解析処理の精度を高めるために確信度を定量化し, 正解としての確信が高いゼロ代名詞のみ選択的に結果を出力することも可能である. 新聞記事を対象にした照応解析実験を通して本手法の有効性を示す.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.419-435, 2012-12-14
参考文献数
23
被引用文献数
1

近年,ウェブの情報を用いて,感染症などの疾病状態を監視するシステムに注目が集まっている.本研究では,ソーシャルメディアを用いたインフルエンザ・サーベイランスに注目する. これまでの多くのシステムは,単純な単語の頻度情報をもとに患者の状態を調査するというものであった.しかし,この方法では,実際に疾患にかかっていない場合の発言を収集してしまう恐れがある.また,そもそも,医療者でない個人の自発的な発言の集計が,必ずしもインフルエンザの流行と一致するとは限らない.本研究では,前者の問題に対応するため, 発言者が実際にインフルエンザにかかっているもののみを抽出し集計を行う.後者の問題に対して,発言と流行の時間的なずれを吸収するための感染症モデルを提案する.実験においては,Twitter の発言を材料にしたインフルエンザ流行の推定値は,感染症情報センターの患者数と相関係数 0.910 という高い相関を示し,その有効性を示した.本研究により,ソーシャルメディア上の情報をそのまま用いるのではなく,文章分類や疾患モデルと組み合わせて用いることで,さらに精度を向上できることが示された.
著者
新納 浩幸 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.5, pp.1011-1035, 2014-09-16 (Released:2014-12-16)
参考文献数
28
被引用文献数
1

本論文では語義曖昧性解消(Word Sense Disambiguation,WSD)の教師なし領域適応の問題に対して,共変量シフト下の学習を試みる.共変量シフト下の学習では確率密度比 w(x) = PT(x)/PS(x) を重みとした重み付き学習を行うが,WSD の場合,推定される確率密度比の値が小さくなる傾向がある.ここでは PT(x) と PS(x) をそれぞれ求めて,その比を取ることで w(x) を推定するが,PS(x) を求める際に,ターゲット領域のコーパスとソース領域のコーパスを合わせたコーパスを,新たにソース領域のコーパス S と見なすことで,先の問題に対処する.BCCWJ の 3 つの領域 OC (Yahoo! 知恵袋),PB(書籍)及び PN(新聞)を選び,SemEval-2 の日本語 WSD タスクのデータを利用して,多義語 16 種類を対象に,WSD の領域適応の実験を行った.w(x) を推定する手法として,PT(x) と PS(x) を求めずに,w(x) を直接推定する uLSIF も試みた.また確率密度比を上方修正するために「p 乗する」「相対確率密度比を取る」という手法も組み合わせて試みた.それらの実験の結果,提案手法の有効性が示された.
著者
田川 裕輝 嶋田 和孝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.4, pp.357-391, 2018

<p>本研究では,日本で人気のある野球に着目し,Play-by-play データからイニングの要約文の生成に取り組む.Web 上では多くの野球に関する速報が配信されている.戦評は試合終了後にのみ更新され,"待望の先制点を挙げる"のような試合の状況をユーザに伝えるフレーズ(本論文では Game-changing Phrase; GP と呼ぶ)が含まれているのが特徴であり,読み手は試合の状況を簡単に知ることができる.このような特徴を踏まえ,任意の打席に対して,GP を含む要約文を生成することは,試合終了後だけでなく,リアルタイムで試合の状況を知りたい場合などに非常に有益であるといえる.そこで,本研究では Play-by-play データから GP を含む要約文の生成に取り組む.また,要約生成手法としてテンプレート型文生成手法と Encoder-Decoder モデルを利用した手法の 2 つを提案する.</p>
著者
外池 昌嗣 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.3-42, 2005

質問応答システムにおける処理の流れのうち, 何らかの方法で抽出された複数の解候補に川頁位付けし, 答えを選ぶステップのことを本論文では, 解選択のステップと呼ぶ.本論文では, 大規模かつ日々更新されるウェブを利用して, 質問文中の重要語句 (キーワード) と解候補の共起に基づく語彙的関係 (連想) の強さを測定し, これに基づいて解選択をする.この連想の強さはウェブのサーチエンジンのヒット数から計算できる尺度で表す.本論文では, この連想を利用した解選択法を2つ提案する.1つ目の手法は, あらかじめ決めておいた語の重みに基づいて質問文からキーワードを選択した後, キーワードと解候補の連想の強さに基づいて解を決める方法である.2つ目の手法は, キーワードと解候補の連想の強さを利用して, その質問にとって最も適切なキーワードと解候補を同時に選ぶ方法である.実験の結果, これら2つの手法を統合した手法で, 4択クイズ「クイズ$ミリオネア」の約79%の問題を解くことができた.また, サーチエンジンのヒット数を用いて解選択を行う従来手法の性能を有意に改善できた.
著者
柏野 和佳子 山口 昌也 桐生 りか 田中 牧郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.4, pp.97-116, 2005-08-26 (Released:2011-03-01)
参考文献数
11

本研究は, 大規模な経年調査による語彙調査を行い, 外来語の使用状況を定量的に明らかにするものである.語の使用状況をとらえるために使用度数を調査する語彙調査はたいへん有効である.これまでに各種の語彙調査が行われてきたが, 多くは調査時の使用状況の把握を目的にしていたため, 対象年を1年以内に限定するものがほとんどであった.しかしながら, 語の使用状況の把握には, 時間的推移という視点もまた重要である.電子テキスト化された大量の各種の新聞記事データベースが研究に利用できるようになって以来, これを用いて時間的推移を大規模に分析する研究が行われている.ただし, 文字や語彙の全体的な変動を分析したものであり, 個々の語の使用推移に着目して各語の使用状況をとらえようとする分析はまだなかった.そこで, 我々は, 外来語を対象に, 新聞記事データベースを用いて, 語の使用推移, すなわち出現率の推移に着目して語の使用状況をとらえる研究を行った.対象語には, 国立国語研究所「外来語」委員会が第1回と第2回の言い換え提案の対象に選定し, その使用状況の調査が求められていた外来語, 109語を用いた.
著者
関 喜史 福島 良典 吉田 宏司 松尾 豊
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.1, pp.95-115, 2017

<p>推薦システムのユーザ体験を高めるために重要な指標の 1 つが多様性 (Diversity) である.多様性は推薦システムが提示するリスト内には様々なコンテンツが含まれるべきという考え方であり,過去の研究では多様性が含まれるリストの方がユーザに好まれるとされている.しかし実際のサービス上で推薦システムを検証したという報告は少なく,サービス上で多様性がユーザにどのような影響を与えるのかは明らかになっていない.本研究では実際にサービスとして提供されているウェブページ推薦システムを分析し,その推薦システムに多様性を導入して比較を行った事例について報告する.まず多様性が導入されていない推薦システムのユーザ行動を分析し,結果としてリストの中位以降に表示するウェブページに課題があることを明らかにした.その上で多様性を導入し,多様性のない既存システムとサービス上でのユーザ行動を比較した.結果として継続率やサービス利用日数が有意に改善していることを示し,従来研究で示されていた多様性を含む推薦リストの方がユーザに好まれるということを実サービス上で示した.そして利用日数が増えるに従ってリスト全体のクリック数が改善していくこと,特にリスト下部のクリック率が多様性のない手法では下がっていくのに対して,多様性のある手法では向上していくことを示した.</p>
著者
丸山 岳彦 柏岡 秀紀 熊野 正 田中 英輝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.3, pp.39-68, 2004-07-10 (Released:2011-03-01)
参考文献数
35
被引用文献数
6 11

従来の文分割研究において, 文の分割点として利用されてきたのは, 「節」の境界である. しかしながら, 実際に文の分割点として用いられる節境界はごく一部の種類のものに限られており, 文に含まれる節境界を網羅的に検出する手法は考えられてこなかった. 我々は, 日本語の文に含まれる節境界の位置を網羅的に検出し, その種類を特定するプログラム“CBAP (Clause Boundaries Annotation Program)”を開発した. CBAPは, 形態素解析の結果を入力とし, 局所的な形態素の連接を対象としたパタンマッチによって, 147種類の節境界を検出する. CBAPを性質の異なる5種のコーパスに適用したところ, いずれのコーパスでも97%以上の検出性能が確認された. この検出結果を利用することにより, 言語学的に意味のある文の分割点を特定することができ, 従来の手法よりも柔軟に文分割を行なうことができる. また, 1~3形態素という非常に局所的な範囲のみから節境界を検出できるため, 発話に追従して処理を進めていく漸進的構文解析や同時通訳システム, また, 句点を含まない音声コーパスを対象とした発話分割処理などに有用である. 本稿では, CBAPによる節境界の検出手法を示し, 節境界を用いて文分割・発話分割処理を行なった事例をもとに, 節境界検出の有用性を述べる.
著者
原田 実 鈴木 亮 南 旭瑞
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.2, pp.3-22, 2002-04-10 (Released:2011-03-01)
参考文献数
15
被引用文献数
1

意味解析を用いた情報検索の一手法を提案し, 「判例」を検索対象とし日本語文章で記述した「問い合わせ文」 を検索質問とした検索システムJCareを開発する. 本研究では'文章が表す内容を, 語が格納されたノードと語間の関係 (深層格) を表すアークからなる意味グラフとして捉え, 判例文と問い合わせ文の意味グラフ間における位相同型部分の大きさをもとに, 文章間の内容類似度を算出する. このとき検索の高速化・精度向上の目的でViewという考え方を導入する. 視点 (View) により意味グラフを分割したViewグラフの類似度を求めることで, 内容的に関連性の低い文章問の計算時間, またそこから生まれるノイズを排除する.