著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10 (Released:2011-03-01)
参考文献数
10

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
村上 聡一朗 渡邉 亮彦 宮澤 彬 五島 圭一 柳瀬 利彦 高村 大也 宮尾 祐介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.2, pp.299-328, 2020-06-15 (Released:2020-09-15)
参考文献数
54

本稿では,日経平均株価の市況コメントを生成するタスクを例として,時系列数値データの多様な特徴を抽出してテキスト化する手法を提案する.日経平均株価の市況コメントでは価格の変動の特徴だけが表出されるわけではなく,価格の履歴を参照する表現,時系列データの変化を示す表現,テキストが書かれる時間帯に依存する表現が見られる.また,数値に言及する場合は,価格が直接言及されることもあれば,前日からの増減幅や それらを切り上げ・切り捨てした値などが用いられることもある.本研究では,エンコーダ・デコーダモデルをベースラインとし,上記のような多様な特徴を自動抽出してテキスト化するためのエンコード/デコード手法を探求する.まず,株価の短期的・長期的な変化を捉えるために,エンコーダへの入力として短期的および長期的な時系列株価データを与える.デコード時には,テキストが書かれる時間帯に依存する表現を生成するために,時間帯情報を導入する.また,デコーダが数値に言及する際,数値の演算操作を推定して計算することで株価の数値表現を生成する.実験では,自動評価および情報性・流暢性に関する人手評価を行い, 提案手法によって上記の特徴を捉えた質の高い株価の市況コメントの生成が可能になることを示した.
著者
乾 健太郎 藤田 篤
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.5, pp.151-198, 2004-10-10 (Released:2011-03-01)
参考文献数
183
被引用文献数
4 7

意味が近似的に等価な言語表現の異形を言い換えと言う. 言い換え技術とは, 所与の言語表現からその言い換えを生成する言い換え生成技術, および所与の言語表現対が言い換え関係にあるか否かを判定する言い換え認識技術の総称である. これらの技術は, 機械翻訳の前編集や読解支援のための文章簡単化, 質問応答や複数文書要約など, 様々な応用に貢献する応用横断的なミドルウェア技術になると期待されており, 近年研究者の関心を集めてきた.本論文では, こうした言い換え技術について, 工学的研究を中心に近年の動向を紹介する. 具体的には, 言い換えの定義や言い換え技術の応用可能性について論じた後, 構造変換による言い換え生成, 質問応答・複数文書要約のための言い換え認識に関する研究を概観し, 最後に言い換え知識の自動獲得に関する最新の研究動向を紹介する.
著者
嶋中 宏希 梶原 智之 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.3, pp.613-634, 2019-09-15 (Released:2019-12-15)
参考文献数
34
被引用文献数
2

本稿では,参照文を用いた文単位での機械翻訳自動評価手法について述べる.現在のデファクトスタンダードである BLEU をはじめとして,多くの従来手法は文字や単語の N-gram に基づく素性に頼っており,文単位での評価にとっては限定的な情報しか扱えていない.そこで本研究では,文全体の大域的な情報を考慮するために,事前学習された文の分散表現を用いる機械翻訳自動評価手法を提案する.提案手法では,大規模コーパスによって事前学習された文の符号化器を用いて,翻訳文と参照文の分散表現を得る.そして,翻訳文と参照文の分散表現を入力とする回帰モデルによって,人手でラベル付けされた翻訳品質を推定する.WMT-2017 Metrics Shared Task における翻訳品質のラベル付きデータセットを用いた実験の結果,我々の提案手法は文単位の全ての to-English 言語対において最高性能を達成した.
著者
新納 浩幸 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.5, pp.707-726, 2013-12-13 (Released:2014-03-13)
参考文献数
29
被引用文献数
3 4

本論文では語義曖昧性解消 (Word Sense Disambiguation, WSD) の領域適応に対する手法を提案する.WSD の領域適応の問題は,2 つの問題に要約できる.1 つは領域間で語義の分布が異なる問題,もう 1 つは領域の変化によりデータスパースネスが生じる問題である.本論文では上記の点を論じ,前者の問題の対策として学習手法に k 近傍法を補助的に用いること,後者の問題の対策としてトピックモデルを用いることを提案する.具体的にはターゲット領域から構築できるトピックモデルによって,ソース領域の訓練データとターゲット領域のテストデータにトピック素性を追加する.拡張された素性ベクトルから SVM を用いて語義識別を行うが,識別の信頼性が低いものには k 近傍法の識別結果を用いる.BCCWJ コーパスの 2 つの領域 PB(書籍)と OC(Yahoo! 知恵袋)から共に頻度が 50 以上の多義語 17 単語を対象にして,WSD の領域適応の実験を行い,提案手法の有効性を示す.別種の領域間における本手法の有効性の確認,領域の一般性を考慮したトピックモデルを WSD に利用する方法,および WSD の領域適応に有効なアンサンブル手法を考案することを今後の課題とする.
著者
大矢 康介 阪本 浩太郎 渋木 英潔 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.31-63, 2020-03-15 (Released:2020-06-15)
参考文献数
23

本稿では,世界史に関する大学入試論述問題に対して自動要約手法に基づき解答を自動生成する際の知識源の一つとして世界史用語集に注目し,見出し語と語釈部に分かれている文書データから解答となる文章を作成するために,語釈文における見出し語に照応するゼロ代名詞とその表層格を推定する手法を提案する.本稿の扱うタスクは,先行詞候補が見出し語に限られている一方でそれに照応するゼロ代名詞を複数の候補から一つ選ぶという点,および先行詞である見出し語が文中に存在しないため,照応解析において有効な手掛かりとなる先行詞の文脈情報が全く使えないという点で,従来のゼロ代名詞照応解析とは異なる.世界史用語集を対象とした評価実験を行った結果,KNP を用いた既存のゼロ照応解析を使用した手法に比べ,提案手法が有効であることが確認された.さらに,出現頻度の低い表層格で埋め込まれる場合の精度低下が観察されたため,通常の文から擬似訓練事例を生成する手法を検討した.同事例を使用した結果,ヲ格,ニ格の推定の F 値を改善できることが確認された.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.4, pp.67-81, 2007-07-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
1 2

本稿では, 格フレームに基づき構文・格解析を統合的に行う確率モデルを提案する.格フレームは, ウェブテキスト約5億文から自動的に構築した大規模なものを用いる.確率モデルは, 述語項構造を基本単位とし, それを生成する確率であり, 格フレームによる語彙的な選好を利用するものである.ウェブのテキストを用いて実験を行い, 特に述語項構造に関連する係り受けの精度が向上することを確認した.また, 語彙的選好がどの程度用いられているかを調査したところ, 60.7%という高い割合で使われていることがわかり, カバレージの高さを確認することができた.
著者
新納 浩幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.4, pp.329-330, 2018-09-15 (Released:2018-12-15)
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.3, pp.635-652, 2019-09-15 (Released:2019-12-15)
参考文献数
30

ヒトの文処理のモデル化として Hale によりサプライザルが提案されている.サプライザルは文処理の負荷に対する情報量基準に基づいた指標で,当該単語の文脈中の負の対数確率が文処理の困難さをモデル化するとしている.日本語において眼球運動測定を用いて文処理の負荷をモデル化する際に,統語における基本単位である文節単位の読み時間を集計する.一方,単語の文脈中の生起確率は形態素や単語といった単位で評価し,この齟齬が直接的なサプライザルのモデル化を難しくしていた.本論文では,この問題を解決するために単語埋め込みを用いる.skip-gram の単語埋め込みの加法構成性に基づき,文節構成語のベクトルから文節のベクトルを構成し,隣接文節間のベクトルのコサイン類似度を用いて,文脈中の隣接尤度をモデル化できることを確認した.さらに,skip-gram の単語埋め込みに基づいて構成した文節のベクトルのノルムが,日本語の読み時間のモデル化に寄与することを発見した.
著者
有本 泰子 大野 澄雄 飯田 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.147-163, 2007-04-10 (Released:2011-03-01)
参考文献数
19
被引用文献数
2 5

音声認識の精度の向上にともなって, コールセンターなどへの自動音声応答システムの導入の要求が高まり, 人間がコンピュータと対話する機会も増加する傾向にある.これまでの対話システムは言語情報のみを扱い, そのパラ言語情報を扱うことは少ないため, 人間同士の対話と比較すると, コンピュータとの対話ではコンピュータが得る人間の情報は小さい.本研究では音声の音響的特徴と言語表現の特徴から推定可能な「怒り」の感情を検出するために, 感情の程度による音響的・言語的変化を分析し, コンピュータと人間とのインタラクションにおける人間の感情を捉えることを目指す.非対面の擬似対話により, 認識性能に対する不満からくる「苛立ち」や, クレーム対応時におけるユーザの「腹立ち」の内的感情を表現した怒りの音声を収録し, 主観評価により感情の程度を付与した音声データを作成した.本論では, 怒りの感情を含むと判定された発話について, つぎの3種の特性, 声の高さや強さ等の音響的特徴, 言語形態上の語彙使用の特徴, 語用論的な特徴である文末表現の特徴に着目し, 発話者の感情表現とその言語表現・音響的特徴との定量的な関係を分析し, 怒り表現の音声言語の特徴付けを試みた.とくに, 接続助詞「けど」, 「ので」の主節が現れずに発話が中止する接続助詞中止型において, 怒りの程度が高いことを明らかにした.
著者
村田 真樹 長尾 真
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.3, no.1, pp.67-81, 1996-01-10 (Released:2011-03-01)
参考文献数
10

日本語文章における名詞の指す対象が何であるかを把握することは, 対話システムや高品質の機械翻訳システムを実現するために必要である. そこで, 本研究では名詞の指示性と修飾語と所有者の情報を用いて名詞の指示対象を推定する. 日本語には冠詞がないことから, 二つの名詞が照応関係にあるかどうかを判定することが困難である. これに対して, 我々は冠詞にほぼ相当する名詞の指示性を表層表現から推定する研究を行なっており (M. Murata and M. Nagao 1993), この名詞の指示性を用いて名詞が照応するか否かを判定する. 例えば, 名詞の指示性が定名詞ならば既出の名詞と照応する可能性があるが, 不定名詞ならば既出の名詞と照応しないと判定できる. さらに, 名詞の修飾語や所有者の情報を用い, より確実に指示対象の推定を行なう. この結果, 学習サンプルにおいて適合率82%, 再現率85%の精度で, テストサンプルにおいて適合率79%, 再現率77%の精度で, 照応する名詞の指示対象の推定をすることができた. また, 対照実験を行なって名詞の指示性や修飾語や所有者を用いることが有効であることを示した.
著者
横川 博一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.4, pp.3-22, 1999-07-10 (Released:2011-03-01)
参考文献数
18

日本語の照応関係理解のプロセスにおいて, どのようなストラテジーが関与しているのかについて, 言語心理学的実験を通して考察した. 実験1では, 自己のペースによる読解課題およびプローブ認識課題を用いて, 日本語の主語を表す「が」と主題を表す「は」の違いが照応関係理解に影響を及ぼすかどうかについて調査した. その結果, 「は」でマークされた名詞句で読解時間がかかる傾向が見られ, それを照応表現の指示対象として優先する傾向が見られた. また, プローブ認識課題では, 主題を表す「は」の影響が見られ, 目的語名詞句よりも主語名詞句をプローブ語として呈示した場合の方が判断時間が速い傾向が見られた. このように, 主題の影響が見られたことから, 「主題割当方略」とでも言うべきストラテジーが利用されていることが分かった.実験2では, 英語の実験に基づいて提案されている「主語割当方略」や「平行機能方略」と呼ばれるストラテジーが日本語の照応理解にも利用されるのかどうかについて調査した結果, parallelな構造をもつ文では, 平行機能方略が用いられることが分かった. さらに実験3では, これら2つのストラテジーおよびその他のストラテジーと主題割当方略との相互関係について調査を行った. その結果, 日本語の照応関係理解のプロセスでは, これらのストラテジー競合する場合, 主題割当方略が優先的に利用されることが分かった. このことは, 日本語が「主題卓立言語」としての性質を持っていることを示している.
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.301-327, 2019-06-15 (Released:2019-09-15)
参考文献数
32

本論文では,リーダビリティ評価を目的として,日本語テキストの読み時間と節境界分類の対照分析を行う.日本語母語話者の読み時間データ BCCWJ-EyeTrack と節境界情報アノテーションを『現代日本語書き言葉均衡コーパス』上で重ね合わせ,ベイジアン線形混合モデルを用いて節末で,どのように読み時間が変わるかについて検討した.結果,英語などの先行研究で言われている節末で読み時間が長くなるという wrap-up effect とは反対の結果が得られた.他の結果として,節間の述語項関係が読み時間の短縮に寄与することがわかった.
著者
笹野 遼平 河原 大輔 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1207-1233, 2014-12-15 (Released:2015-03-15)
参考文献数
31

日本語において受身文や使役文を能動文に変換する際,格交替が起こる場合がある.本論文では,対応する受身文・使役文と能動文の格の用例や分布の類似性に着目し,Web から自動構築した大規模格フレームと,人手で記述した少数の格の交替パターンを用いることで,受身文・使役文と能動文の表層格の対応付けに関する知識を自動獲得する手法を提案する.さらに,自動獲得した知識を受身文・使役文の能動文への変換における格交替の推定に利用することによりその有用性を示す.
著者
笹野 遼平 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.687-703, 2017

<p>日本語二重目的語構文の基本語順に関しては多くの研究が行われてきた.しかし,それらの研究の多くは,人手による用例の分析や,脳活動や読み時間の計測を必要としているため,分析対象とした用例については信頼度の高い分析を行うことができるものの,多くの仮説の網羅的な検証には不向きであった.一方,各語順の出現傾向は,大量のコーパスから大規模に収集することが可能である.そこで本論文では,二重目的語構文の基本語順はコーパス中の語順の出現割合と強く関係するという仮説に基づき,大規模コーパスを用いた日本語二重目的語構文の基本語順に関する分析を行う.100 億文を超える大規模コーパスから収集した用例に基づく分析の結果,動詞により基本語順は異なる,省略されにくい格は動詞の近くに出現する傾向がある,Pass タイプと Show タイプといった動詞のタイプは基本語順と関係しない,ニ格名詞が着点を表す場合は有生性を持つ名詞の方が「にを」語順をとりやすい,対象の動詞と高頻度に共起するヲ格名詞およびニ格名詞は動詞の近くに出現しやすい等の結論が示唆された.</p>
著者
杉山 享志朗 水上 雅博 Graham Neubig 吉野 幸一郎 鈴木 優 中村 哲
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.5, pp.437-461, 2016-12-15 (Released:2017-03-15)
参考文献数
19

質問応答システムが高い精度で幅広い質問に解答するためには,大規模な知識ベースが必要である.しかし,整備されている知識ベースの規模は言語により異なり,小規模の知識ベースしか持たない言語で高精度な質問応答を行うためには,機械翻訳を用いて異なる言語の大規模知識ベースを利用して言語横断質問応答を行う必要がある.ところが,このようなシステムでは機械翻訳システムの翻訳精度が質問応答の精度に影響を与える.一般的に,機械翻訳システムは人間が与える評価と相関を持つ評価尺度により精度が評価されている.そのため,この評価尺度による評価値が高くなるように機械翻訳システムは最適化されている.しかし,質問応答に適した翻訳結果は,人間にとって良い翻訳結果と同一とは限らない.つまり,質問応答システムに適した翻訳システムの評価尺度は,人間の直感に相関する評価尺度とは必ずしも合致しないと考えた.そこで本論文では,複数の翻訳手法を用いて言語横断質問応答データセットを作成し,複数の評価尺度を用いてそれぞれの翻訳結果の精度を評価する.そして,作成したデータセットを用いて言語横断質問応答を行い,質問応答精度と翻訳精度との相関を調査する.これにより,質問応答精度に影響を与える翻訳の要因や,質問応答精度と相関が高い評価尺度を明らかにする.さらに,自動評価尺度を用いて翻訳結果のリランキングを行うことによって,言語横断質問応答の精度を改善できることを示す.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-46, 2003-01

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
SANDUIJAV ENKHBAYAR 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.185-205, 2005-10-10 (Released:2011-06-07)
参考文献数
4
被引用文献数
1 4

本論文では, 現時点で利用可能なモンゴル語の言語資源, 特に, 名詞・動詞の語幹のリスト, および, 名詞・動詞に接続する語尾のリストから, モンゴル語の名詞句・動詞句を生成する手法を提案する.具体的には, 名詞・動詞の語幹に語尾が接続する際の音韻論的・形態論的制約を整備し, 語幹・語尾の語形変化の規則を作成する.評価実験の結果において, 100%近くの場合について, 生成された名詞句・動詞句の中に正しい句候補が含まれるという性能を達成した.さらに, 本論文では, この句生成に基づいて, モンゴル語の名詞句・動詞句の形態素解析を行なう手法を提案する.具体的には, まず, 既存のモンゴル語辞書から名詞語幹および動詞語幹を人手で抽出する.次に, これらの語幹に対して, モンゴル語名詞句・動詞句生成規則を適用することにより, 語幹・語尾の組から句を生成するための語形変化テーブルを作成する.そして, この語形変化テーブルを参照することにより, 与えられた名詞句・動詞句を形態素解析して語幹・語尾に分離する.評価実験の結果においては, 語形変化テーブルに登録されている句については, 形態素解析の結果得られる語幹・語尾の組合せの候補の中に, 正しい解析結果が必ず含まれることが確認できた.
著者
江原 暉将 金 淵培
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.3, no.4, pp.67-86, 1996

主語のない日本語文に対し, 確率モデルを用いて自動的にゼロ主語を補完する手法について述べる. これは, 日英機械翻訳の前処理としての自動短文分割の後で適用されるものである. 確率モデルを用いる方法として, 従来 (1) 多次元正規分布に基づくモデルを利用するものがあった. 本稿では, 新たに3種類のゼロ主語補完のためのモデルを提案する. それらは, 連続分布に対して, (2) 正規分布に基づくGram-Charlier展開を多次元に拡張した分布 (疑似正規分布) に基づくモデル, 離散分布に対しては, (3) 1次対数線形分布, (4) 2次対数線形分布に基づくモデルである. これら4種の確率モデルについて, 補完精度を比較する実験を行った. その結果, (1)~(4) の精度は, 順に, 7 3%, 7 8%, 7 8%, 8 1%であり, 2次対数線形分布を用いる方法が最も精度が高かった. また, 補完を誤った事例について考察を加えた結果, 主語と述語の意味的整合性をより正確に計算する必要があることなどがわかった.