著者
山田 一郎 鳥澤健太郎 風間 淳一 黒田 航 村田 真樹 ステインデ・サーガ フランシス ボンド 隅田 飛鳥 橋本 力
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3435-3447, 2011-12-15

質問応答などの自然言語処理アプリケーションが実用レベルに至るには,計算機で扱うことのできる,世界についての膨大な知識を構築する必要がある.本論文では,そのような知識の筆頭といえる,「サッカー選手/長友佑都」などの語句間の上位下位関係を自動獲得する手法を提案する.提案手法は,Wikipediaから獲得した上位下位関係と,Webテキストから獲得した語句間類似度情報を併用することで,網羅的かつ高精度に上位下位関係を獲得する.評価実験では,提案手法の適合率が,複数のベースライン手法の適合率に比べて,スコア上位10,000ペアでは0.155から0.650の差で,スコア上位100,000ペアでは0.190から0.500の差で上回ることを確認した.また,提案手法の獲得結果の中には,広く用いられている語彙統語パターンによる手法では獲得できない上位下位関係が多く含まれていることを確認した.In order to make natural language processing (NLP) applications such as question answering accurate enough for practical use, it is essential to build a large-scale, computer-tractable semantic knowledge base. In this paper, we target hyponymy relation like "football player/Yuto Nagatomo," which is one of the most important semantic relations for NLP. We propose a new method of large scale hyponymy relation acquisition from Web texts that combines a hyponymy relation database constructed from Wikipedia and the distributional similarity between words calculated from Web texts. Experimental results showed that, in terms of precision, our method outperformed nontrivial baseline methods by 0.155 to 0.650 for the top 10,000 pairs and by 0.190 to 0.500 for the top 100,000 pairs. Furthermore, we confirmed that our method could acquire hyponymy relation pairs that widely-used lexico-syntactic pattern based approaches could not.
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10
参考文献数
10
被引用文献数
6

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
土田 正明 デ・サーガステイン 鳥澤健太郎 村田 真樹 風間 淳一 黒田 航 大和田 勇人
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.4, pp.1761-1776, 2011-04-15

情報爆発の時代に入り,大規模コーパスと計算機パワーの増大を背景に,構文的パターンに基づいて「因果関係」などの単語間の意味的関係の知識を獲得する研究が進められている.しかしながら,それらの研究は,文書中に直接的かつ明示的に書かれた知識を獲得するにとどまり,人間であれば解釈可能な間接的記述から獲得することや,文書に書かれていない知識を過去に蓄積された知識からの推論によって大規模に獲得することは行われていない.このような知識の獲得は,より大量の関係を獲得するためだけではなく,人類のイノベーションの加速にとっても重要である.本稿では,既存の構文的パターンに基づく方法で獲得された単語の意味的関係のデータベース,すなわち,特定の意味的関係を持つ単語対の集合を,類推によって大規模に拡張する方法を提案する.提案法は,入力された単語対の中の語を,ウェブから自動獲得した類似語に置換して大量の仮説を生成し,さらに単語間の類似度に基づいて仮説をランキングする.提案法は,従来法では困難な間接的記述からの意味的関係獲得を可能にして,さらには,そもそも文書に記述されている可能性が低い知識を獲得できる.約1億ページのウェブ文書を用いた実験によって,これらを検証するとともに,いくつかの意味的関係に関して,提案法で上位にランキングされた仮説では,最新の構文パターンに基づく獲得法とほぼ変わらない精度を達成できることを示す.
著者
村田 真樹 長尾 真
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.4, no.1, pp.87-109, 1997-01-10 (Released:2011-03-01)
参考文献数
23
被引用文献数
1 2

日本語文章における代名詞などの代用表現の指す対象が何であるかを把握することは, 対話システムや高品質の機械翻訳システムを実現するために必要である. そこで, 本研究では用例, 表層表現, 主題・焦点などの情報を用いて指示詞・代名詞・ゼロ代名詞などの指示対象を推定する. 従来の研究では, 代名詞などの指示対象の推定の際には意味的制約として意味素性が用いられてきたが, 本研究では対照実験を通じて用例を意味素性と同様に用いることができることを示す. また, 連体詞形態指示詞の推定に意味的制約として「AのB」の用例を用いるなどの新しい手法を提案する. 指示対象を推定する枠組は, 以下のとおりである. 指示対象の推定に必要な情報をすべて規則にする. この規則により指示対象の候補をあげながら, その候補に得点を与える. 得点の合計点が最も高い候補を指示対象とする. この枠組では規則を柔軟に書くことができるという利点がある. この枠組で実際に実験を行なった結果, 指示詞・代名詞・ゼロ代名詞の指示対象を学習サンプルにおいて87%の正解率で, テストサンプルにおいて78%の正解率で, 推定することができた.
著者
馬 青 谷河 息吹 村田 真樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.4, pp.225-250, 2015-12-14 (Released:2016-03-14)
参考文献数
32
被引用文献数
1

本稿は機械学習を用いて関連語・周辺語または説明文書から適切な検索用語を予測する手法を提案する.機械学習には深層学習の一種である Deep Belief Network (DBN) を用いる.DBN の有効性を確認するために,用例に基づくベースライン手法,多層パーセプトロン (MLP),サポートベクトルマシン (SVM) との比較を行った.学習と評価に用いるデータは手動と自動の 2 通りの方法でインターネットから収集した.加えて,自動生成した疑似データも用いた.各種機械学習の最適なパラメータはグリッドサーチと交差検証を行うことにより決定した.実験の結果,DBN の予測精度はベースライン手法よりはるかに高く MLP と SVM のいずれよりも高かった.また,手動収集データに自動収集のデータと疑似データを加えて学習することにより予測精度は向上した.さらに,よりノイズの多い学習データを加えても DBN の予測精度はさらに向上したのに対し,MLP の精度向上は見られなかった.このことから,DBN のほうが MLP よりもノイズの多い学習データを有効利用できることが分かった.
著者
村田 真樹 内山 将夫 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.11, pp.181-188, 2000-01-27
参考文献数
19
被引用文献数
38

質問応答システムの研究は,TREC8やAAAIにおいても重要な問題として位置づけられている.本研究では,自然言語で書かれた知識データと質問文を,類似度に基づいて照合することにより,全自動で解を取り出すシステムを作成した.このシステムの有効性を確かめるために,TREC8のホームページや英検の問題から取ったサンプルデータで実験したところ,良好な結果を得た.Research on question-answering systems is now considered to be extremely important in TREC8 and AAAI. In this paper, we constructed a question answering system which matches a question with knowledge-based data written in natural language and automatically selects the answer. We tested this system using sample data taken from TREC8's homepages and Eiken textbooks, and obtained good results.
著者
馬青 神崎 享子 村田 真樹 内元 清貴 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.10, pp.2379-2391, 2001-10-15
被引用文献数
6

本稿は,日本語名詞の意味を連続的かつ可視的に表現する意味マップを神経回路網モデルSOMによる自己組織化によって自動構築する手法を提案する.共起する連体修飾要素の観点から,まず,意味マップの自己組織化に有効と思われる,連体修飾要素が名詞の具体的な内容を表すような名詞句を新聞から人手で収集し,その名詞句を用いた意味マップの構築を試みる.そして,大規模意味マップの構築にはデータ収集の自動化が不可欠という観点から,新聞から名詞およびそれと共起する形容詞と形容動詞を共起頻度の高いものから自動的に取り出して構成される名詞句を用いた意味マップの構築を試みる.計算機実験で得られた意味マップはまず実際に用いた学習データを用いて検討し,意味マップ上の名詞は全般的に学習データが示唆する意味で配置されていることを確かめる.そして,分類結果に可視性や連続性のない階層型クラスタリング手法との比較を行い,本手法の分類能力を評価する.さらに,可視化能力を有す多変量解析手法が本タスクにうまく適用できないことを主成分の寄与率分析および計算機実験を通じて明らかにし,提案手法の必要性を補強する.A method is described for automatically constructing a semantic map,a visible and continuous representation in which Japanese nouns with similar meanings are placed at the same or neighboring points so that the distance between them represents semantic similarity.This is done by using the self-organizing neural network, SOM.From the point of view of common adnominal constituents,we first manually gather noun phrases whose adnominal constituents concretely describe the contents of head nouns from newspapers and construct a semantic map of the nouns using these noun phrases.Such types of noun phrases are thought to be effective for self-organizing a semantic map.Because it is indispensable to gather data automatically for constructing a large semantic map,we then construct a semantic map of the nouns using the noun phrases that consist of nouns and their co-occuring adjectives and nominal adjectivals.They are gathered automatically from newspapers in the order of the frequency of their co-occurrent words.Examination of semantic maps obtained in computer experiments showed that the nouns were mapped to the points corresponding to the training data.And, to objectively evaluate the SOM's ability in semantic classification,the semantic maps are compared to the results of classification by hierarchical clustering,which cannot give results with visible and continuous representation.Further, it is clarified that the multivariate statistical analysis such as principle component analysis and factor analysis cannot be used to construct semantic maps which reinforces the necessity of the proposed method for this task.
著者
村田 真樹 山本 専 黒橋 禎夫 井佐原 均 長尾 真
出版者
一般社団法人 人工知能学会
雑誌
人工知能 (ISSN:21882266)
巻号頁・発行日
vol.15, no.3, pp.503-510, 2000-05-01 (Released:2020-09-29)

In conventional studies, metonymy interpretation has been carried out by using a hand-built database that includes relationships between words concerned with metonymy, such as a special knowledge base of metonymy and a semantic network. However, these relationships between words are diverse, and it is difficult to manually make a detailed database. Therefore, in this paper we interpret metonymy by using examples in the form of noun phrases such as "Noun X no Noun Y (Noun Y of Noun X)" and "Noun X Noun Y, " instead of a hand-built database. This method has two advantages. One is that a hand-built database of metonymy is not necessary because we use examples. The second is that we can interpret newly-coined metonymies by using a new corpus. In experiments using this method on 23 metonymy sentences taken from textbooks, we correctly judged 17 sentences to be metonymy sentences and correctly interpreted 7 of them.
著者
松岡 正男 村田 真樹 黒橋 禎夫 長尾 眞
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69(1995-NL-108), pp.37-42, 1995-07-20

テキストや談話を理解する上で,照応表現は非常に大きな役割を果たしている.本研究では,これまであまり研究されていなかったが,高品質の自然言語理解システムを実現するためにはその処理が必要不可欠である後方照応表現を取り扱った.具体的には,日本語の表層表現を手がかりとして後方照応表現の照応詞と先行詞の抽出を行った.抽出のためのルールは,まず緩やかなパターンで後方照応表現の候補文を取り出し,それらを詳細に調べることによって作成した.テストサンプルに対する実験の結果,後方照応表現の認定は適合率47.7%,再現率94.2%,先行詞の正解率は71.2%であった.
著者
村田 真樹 神崎 享子 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.7, no.1, pp.51-66, 2000-01-10 (Released:2011-03-01)
参考文献数
15

本稿では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する. また, この単語を意味でソートするという考え方を示すと同時に, この考え方と辞書, 階層シソーラスとの関係, さらには多観点シソーラスについても論じる. そこでは単語を複数の属性で表現するという考え方も示し, 今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている. また, 単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10 (Released:2011-03-01)
参考文献数
10

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
村田 真樹 長尾 真
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.3, no.1, pp.67-81, 1996-01-10 (Released:2011-03-01)
参考文献数
10

日本語文章における名詞の指す対象が何であるかを把握することは, 対話システムや高品質の機械翻訳システムを実現するために必要である. そこで, 本研究では名詞の指示性と修飾語と所有者の情報を用いて名詞の指示対象を推定する. 日本語には冠詞がないことから, 二つの名詞が照応関係にあるかどうかを判定することが困難である. これに対して, 我々は冠詞にほぼ相当する名詞の指示性を表層表現から推定する研究を行なっており (M. Murata and M. Nagao 1993), この名詞の指示性を用いて名詞が照応するか否かを判定する. 例えば, 名詞の指示性が定名詞ならば既出の名詞と照応する可能性があるが, 不定名詞ならば既出の名詞と照応しないと判定できる. さらに, 名詞の修飾語や所有者の情報を用い, より確実に指示対象の推定を行なう. この結果, 学習サンプルにおいて適合率82%, 再現率85%の精度で, テストサンプルにおいて適合率79%, 再現率77%の精度で, 照応する名詞の指示対象の推定をすることができた. また, 対照実験を行なって名詞の指示性や修飾語や所有者を用いることが有効であることを示した.
著者
加藤 玲大 馬 青 村田 真樹
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-228, no.10, pp.1-6, 2016-09-22

本稿は,深層学習の手法である Deep Belief Network (DBN),Stacked Denoising Autoencoder (SdA) を用いて,QA サイトに投稿された質問文のカテゴリ分類について述べる.カテゴリ分類における DBN と SdA の有効性を確認するため,多層パーセプトロン (MLP),サポートベクターマシン (SVM) をベースライン手法とし,分類精度の比較を行った.次元数の異なる入力データを 2 種類用意し,入力の次元数の違いにおける分類精度の比較を行った.機械学習手法のパラメータの最適化にはグリッドサーチを行うことにより決定した.実験の結果,SdA が最も精度が高かった.また,入力が高次元の時,DBN,SdA ともに分類精度がベースライン手法より高かった.さらに,入力の次元数を増やすことが深層学習の精度の向上に有効であることが確認できた.
著者
西村 涼 大田 康人 渡辺 靖彦 村田 真樹 岡田 至弘
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.67, pp.85-90, 2008-07-10
参考文献数
12

メールの文章は他の文書なら改段落しない場合でも、「見やすさ」、「読みやすさ」 を重視して改段落をする場合がある。こうした過剰で不要な段落わけは、メールの機械処理にとって問題である。そこで、メールの文章における段落間の接続の強さを機械学習によって推定する方法を提案し、過剰な段落わけを検出できることを示す。In order to improve the readability, we often segment mail text into smaller paragraphs than necessary. However, this oversegmentation is a problem of e-mail text processing. In this paper, we proposed an estimation method of connectivity between paragraphs in mails using machiene learning technieques, and showed that paragraphs which should be one paragraph can be found by detecting strong connectivity.
著者
新納 浩幸 村田 真樹 白井 清昭 福本 文代 藤田 早苗 佐々木 稔 古宮 嘉那子 乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.319-362, 2015

語義曖昧性解消の誤り分析を行う場合,まずどのような原因からその誤りが生じているかを調べ,誤りの原因を分類しておくことが一般的である.この分類のために,分析対象データに対して分析者 7 人が独自に設定した誤り原因のタイプを付与したが,各自の分析結果はかなり異なり,それらを議論によって統合することは負荷の高い作業であった.そこでクラスタリングを利用してある程度機械的にそれらを統合することを試み,最終的に 9 種類の誤り原因として統合した.この 9 種類の中の主要な 3 つの誤り原因により,語義曖昧性解消の誤りの 9 割が生じていることが判明した.またタイプ分類間の類似度を定義することで,統合した誤り原因のタイプ分類が,各自の分析結果を代表していることを示した.また統合した誤り原因のタイプ分類と各自の誤り原因のタイプ分類を比較し,ここで得られた誤り原因のタイプ分類が標準的であることも示した.
著者
橋本 力 鳥澤健太郎 黒田 航 デサーガステイン 村田 真樹 風間 淳一
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.1, pp.293-307, 2011-01-15

テキスト間含意関係認識と呼ばれる技術は,深い自然言語理解を必要とするタスクにおいて重要な役割を果たす.この技術が実用レベルに至るには,大規模な含意知識ベースの構築が不可欠である.本稿では,動詞間含意関係知識の大規模な獲得を目的として,条件付き確率に基づく方向付き類似度尺度を提案する.提案手法の評価実験では,WWW上の日本語1億文書から得られた52,562動詞(異なり)を対象とした.この動詞セットには,日常的に使用される動詞も特定の専門的な領域でのみ用いられるような動詞も区別せず含まれている.提案手法と先行研究の手法それぞれのスコア上位20,000位までの出力からランダムに選ばれた200サンプルを人手評価したところ,比較対象のすべての先行研究の手法の精度を提案手法の精度が上回ることを確認した.また,提案手法のスコア上位100,000の出力を人手評価したところ,大規模動詞含意知識ベースを構築する出発点としてリーズナブルな精度が得られていることを実験により確認した.Textual entailment recognition plays a fundamental role in tasks that require in-depth natural language understanding. For entailment recognition technologies to serve for real-world applications, a large-scale entailment knowledge base is indispensable. This paper proposes a conditional probability based directional similarity measure to acquire verb entailment pairs on a large scale. We targeted 52,562 verb types that derived from 108 Japanese Web documents, regardless whether they were used in daily life or only in specific domains. Evaluating 200 samples that were chosen randomly from the top 20,000 verb entailment pairs acquired by previous methods and ours, we found that our similarity measure outperformed the previous ones. For the top 100,000 results, our method worked well too.
著者
村田 真樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会誌 (ISSN:09135693)
巻号頁・発行日
vol.86, no.12, pp.959-963, 2003-12-01
被引用文献数
13

質問応答システムとは「日本の面積はどのくらいですか」と問くと「37万8千平方キロメートル」と解そのものを的確に答えるシステムのことで,コンテスト形式の評価型ワークショップが開かれるなど,近年多くの研究者の庄目を浴びている 本橋では,まず,質問応答システムの重要性について論じ,次に質問応答システムの一般的構成と種々の手法について解説し,最後に今後の展望を述べる 質問応答システムは,将来の知的処理・知識処理の根幹システムになると思われ,今後の発展が大いに期待される
著者
村田 真樹 De Saeger Stijn 橋本 力 風間 淳一 山田 一郎 黒田 航 馬 青 相澤 彰子 鳥澤 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

自然言語処理などの分野の論文アブストラクトから論文の分野、手法、精度、応用先など当該分野で重要となる表現を自動で取り出し、取り出した結果を表などで提示することで、当該分野の動向をより詳細にわかりやすく示すシステムを構築している。論文の分野、手法、精度、応用先などを自動抽出する技術を構築し、この技術により取り出したデータを表やグラフで整理し、当該分野の動向や問題点の分析も行う。

1 0 0 0 CICLing 2005

著者
村田 真樹
出版者
社団法人人工知能学会
雑誌
人工知能学会誌 (ISSN:09128085)
巻号頁・発行日
vol.20, no.5, 2005-09-01