著者
山田 一郎 鳥澤健太郎 風間 淳一 黒田 航 村田 真樹 ステインデ・サーガ フランシス ボンド 隅田 飛鳥 橋本 力
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3435-3447, 2011-12-15

質問応答などの自然言語処理アプリケーションが実用レベルに至るには,計算機で扱うことのできる,世界についての膨大な知識を構築する必要がある.本論文では,そのような知識の筆頭といえる,「サッカー選手/長友佑都」などの語句間の上位下位関係を自動獲得する手法を提案する.提案手法は,Wikipediaから獲得した上位下位関係と,Webテキストから獲得した語句間類似度情報を併用することで,網羅的かつ高精度に上位下位関係を獲得する.評価実験では,提案手法の適合率が,複数のベースライン手法の適合率に比べて,スコア上位10,000ペアでは0.155から0.650の差で,スコア上位100,000ペアでは0.190から0.500の差で上回ることを確認した.また,提案手法の獲得結果の中には,広く用いられている語彙統語パターンによる手法では獲得できない上位下位関係が多く含まれていることを確認した.In order to make natural language processing (NLP) applications such as question answering accurate enough for practical use, it is essential to build a large-scale, computer-tractable semantic knowledge base. In this paper, we target hyponymy relation like "football player/Yuto Nagatomo," which is one of the most important semantic relations for NLP. We propose a new method of large scale hyponymy relation acquisition from Web texts that combines a hyponymy relation database constructed from Wikipedia and the distributional similarity between words calculated from Web texts. Experimental results showed that, in terms of precision, our method outperformed nontrivial baseline methods by 0.155 to 0.650 for the top 10,000 pairs and by 0.190 to 0.500 for the top 100,000 pairs. Furthermore, we confirmed that our method could acquire hyponymy relation pairs that widely-used lexico-syntactic pattern based approaches could not.
著者
Bond Francis 藤田 早苗 橋本 力 笠原 要 成山 重子 Nichols Eric 大谷 朗 田中 貴秋 天野 成昭
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.1(2003-NL-159), pp.83-90, 2004-01-13

本稿では、基本語彙知識ベース構築の一環として構築した、ツリーバンク「檜」を紹介する。「檜」は、HPSGで書かれた日本語文法JaCYに基づいて辞書の語義文を解析したものであり、詳細な統語情報と意味情報の両方が付与されている。本稿では、「檜」構築の目的や理論的基盤などについて述べる。 また、「檜」の有効性を示す一例として、知識獲得の予備実験を行なった結果について報告する。
著者
橋本 力 黒橋 禎夫 河原 大輔 新里 圭司 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.175-201, 2011 (Released:2011-09-28)
参考文献数
22
被引用文献数
5 7

近年,ブログを対象とした情報アクセス・情報分析技術が盛んに研究されている.我々は,この種の研究の基礎データの提供を目的とし,249 記事,4,186 文からなる,解析済みブログコーパスを構築した.主な特長は次の 4 点である.i) 文境界のアノテーション.ii) 京大コーパス互換の,形態素,係り受け,格・省略・照応,固有表現のアノテーション.iii) 評価表現のアノテーション.iv) アノテーションを可視化した HTML ファイルの提供.記事は,大学生 81 名に「京都観光」「携帯電話」「スポーツ」「グルメ」のいずれかのテーマで執筆してもらうことで収集した.解析済みブログコーパスを構築する際,不明瞭な文境界,括弧表現,誤字,方言,顔文字等,多様な形態素への対応が課題になる.本稿では,本コーパスの全容とともに,いかに上記の課題に対応しつつコーパスを構築したかについて述べる.
著者
水野 淳太 後藤 淳 大竹 清敬 川田 拓也 鳥澤 健太郎 クロエツェー ジュリアン 田仲 正弘 橋本 力 奥村 明俊
雑誌
情報処理学会論文誌コンシューマ・デバイス&システム(CDS) (ISSN:21865728)
巻号頁・発行日
vol.6, no.1, pp.106-120, 2016-05-24

我々は,災害時にTwitterに投稿される膨大な情報を効率良く検索するために対災害SNS情報分析システムDISAANAを開発し,スマートフォンおよびPCで誰もが利用可能なWebアプリケーションとして試験公開している.本稿では,まず先行システムについて説明し,その問題点についてまとめる.次に,それらの問題をDISAANAがどのように解消するかを説明する.特に,不適切な回答候補の抽出を回避するために導入したモダリティ解析について詳述する.評価実験では,東日本大震災時のツイートに対して,人手で構築した192問の質問とその回答からなる評価セットを用いて本システムの評価を行った.評価の結果,先行システムに比べてF値が7ポイント改善した.エラー分析結果に基づいて,今後の改善方針について考察する.さらに,自治体で実施したDISAANAの有用性検証実験の結果についても報告する.
著者
水野 淳太 後藤 淳 大竹 清敬 川田 拓也 鳥澤 健太郎 クロエツェー ジュリアン 田仲 正弘 橋本 力 奥村 明俊
雑誌
研究報告コンシューマ・デバイス&システム(CDS) (ISSN:21888604)
巻号頁・発行日
vol.2015-CDS-14, no.14, pp.1-13, 2015-09-24

我々は,災害時に Twitter に投稿される膨大な情報を効率よく検索するために対災害 SNS 情報分析システム DISAANA を開発し,誰もが利用可能な Web アプリケーションとして試験公開している.本論文では,これまでに行ってきたシステムの改善ならびに不適切な回答候補を抽出する事を回避するために新たに導入したモダリティ解析,ツイート属性判定,予報表現抽出について議論する.その上で,これまで東日本大震災関連の災害情報のみで行われてきた本システムの評価を,台風や大雪といった一般的な災害にまで拡張し評価を行う.その結果,さらなる改善の余地が残されているものの,実用可能な性能に達していることを確認できた.
著者
山田 一郎 橋本 力 呉 鍾勲 鳥澤 健太郎 黒田 航 Stijn De Saeger 土田 正明 風間 淳一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.1, pp.3-23, 2012
被引用文献数
1

単語の上位下位関係を自動獲得する研究はこれまで活発に行われてきたが,上位概念の詳細さに関する議論はほとんどなされてこなかった.自動獲得された上位下位関係の中には,例えば「作品→七人の侍」や「作品→1Q84」のように,より適切と考えられる上位概念「映画」や「小説」と比べて広範囲な概念をカバーする上位概念(「作品」)が含まれることがある.このような上位概念を検索や質問応答などのタスクにおいて利用すると,より詳細な上位概念を利用する手法と比較して有用でないことが多い.そこで本論文では,自動獲得した上位下位関係を,Wikipedia の情報を利用することでより詳細にする手法を提案する.例えば「作品→七人の侍」から,「作品→映画監督の作品→黒澤明の作品→七人の侍」のように,単語「七人の侍」の上位概念(かつ,単語「作品」の下位概念)として,2種類の中間ノード「黒澤明の作品」,「映画監督の作品」を生成することにより,元の上位下位関係を詳細化する.自動獲得した 1,925,676 ペアの上位下位関係を対象とした実験では,最も詳細な上位概念となる一つ目の中間ノード(「黒澤明の作品」など)を重み付き適合率 85.3%で 2,719,441 個,二つ目の中間ノード(「映画監督の作品」など)を重み付き適合率 78.6% で 6,347,472 個生成し,高精度に上位下位関係を詳細化できることを確認した.さらに,生成した上位下位関係が「対象–属性–属性値」として解釈できることについても報告する.
著者
Bond Francis 藤田 早苗 橋本 力 笠原 要 成山 重子 Nichols Eric 大谷 朗 田中 貴秋 天野 成昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.1, pp.83-90, 2004-01-13
被引用文献数
1

本稿では、基本語彙知識ベース構築の一環として構築した、ツリーバンク「檜」を紹介する。「檜」は、HPSGで書かれた日本語文法JaCYに基づいて辞書の語義文を解析したものであり、詳細な統語情報と意味情報の両方が付与されている。本稿では、「檜」構築の目的や理論的基盤などについて述べる。 また、「檜」の有効性を示す一例として、知識獲得の予備実験を行なった結果について報告する。In this paper we present the motivation for the construction of the Hinoki treebank. It is a rich and dynamic treebank of dictionary definition sentences parsed using a Japanese HPSG. We show how the treebank is being used to build an ontology, and outline plans for further work.
著者
橋本 力 鳥澤健太郎 黒田 航 デサーガステイン 村田 真樹 風間 淳一
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.1, pp.293-307, 2011-01-15

テキスト間含意関係認識と呼ばれる技術は,深い自然言語理解を必要とするタスクにおいて重要な役割を果たす.この技術が実用レベルに至るには,大規模な含意知識ベースの構築が不可欠である.本稿では,動詞間含意関係知識の大規模な獲得を目的として,条件付き確率に基づく方向付き類似度尺度を提案する.提案手法の評価実験では,WWW上の日本語1億文書から得られた52,562動詞(異なり)を対象とした.この動詞セットには,日常的に使用される動詞も特定の専門的な領域でのみ用いられるような動詞も区別せず含まれている.提案手法と先行研究の手法それぞれのスコア上位20,000位までの出力からランダムに選ばれた200サンプルを人手評価したところ,比較対象のすべての先行研究の手法の精度を提案手法の精度が上回ることを確認した.また,提案手法のスコア上位100,000の出力を人手評価したところ,大規模動詞含意知識ベースを構築する出発点としてリーズナブルな精度が得られていることを実験により確認した.Textual entailment recognition plays a fundamental role in tasks that require in-depth natural language understanding. For entailment recognition technologies to serve for real-world applications, a large-scale entailment knowledge base is indispensable. This paper proposes a conditional probability based directional similarity measure to acquire verb entailment pairs on a large scale. We targeted 52,562 verb types that derived from 108 Japanese Web documents, regardless whether they were used in daily life or only in specific domains. Evaluating 200 samples that were chosen randomly from the top 20,000 verb entailment pairs acquired by previous methods and ours, we found that our similarity measure outperformed the previous ones. For the top 100,000 results, our method worked well too.
著者
村田 真樹 De Saeger Stijn 橋本 力 風間 淳一 山田 一郎 黒田 航 馬 青 相澤 彰子 鳥澤 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

自然言語処理などの分野の論文アブストラクトから論文の分野、手法、精度、応用先など当該分野で重要となる表現を自動で取り出し、取り出した結果を表などで提示することで、当該分野の動向をより詳細にわかりやすく示すシステムを構築している。論文の分野、手法、精度、応用先などを自動抽出する技術を構築し、この技術により取り出したデータを表やグラフで整理し、当該分野の動向や問題点の分析も行う。