著者
山田 一郎 鳥澤健太郎 風間 淳一 黒田 航 村田 真樹 ステインデ・サーガ フランシス ボンド 隅田 飛鳥 橋本 力
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3435-3447, 2011-12-15

質問応答などの自然言語処理アプリケーションが実用レベルに至るには,計算機で扱うことのできる,世界についての膨大な知識を構築する必要がある.本論文では,そのような知識の筆頭といえる,「サッカー選手/長友佑都」などの語句間の上位下位関係を自動獲得する手法を提案する.提案手法は,Wikipediaから獲得した上位下位関係と,Webテキストから獲得した語句間類似度情報を併用することで,網羅的かつ高精度に上位下位関係を獲得する.評価実験では,提案手法の適合率が,複数のベースライン手法の適合率に比べて,スコア上位10,000ペアでは0.155から0.650の差で,スコア上位100,000ペアでは0.190から0.500の差で上回ることを確認した.また,提案手法の獲得結果の中には,広く用いられている語彙統語パターンによる手法では獲得できない上位下位関係が多く含まれていることを確認した.In order to make natural language processing (NLP) applications such as question answering accurate enough for practical use, it is essential to build a large-scale, computer-tractable semantic knowledge base. In this paper, we target hyponymy relation like "football player/Yuto Nagatomo," which is one of the most important semantic relations for NLP. We propose a new method of large scale hyponymy relation acquisition from Web texts that combines a hyponymy relation database constructed from Wikipedia and the distributional similarity between words calculated from Web texts. Experimental results showed that, in terms of precision, our method outperformed nontrivial baseline methods by 0.155 to 0.650 for the top 10,000 pairs and by 0.190 to 0.500 for the top 100,000 pairs. Furthermore, we confirmed that our method could acquire hyponymy relation pairs that widely-used lexico-syntactic pattern based approaches could not.
著者
土田 正明 デ・サーガステイン 鳥澤健太郎 村田 真樹 風間 淳一 黒田 航 大和田 勇人
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.4, pp.1761-1776, 2011-04-15

情報爆発の時代に入り,大規模コーパスと計算機パワーの増大を背景に,構文的パターンに基づいて「因果関係」などの単語間の意味的関係の知識を獲得する研究が進められている.しかしながら,それらの研究は,文書中に直接的かつ明示的に書かれた知識を獲得するにとどまり,人間であれば解釈可能な間接的記述から獲得することや,文書に書かれていない知識を過去に蓄積された知識からの推論によって大規模に獲得することは行われていない.このような知識の獲得は,より大量の関係を獲得するためだけではなく,人類のイノベーションの加速にとっても重要である.本稿では,既存の構文的パターンに基づく方法で獲得された単語の意味的関係のデータベース,すなわち,特定の意味的関係を持つ単語対の集合を,類推によって大規模に拡張する方法を提案する.提案法は,入力された単語対の中の語を,ウェブから自動獲得した類似語に置換して大量の仮説を生成し,さらに単語間の類似度に基づいて仮説をランキングする.提案法は,従来法では困難な間接的記述からの意味的関係獲得を可能にして,さらには,そもそも文書に記述されている可能性が低い知識を獲得できる.約1億ページのウェブ文書を用いた実験によって,これらを検証するとともに,いくつかの意味的関係に関して,提案法で上位にランキングされた仮説では,最新の構文パターンに基づく獲得法とほぼ変わらない精度を達成できることを示す.
著者
水野 淳太 後藤 淳 大竹 清敬 川田 拓也 鳥澤 健太郎 クロエツェー ジュリアン 田仲 正弘 橋本 力 奥村 明俊
雑誌
情報処理学会論文誌コンシューマ・デバイス&システム(CDS) (ISSN:21865728)
巻号頁・発行日
vol.6, no.1, pp.106-120, 2016-05-24

我々は,災害時にTwitterに投稿される膨大な情報を効率良く検索するために対災害SNS情報分析システムDISAANAを開発し,スマートフォンおよびPCで誰もが利用可能なWebアプリケーションとして試験公開している.本稿では,まず先行システムについて説明し,その問題点についてまとめる.次に,それらの問題をDISAANAがどのように解消するかを説明する.特に,不適切な回答候補の抽出を回避するために導入したモダリティ解析について詳述する.評価実験では,東日本大震災時のツイートに対して,人手で構築した192問の質問とその回答からなる評価セットを用いて本システムの評価を行った.評価の結果,先行システムに比べてF値が7ポイント改善した.エラー分析結果に基づいて,今後の改善方針について考察する.さらに,自治体で実施したDISAANAの有用性検証実験の結果についても報告する.
著者
水野 淳太 後藤 淳 大竹 清敬 川田 拓也 鳥澤 健太郎 クロエツェー ジュリアン 田仲 正弘 橋本 力 奥村 明俊
雑誌
研究報告コンシューマ・デバイス&システム(CDS) (ISSN:21888604)
巻号頁・発行日
vol.2015-CDS-14, no.14, pp.1-13, 2015-09-24

我々は,災害時に Twitter に投稿される膨大な情報を効率よく検索するために対災害 SNS 情報分析システム DISAANA を開発し,誰もが利用可能な Web アプリケーションとして試験公開している.本論文では,これまでに行ってきたシステムの改善ならびに不適切な回答候補を抽出する事を回避するために新たに導入したモダリティ解析,ツイート属性判定,予報表現抽出について議論する.その上で,これまで東日本大震災関連の災害情報のみで行われてきた本システムの評価を,台風や大雪といった一般的な災害にまで拡張し評価を行う.その結果,さらなる改善の余地が残されているものの,実用可能な性能に達していることを確認できた.
著者
山田 一郎 橋本 力 呉 鍾勲 鳥澤 健太郎 黒田 航 Stijn De Saeger 土田 正明 風間 淳一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.1, pp.3-23, 2012
被引用文献数
1

単語の上位下位関係を自動獲得する研究はこれまで活発に行われてきたが,上位概念の詳細さに関する議論はほとんどなされてこなかった.自動獲得された上位下位関係の中には,例えば「作品→七人の侍」や「作品→1Q84」のように,より適切と考えられる上位概念「映画」や「小説」と比べて広範囲な概念をカバーする上位概念(「作品」)が含まれることがある.このような上位概念を検索や質問応答などのタスクにおいて利用すると,より詳細な上位概念を利用する手法と比較して有用でないことが多い.そこで本論文では,自動獲得した上位下位関係を,Wikipedia の情報を利用することでより詳細にする手法を提案する.例えば「作品→七人の侍」から,「作品→映画監督の作品→黒澤明の作品→七人の侍」のように,単語「七人の侍」の上位概念(かつ,単語「作品」の下位概念)として,2種類の中間ノード「黒澤明の作品」,「映画監督の作品」を生成することにより,元の上位下位関係を詳細化する.自動獲得した 1,925,676 ペアの上位下位関係を対象とした実験では,最も詳細な上位概念となる一つ目の中間ノード(「黒澤明の作品」など)を重み付き適合率 85.3%で 2,719,441 個,二つ目の中間ノード(「映画監督の作品」など)を重み付き適合率 78.6% で 6,347,472 個生成し,高精度に上位下位関係を詳細化できることを確認した.さらに,生成した上位下位関係が「対象–属性–属性値」として解釈できることについても報告する.
著者
隅田 飛鳥 吉永 直樹 鳥澤 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_3-3_24, 2009 (Released:2011-09-01)
参考文献数
21
被引用文献数
2 6 12

本稿では,Wikipedia の記事構造を知識源として,高精度で大量の上位下位関係を自動獲得する手法について述べる.上位下位関係は情報検索や Web ディレクトリなど,膨大な Web 文書へのアクセスを容易にする様々な技術への応用が期待されており,これまでにも様々な上位下位関係の抽出手法が開発されてきた.本稿では,Wikipedia の記事構造に含まれる節や箇条書きの見出しから,大量の上位下位関係候補を抽出し,機械学習を用いてフィルタリングすることで高精度の上位下位関係を獲得する手法を開発した.実験では,2007 年 3 月の日本語版 Wikipedia 2.2 GB から,約 77 万語を含む約 135 万対の上位下位関係を精度 90% で獲得することができた.
著者
橋本 力 鳥澤健太郎 黒田 航 デサーガステイン 村田 真樹 風間 淳一
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.1, pp.293-307, 2011-01-15

テキスト間含意関係認識と呼ばれる技術は,深い自然言語理解を必要とするタスクにおいて重要な役割を果たす.この技術が実用レベルに至るには,大規模な含意知識ベースの構築が不可欠である.本稿では,動詞間含意関係知識の大規模な獲得を目的として,条件付き確率に基づく方向付き類似度尺度を提案する.提案手法の評価実験では,WWW上の日本語1億文書から得られた52,562動詞(異なり)を対象とした.この動詞セットには,日常的に使用される動詞も特定の専門的な領域でのみ用いられるような動詞も区別せず含まれている.提案手法と先行研究の手法それぞれのスコア上位20,000位までの出力からランダムに選ばれた200サンプルを人手評価したところ,比較対象のすべての先行研究の手法の精度を提案手法の精度が上回ることを確認した.また,提案手法のスコア上位100,000の出力を人手評価したところ,大規模動詞含意知識ベースを構築する出発点としてリーズナブルな精度が得られていることを実験により確認した.Textual entailment recognition plays a fundamental role in tasks that require in-depth natural language understanding. For entailment recognition technologies to serve for real-world applications, a large-scale entailment knowledge base is indispensable. This paper proposes a conditional probability based directional similarity measure to acquire verb entailment pairs on a large scale. We targeted 52,562 verb types that derived from 108 Japanese Web documents, regardless whether they were used in daily life or only in specific domains. Evaluating 200 samples that were chosen randomly from the top 20,000 verb entailment pairs acquired by previous methods and ours, we found that our similarity measure outperformed the previous ones. For the top 100,000 results, our method worked well too.
著者
村田 真樹 De Saeger Stijn 橋本 力 風間 淳一 山田 一郎 黒田 航 馬 青 相澤 彰子 鳥澤 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

自然言語処理などの分野の論文アブストラクトから論文の分野、手法、精度、応用先など当該分野で重要となる表現を自動で取り出し、取り出した結果を表などで提示することで、当該分野の動向をより詳細にわかりやすく示すシステムを構築している。論文の分野、手法、精度、応用先などを自動抽出する技術を構築し、この技術により取り出したデータを表やグラフで整理し、当該分野の動向や問題点の分析も行う。