著者
黒田 航 阿部 慶賀
出版者
杏林大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2016-04-01

H29年度は予備実験を次の要領で実施した.1. 刺激文: 33種類の原典とそれらの変異版を合わせて合計200種種類の刺激文を作成し,それら無作為に20文のセットに10分割し,それぞれのセットには提示順序を無作為化したA, B, C, D版を用意した.33の原典文の作成では,次の4種類の構文パターンP1, P2, P3, P4 と次の11種類の動詞を使った: P1: _-が _-で _-に _-と V-(し)た,P2: _-が _-で _-に _-を V-(し)た,P3: _-が _-で _-を _-に V-(し)た,P4: _-が _-で _-から _-を V-(し)た; V22. 行く,V26. 知る,V40. 教える,V44. 感じる,V131. 探す,V116. 答える,V326. 黙る,V338. 負ける,V377. 伝わる,V1147. 知り+合う,V1197. 感染+する.2. 実験: 東京,岐阜,福岡の三ヶ所で,合計251名の被験者から反応を取得した (東京で93名,岐阜で109名,福岡で49名).その逸脱反応の除去により,有効反応数は216名分となった.容認度評定と同時に次の評定者の社会的属性10個を入手した: A1. 年齢 [数値],A2. 性別 [男/女/その他],A3. 生誕地 [県名のコード],A4. 母語が日本語かどうか [はい/いいえ],A5. 一年より長く国外に住んだ事があるか [はい/いいえ],A6. これまでに学んだ異国語の数 [数値],A7. 異国語を学んだ延べ年数 [数値],A8. 日本語を話さない人と頻繁に接触するか [はい/いいえ/わからない],A9. 1ヵ月に読む本の数 [数値],A10. 教育を受けた年数 [数値].3. 解析結果の報告: 上のデータの解析結果を言語処理学会第24回年次大会で発表した.
著者
山田 一郎 鳥澤健太郎 風間 淳一 黒田 航 村田 真樹 ステインデ・サーガ フランシス ボンド 隅田 飛鳥 橋本 力
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3435-3447, 2011-12-15

質問応答などの自然言語処理アプリケーションが実用レベルに至るには,計算機で扱うことのできる,世界についての膨大な知識を構築する必要がある.本論文では,そのような知識の筆頭といえる,「サッカー選手/長友佑都」などの語句間の上位下位関係を自動獲得する手法を提案する.提案手法は,Wikipediaから獲得した上位下位関係と,Webテキストから獲得した語句間類似度情報を併用することで,網羅的かつ高精度に上位下位関係を獲得する.評価実験では,提案手法の適合率が,複数のベースライン手法の適合率に比べて,スコア上位10,000ペアでは0.155から0.650の差で,スコア上位100,000ペアでは0.190から0.500の差で上回ることを確認した.また,提案手法の獲得結果の中には,広く用いられている語彙統語パターンによる手法では獲得できない上位下位関係が多く含まれていることを確認した.In order to make natural language processing (NLP) applications such as question answering accurate enough for practical use, it is essential to build a large-scale, computer-tractable semantic knowledge base. In this paper, we target hyponymy relation like "football player/Yuto Nagatomo," which is one of the most important semantic relations for NLP. We propose a new method of large scale hyponymy relation acquisition from Web texts that combines a hyponymy relation database constructed from Wikipedia and the distributional similarity between words calculated from Web texts. Experimental results showed that, in terms of precision, our method outperformed nontrivial baseline methods by 0.155 to 0.650 for the top 10,000 pairs and by 0.190 to 0.500 for the top 100,000 pairs. Furthermore, we confirmed that our method could acquire hyponymy relation pairs that widely-used lexico-syntactic pattern based approaches could not.
著者
土田 正明 デ・サーガステイン 鳥澤健太郎 村田 真樹 風間 淳一 黒田 航 大和田 勇人
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.4, pp.1761-1776, 2011-04-15

情報爆発の時代に入り,大規模コーパスと計算機パワーの増大を背景に,構文的パターンに基づいて「因果関係」などの単語間の意味的関係の知識を獲得する研究が進められている.しかしながら,それらの研究は,文書中に直接的かつ明示的に書かれた知識を獲得するにとどまり,人間であれば解釈可能な間接的記述から獲得することや,文書に書かれていない知識を過去に蓄積された知識からの推論によって大規模に獲得することは行われていない.このような知識の獲得は,より大量の関係を獲得するためだけではなく,人類のイノベーションの加速にとっても重要である.本稿では,既存の構文的パターンに基づく方法で獲得された単語の意味的関係のデータベース,すなわち,特定の意味的関係を持つ単語対の集合を,類推によって大規模に拡張する方法を提案する.提案法は,入力された単語対の中の語を,ウェブから自動獲得した類似語に置換して大量の仮説を生成し,さらに単語間の類似度に基づいて仮説をランキングする.提案法は,従来法では困難な間接的記述からの意味的関係獲得を可能にして,さらには,そもそも文書に記述されている可能性が低い知識を獲得できる.約1億ページのウェブ文書を用いた実験によって,これらを検証するとともに,いくつかの意味的関係に関して,提案法で上位にランキングされた仮説では,最新の構文パターンに基づく獲得法とほぼ変わらない精度を達成できることを示す.
著者
山田 一郎 橋本 力 呉 鍾勲 鳥澤 健太郎 黒田 航 Stijn De Saeger 土田 正明 風間 淳一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.1, pp.3-23, 2012
被引用文献数
1

単語の上位下位関係を自動獲得する研究はこれまで活発に行われてきたが,上位概念の詳細さに関する議論はほとんどなされてこなかった.自動獲得された上位下位関係の中には,例えば「作品→七人の侍」や「作品→1Q84」のように,より適切と考えられる上位概念「映画」や「小説」と比べて広範囲な概念をカバーする上位概念(「作品」)が含まれることがある.このような上位概念を検索や質問応答などのタスクにおいて利用すると,より詳細な上位概念を利用する手法と比較して有用でないことが多い.そこで本論文では,自動獲得した上位下位関係を,Wikipedia の情報を利用することでより詳細にする手法を提案する.例えば「作品→七人の侍」から,「作品→映画監督の作品→黒澤明の作品→七人の侍」のように,単語「七人の侍」の上位概念(かつ,単語「作品」の下位概念)として,2種類の中間ノード「黒澤明の作品」,「映画監督の作品」を生成することにより,元の上位下位関係を詳細化する.自動獲得した 1,925,676 ペアの上位下位関係を対象とした実験では,最も詳細な上位概念となる一つ目の中間ノード(「黒澤明の作品」など)を重み付き適合率 85.3%で 2,719,441 個,二つ目の中間ノード(「映画監督の作品」など)を重み付き適合率 78.6% で 6,347,472 個生成し,高精度に上位下位関係を詳細化できることを確認した.さらに,生成した上位下位関係が「対象–属性–属性値」として解釈できることについても報告する.
著者
黒田 航 井佐原 均
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.105, no.204, pp.47-54, 2005-07-16
被引用文献数
4

現行の多くの概念分類体系には不備がある.その一つが意味型の概念と意味役割の概念の区別の不在である.意味型は自然類をコードするが, 意味役割はそうではない.意味役割は典型的には(利用者にとっての)機能類をコードする.非自然類が疑似的に自然類として分類されると, 分類に欠損や歪みが生じる.例えば日本語語彙大系では「番犬」と「番人」の共通性[番をする者]が表現されていない.この種の表現力の不足を補うための枠組みを, 私たちは意味役割の一般理論の観点から素描する.
著者
橋本 力 鳥澤健太郎 黒田 航 デサーガステイン 村田 真樹 風間 淳一
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.1, pp.293-307, 2011-01-15

テキスト間含意関係認識と呼ばれる技術は,深い自然言語理解を必要とするタスクにおいて重要な役割を果たす.この技術が実用レベルに至るには,大規模な含意知識ベースの構築が不可欠である.本稿では,動詞間含意関係知識の大規模な獲得を目的として,条件付き確率に基づく方向付き類似度尺度を提案する.提案手法の評価実験では,WWW上の日本語1億文書から得られた52,562動詞(異なり)を対象とした.この動詞セットには,日常的に使用される動詞も特定の専門的な領域でのみ用いられるような動詞も区別せず含まれている.提案手法と先行研究の手法それぞれのスコア上位20,000位までの出力からランダムに選ばれた200サンプルを人手評価したところ,比較対象のすべての先行研究の手法の精度を提案手法の精度が上回ることを確認した.また,提案手法のスコア上位100,000の出力を人手評価したところ,大規模動詞含意知識ベースを構築する出発点としてリーズナブルな精度が得られていることを実験により確認した.Textual entailment recognition plays a fundamental role in tasks that require in-depth natural language understanding. For entailment recognition technologies to serve for real-world applications, a large-scale entailment knowledge base is indispensable. This paper proposes a conditional probability based directional similarity measure to acquire verb entailment pairs on a large scale. We targeted 52,562 verb types that derived from 108 Japanese Web documents, regardless whether they were used in daily life or only in specific domains. Evaluating 200 samples that were chosen randomly from the top 20,000 verb entailment pairs acquired by previous methods and ours, we found that our similarity measure outperformed the previous ones. For the top 100,000 results, our method worked well too.
著者
村田 真樹 De Saeger Stijn 橋本 力 風間 淳一 山田 一郎 黒田 航 馬 青 相澤 彰子 鳥澤 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

自然言語処理などの分野の論文アブストラクトから論文の分野、手法、精度、応用先など当該分野で重要となる表現を自動で取り出し、取り出した結果を表などで提示することで、当該分野の動向をより詳細にわかりやすく示すシステムを構築している。論文の分野、手法、精度、応用先などを自動抽出する技術を構築し、この技術により取り出したデータを表やグラフで整理し、当該分野の動向や問題点の分析も行う。