著者
壱岐 貞昭 石橋 辰夫 新山祐介 白井 清昭 田中 穂積 徳永 健伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2000, no.53, pp.95-95, 2000-06-01

「傀儡」は、自然言語によって仮想空間上のソフトウエアロボットを制御するシステムである。ユーザは音声により仮想空間上のロボットやカメラに対して指示を与えることができる。システムはその指示を解析し、意図を理解し、その意図に適した動作をソフトウエアロボットに実行させる。また、本システムは照応・省略という言語現象を扱うことができる。これらを解決するために、各ロボットは照応や省略の対象となる名詞句を保持するためのデータベースを持っている。そして、ユーザの指令から発話行為を分析し、対話の主題を推測しながらこれらのデータベースを更新することによって照応や省略を解決する。この際、ロボットやカメラからの視覚情報も用いている。Kairai is a system which controls software robots in a virtual space according to natural language commands. The user can control the robots or camera by voice. The system analyses the command and understand the intention of the command. The software robots executes a set of actions congruent with the command intention. The system can also handle anaphora and ellipsis. Each robot has a database containing noun phrases from the preceding discourse which may form the antecedent of anaphoric or elliptical references, to aid in solving these phemonena. The system extracts the speech act from the user command, and guesses the topic of conversation in the process of updating each robot database, also relying on information on the view angle of the robots and camera.
著者
若山龍太 白井清昭
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.21, pp.1-8, 2014-05-15

質問タイプの分類はファクトイド型質問応答システムにおける重要な要素技術である.従来手法では,あらかじめ定義されている質問タイプの粒度が粗いため,実用的な質問応答システムに用いるには不十分であるという問題があった.本研究では,関根の拡張固有表現階層に基づく詳細な質問タイプを定義し,質問文の質問タイプを Support Vector Machine (SVM) ならびに k-NN 法を用いて自動分類することを試みる.また,分類器の訓練データとして,正解の質問タイプが付与された質問文のコーパスに加えて,固有表現タグ付きコーパスを併用する手法を提案する.実験の結果,質問タイプ分類の正解率は 60.3%となった.学習素性の有効性を検証した結果,自立語,疑問詞の素性が質問タイプの分類に有効であること,訓練データの量が多いときには単語 bi-gram も有効な素性であることがわかった.一方,訓練データとして固有表現タグ付きコーパスを併用することの効果は確認できなかった.
著者
若山龍太 白井清昭
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.21, pp.1-8, 2014-05-15

質問タイプの分類はファクトイド型質問応答システムにおける重要な要素技術である.従来手法では,あらかじめ定義されている質問タイプの粒度が粗いため,実用的な質問応答システムに用いるには不十分であるという問題があった.本研究では,関根の拡張固有表現階層に基づく詳細な質問タイプを定義し,質問文の質問タイプを Support Vector Machine (SVM) ならびに k-NN 法を用いて自動分類することを試みる.また,分類器の訓練データとして,正解の質問タイプが付与された質問文のコーパスに加えて,固有表現タグ付きコーパスを併用する手法を提案する.実験の結果,質問タイプ分類の正解率は 60.3%となった.学習素性の有効性を検証した結果,自立語,疑問詞の素性が質問タイプの分類に有効であること,訓練データの量が多いときには単語 bi-gram も有効な素性であることがわかった.一方,訓練データとして固有表現タグ付きコーパスを併用することの効果は確認できなかった.
著者
加藤 和彦 白井 清昭 戸田 巖 和田 隆夫 星野 力 加藤 和彦
雑誌
情報処理
巻号頁・発行日
vol.42, no.7, pp.726-733, 2001-07-15

ITの花咲き乱れる昨今ではあるが,ITを支える基盤ソフトウェアの分野は閉塞感に覆われているのではないだろうか.立ち止まって考えてみよう.足下を見つめてみよう.そして,新たな地平を切り開く可能性を論じよう.
著者
新納 浩幸 村田 真樹 白井 清昭 福本 文代 藤田 早苗 佐々木 稔 古宮 嘉那子 乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.319-362, 2015

語義曖昧性解消の誤り分析を行う場合,まずどのような原因からその誤りが生じているかを調べ,誤りの原因を分類しておくことが一般的である.この分類のために,分析対象データに対して分析者 7 人が独自に設定した誤り原因のタイプを付与したが,各自の分析結果はかなり異なり,それらを議論によって統合することは負荷の高い作業であった.そこでクラスタリングを利用してある程度機械的にそれらを統合することを試み,最終的に 9 種類の誤り原因として統合した.この 9 種類の中の主要な 3 つの誤り原因により,語義曖昧性解消の誤りの 9 割が生じていることが判明した.またタイプ分類間の類似度を定義することで,統合した誤り原因のタイプ分類が,各自の分析結果を代表していることを示した.また統合した誤り原因のタイプ分類と各自の誤り原因のタイプ分類を比較し,ここで得られた誤り原因のタイプ分類が標準的であることも示した.
著者
白井 清昭
出版者
北陸先端科学技術大学院大学
雑誌
若手研究(B)
巻号頁・発行日
2005

本研究課題では、ユーザの質問が暖昧であったときに、ユーザに対して問い合わせを行うことによって適切な解答を選択する対話型質問応答システムを構築することを目的とする。前年度までは知識源となるコーパスとして新聞記事を用いていたが、獲得できる知識に偏りがあるという問題点があった。本年度は、より多様な知識の獲得が期待できるウェブを知識源とし、そのために必要なシステムの改変に取り組んだ。ユーザの質問の暖昧性を検出するために、ウェブページ上の表を抽出する手法とテキスト解析に基づく手法の2つを考案した。ウェブページ上の表を抽出する手法では、ユーザの暖昧な質問に対し、それに対応する複数の解答を一覧表示している表をウェブから発見し、ユーザに提示する。質問文中の主要なキーワードが表の1行目または1列目にあるか、残りのキーワードが表の近傍にあるか、表の一行または一列上にあるテキストが質問に対する解答タイプと一致しているか、などの条件をチェックし、条件を満たす表を抽出する。一方、テキスト解析に基づく手法では、まずキーワード検索でウェブページを獲得し、解答候補を抽出する。次にキーワードの周辺にある限定表現をパタンマッチによって抽出する。最後に共通の属性を持つ限定表現をまとめて解答群を作成し、ユーザに提示する。さらに、まずウェブページ上の表を抽出を試み、ユーザに提示するのに適切な表を発見できなかった場合にはテキスト解析に基づく手法で動的に解答群を作成するという形式で、提案する2つの手法を併用するシステムを作成した。評価実験の結果、2つの手法を併用することにより、より多くの質問に対して適切に暖昧性を検出できることを確認した。
著者
白井 清昭 徳永 健伸 田中 穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.47, pp.81-88, 1994-05-27
被引用文献数
6

本論文は構文構造が付加されたコーパスから自動的に文脈自由文法を抽出する方法について述べる。まず構文構造内のノードに自動的に非終端記号を割り当てて、規則数210600の曖昧性のない文法を抽出した。次に自動的に割り当てられた非終端記号に対して、抽出された規則の右辺の記号列を見て人間が適切な名前を与えることにより文法の規則の数を削減した。さらに非終端記号に対する名前付けを自動的に行う方法も提案した。また、文法中の右辺長の長い規則を右辺長の短い規則を用いて分解することにより、さらに文法サイズの縮小を試みた。最後に抽出した文法を用いてコーパスの例文の統語解析を行い、統語的な曖昧性の数を調べる実験を行った。This paper discribes a method of automatic extraction of context-free grammar from bracketed corpus. First, unambiguous grammar with 210600 rules is extracted by automatically replacing nodes in trees with non terminal symbols. In order to reduce the number of the rules, we give proper names to non terminal symbols taking account of the right hand side of the rules. For further reduction of grammar size, we decompose rules which have many symbols in the right hand side. Finally, we conducted an experiment to analize sentences with the extracted grammar.