著者
植村 俊亮 波多野 賢治 天笠 俊之 吉川 正俊 渡邉 正裕 前田 亮 石川 正敏
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(B)
巻号頁・発行日
1999

インターネット時代を迎えて,地球規模の情報資源が現出しつつあると言われる.WWW(World Wide Web)は,その典型的な例である.しかし,WWWは,ばらばらに構築された,言語も文化も異なるホームページが互いに接続されて,利用可能になっているだけであって,そこから真に必要な知識を発掘する方式はまだ確立されていない.本研究では,WWWに代表される知識資源の大海から,必要な知識を発掘する方式を,とくにその多言語処理面から追求する.具体的には,次の多言語機能をもつ知識発掘システムの実現を目指す.1.ある言語で表現された情報資源に対して,それとは別の言語を使って問い合わせることができる.例えば,英語のホームページの集まりに対して,日本語で質問を出すことを可能にする.2.複数の異なる言語で表現された情報資源の集まりに対して,自分の一番使いやすい言語を使って,問合せを出し,必要な情報を発掘することができる、例えば,さまざまの言語を使ったホームページの集まりに対して,だれでも母国語を使って問い合わせ,知識を発掘することを可能にする.多言語知識発掘システムのため本研究では以下の項目について研究を実践した.1)対訳辞書を用いた検索語の翻訳手法,および並列コーパスによる統計的手法などを用いた効果的な多義性の除去手法,2)フォント埋め込み型HTML/XML文書による多言語文書のブラウジングシステムの実現,3)大量の多言語HTML/XML文書格納のためのHTML/XML文書データベースの開発.