著者
丸山 宏 諸橋 正幸 野美山 浩
雑誌
全国大会講演論文集
巻号頁・発行日
vol.49, pp.213-214, 1994-09-20

我々が現在取り組んでいる電子図書館[1]を始め、パソコン通信、GoPher,World-Wide Webなど、電子ネットワーク上で情報を提供する手段がポピュラーになり、個人がアクセスできる情報の地平線が爆発的に広がりつつある。そんな中で、欲しい情報を的確にアクセスするには、WWWサーバーなど新たな情報の固まり(これを情報集合と呼ぶことにする)に出あった時に、その集合がどのような情報を含んでいるかを自分なりに理解しておくことが非常に重要になる。例えば、この電子図書館は近代日本文学の蔵書が豊富であるとか、このパソコンネットはパソコンの技術的な内容に非常に強いとか、ローカルな気象情報は、どのWWWサーバーが最も最新か、とか、質の高い論文のリストは、どこのftPサイトで見つかりやすいとか、エンターテイメントで人気の高いのは、どこのBBSであるか、などという自分なりの理解である。このような「情報のありかに関する知識」は、簡単に得られるものではなく、個人の経験から蓄積されたものの方が多いようである。このように、ある情報集合の内容に関して、自分なりのイメージを描くことを、我々は、"Information Outlining"と呼ぶことにする。本稿では、"Information Outlining"が電子図書館を始め将来の情報社会に於いて非常に重要な概念であることを指摘し、これを助けるためのコンピューターの仕組みを研究する必要性を議論する。また、その一つの方策として、検索中に、現在の検索条件に合致する文書数はいくつか、また、他の検索キーについて、その検索キーを追加すると該当文書はいくつに絞られるか、を常にユーザーに提示するアイデアについて述べる。
著者
野美山 浩
雑誌
全国大会講演論文集
巻号頁・発行日
vol.49, pp.179-180, 1994-09-20

近年、種々の機械可読の大規模コーバスが利用可能になってきており、それらを用いて、書語知識を獲得する多くの研究がなされている。効率的に知識を抽出するためには、文字列レベルだけでなく、形態素レベルの情報、構文レベルの情報、さらには、意味レベルの情報が必要となる。しかし、現技術レベルでは、形態素解析は、99%以上の精度で解析できるものの、構文解析は、よくても80%程度であり、十分な精度力糊待できない。そのため、日本語においてこのような言語データベースは、解析結果を人手で修正することによって作成されているが、その作業には非常に大きな労力を必要とする。かなり長い時間・多くの費用を掛けても、数万~数十万文程度の解析データしか得られない。統計的な情報の有効性は、その母集団の大きさに依存するものであり、実用的な自然言語処理に有効な情報を得るには、非常に大量のテキストから解析データを作成する必要がある。そこで、本稿では、大量のテキストデータから、その形態素解析の結果を利用して、依存構造を抽出する手法を提案する。依存構造は様々な用途に利用できるが、多くの場合、1文すべてに対する依存構造が必要であるわけではなく、1文中の一部の依存構造で十分である。単に2項の依存構造でも有効な情報を持つ。また、文節内のすべての単語についての掛かり受けが必要である訳ではなく、文節の中心となる語(以降ヘッドと呼ぶ)の間の関係のみで十分である。例えば、名詞複合語などが出現している場合は、その一番最後の単語のみの関係を抽出すればよい。本稿では、各文節のヘッドと関係およびそれらの依存構造を以下のように表す。提出13する考え19を示41:23つの文節があり、それらのヘッドと関係はそれぞれ、(提出13.する),(考え19,を),(示4)である。語幹の後の数字は品詞コードである(19は一般名詞)。最初の文節を0とすると、文節の掛かり受け関係は、0→1,1→2となる。本手法は、網羅的に情報を獲得するという従来の言語データベース作成の試みとは異なり、1つの文に対し、完全な解析結果を作成しない。そのかわりに、「文全体ではなく、非常に高い精度が期待できる部分のみを抽出する。」ことによって、大量の依存構造を自動的に抽出することを目的とする。