- 著者
-
野美山 浩
- 雑誌
- 全国大会講演論文集
- 巻号頁・発行日
- vol.49, pp.179-180, 1994-09-20
近年、種々の機械可読の大規模コーバスが利用可能になってきており、それらを用いて、書語知識を獲得する多くの研究がなされている。効率的に知識を抽出するためには、文字列レベルだけでなく、形態素レベルの情報、構文レベルの情報、さらには、意味レベルの情報が必要となる。しかし、現技術レベルでは、形態素解析は、99%以上の精度で解析できるものの、構文解析は、よくても80%程度であり、十分な精度力糊待できない。そのため、日本語においてこのような言語データベースは、解析結果を人手で修正することによって作成されているが、その作業には非常に大きな労力を必要とする。かなり長い時間・多くの費用を掛けても、数万~数十万文程度の解析データしか得られない。統計的な情報の有効性は、その母集団の大きさに依存するものであり、実用的な自然言語処理に有効な情報を得るには、非常に大量のテキストから解析データを作成する必要がある。そこで、本稿では、大量のテキストデータから、その形態素解析の結果を利用して、依存構造を抽出する手法を提案する。依存構造は様々な用途に利用できるが、多くの場合、1文すべてに対する依存構造が必要であるわけではなく、1文中の一部の依存構造で十分である。単に2項の依存構造でも有効な情報を持つ。また、文節内のすべての単語についての掛かり受けが必要である訳ではなく、文節の中心となる語(以降ヘッドと呼ぶ)の間の関係のみで十分である。例えば、名詞複合語などが出現している場合は、その一番最後の単語のみの関係を抽出すればよい。本稿では、各文節のヘッドと関係およびそれらの依存構造を以下のように表す。提出13する考え19を示41:23つの文節があり、それらのヘッドと関係はそれぞれ、(提出13.する),(考え19,を),(示4)である。語幹の後の数字は品詞コードである(19は一般名詞)。最初の文節を0とすると、文節の掛かり受け関係は、0→1,1→2となる。本手法は、網羅的に情報を獲得するという従来の言語データベース作成の試みとは異なり、1つの文に対し、完全な解析結果を作成しない。そのかわりに、「文全体ではなく、非常に高い精度が期待できる部分のみを抽出する。」ことによって、大量の依存構造を自動的に抽出することを目的とする。