著者
久光 徹 新田 義彦
雑誌
全国大会講演論文集
巻号頁・発行日
vol.48, pp.45-46, 1994-03-07

データ構造の工夫や主記憶の大規模化により辞書引きが大幅に高速化された現在, 最尤解抽出部の効率化は形態素解析の効率改善において重要な位置を占めるに至った. 我々はこの問題を, 従来あまり深刻に考察されたことのない動詞の活用処理に焦点を当て, 非サ変動詞活用処理に用いる辞書見出しの側面から考察する. 以下では, 従来方式(音韻論的扱い, 及び学校文法に準ずる扱い2種類)を簡単に示した後, 動詞の音韻的語幹の末尾子音を屈折接辞先頭側に付加した見出しを用いる新手法を提案し, 計算効率を含む種々の観点から従来方式に対する優位性を示す. 提案法は, 最も一般的な活用語尾分割方式の辞書にわずかな変更を加えるだけで実現できる.
著者
久光 徹 新田 義彦
雑誌
全国大会講演論文集
巻号頁・発行日
vol.42, pp.1-2, 1991-02-25
被引用文献数
3

形態素解析において生じる多数の解を、尤度により序列化して出力するための統一的な手法として「接続コスト最小法」を提案し、未登録語を含む教科書の文1000個を用いた実験結果を報告する。日本語のように単語間に切れ目を置かない膠着言語の文の処理において、形態素解析は第一の関門である。形態素解析の解の個数は、一般に文字列の長さの指数関数となるため、解を効率よく尤度付けして出力する技術の確立が望まれる。個々の解の間の尤度を比較する手法は数多く提案されているが、尤度の高い順に解を導出するための計算量を評価した論文は少ない。その少数のうちの代表例として[4]があげられる。[4]は文節数最小法の基礎を与えるものであるが、全解を文節数により分類し、文節数の少ない解から出力するための解析表(付録参照)を、文字数nに関して時間計算量0(n^2)で作製するアルゴリズムを与えている。しかし応用の観点からは、文節数だけでは尤度基準として弱いため、文節数最小解を求め、「自立語の後は付属語が来るものを優先する」などの基準を援用してさらに詳細な尤度付けをすることが多い。しかし、文節数最小解の個数は、一般に文字数の指数関数となるため、最尤解の出力に多大の時間を必要とする恐れがある。したがって、文節数最小法よりきめ細かい尤度付けができ、かつ、妥当な計算量が保証された手法を基礎付けることが望まれる。本報告では、そのような尤度付き形態素解析の手法を、実験結果と共に報告する。
著者
久光 徹 新田 義彦
雑誌
全国大会講演論文集
巻号頁・発行日
vol.46, pp.71-72, 1993-03-01

べた書き日本語文の形態素解析においては、一般にきわめて多数の解が生じるため、それらの中から適切な解を選択する必要がある。そのためにさまざまな解の尤度付け手法が提案されているが、単語(またはカテゴリー)連接に関するマルコフモデルを用いて解の尤度付けを行なう手法は、代表的なものの一つである。本報告では、マルコフモデルを用いる手法において、与えられたマルコフモデルをより有効に利用し、モデルを変形することなく尤度付け精度を向上させる方法として、入力文字列に基づく各解の条件付き確率を利用する方法を提案する。以下では、マルコフモデル、条件付き確率の利用法、およびアルゴリズムについて簡単に述べた後、本手法により、最小コスト解の個数を(正解を含んだまで)低減できることを実験的に示す。更に、本手法を拡張して適用することにより、ある種の非確率的な尤度関数(例えば形態素数最小法、コスト最小法)についても同様の効果が見られることを示す。
著者
丹羽 芳樹 新田 義彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 自然言語処理研究会報告
巻号頁・発行日
vol.94, no.63, pp.49-56, 1994-07-21
被引用文献数
3

実用的な自然言語処理に求められる頑健性を確保するためには,ルールに基づく解析を補う数値計算的手段が有効である.単語ベクトルとは単語の意味を反映した座標表現であり,文脈の類似度計算や単語例からの学習など幅広い応用が期待される.本研究では2種類の単語ベクトルを用い,多義語の意味推定問題での効果を比較した.一つは大規模テキストから共起統計により得られる共起ベクトル,もう一つは辞書の語義から計算される単語間距離を用いる定義距離ベクトルである.9種類の多義語に関する実験結果では共起ベクトルの方が高い正解率が得られた.従って文脈の類似度に基づく多義性解消問題に関しては共起ベクトルを用いた方が有利である.
著者
久米 徹 新田 義彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.5, pp.959-969, 1994-05-25
被引用文献数
6

日本語解析の基礎である形態素解析においては,考え得る多数の解の中から何らかのゆう度基準に従って適切な解を選択する必要があり,多くの研究がなされてきた.しかし,これらの研究知見の蓄積を統合的に分析し,更に高度なゆう度基準を発見・構築するためには,次の2者が必要と考えられる.すなわち,(1)ゆう度基準を記述するための見通しよい枠組みと,個々のゆう度基準から独立した汎用アルゴリズム,(2)ゆう度基準の性質を比較できるデータ.これに対応すべく,我々は(1)「最ゆう解=最小コスト解」の対応による一般的なゆう度基準記述法と動的計画法に基づく汎用解析アルゴリズムを構築し,これらに基づき(2)4種のゆう度基準の比較データを得た.(1)のアルゴリズムは最小からN位のコストまでに対応する解を導出でき,計算効率はO(nNlog_2(1+N))のオーダである.また,このアルゴリズムが通常のビームサーチ法よりも優位である点も示した.ゆう度基準の比較は,このアルゴリズムを利用し6種類の指標を導入して行ったが.その結果,文節数最小法を若千群細化するだけで,簡易かつ高精度のゆう度基準が得られることを示せた.