著者
久光 徹 新田 義彦
雑誌
全国大会講演論文集
巻号頁・発行日
vol.48, pp.45-46, 1994-03-07

データ構造の工夫や主記憶の大規模化により辞書引きが大幅に高速化された現在, 最尤解抽出部の効率化は形態素解析の効率改善において重要な位置を占めるに至った. 我々はこの問題を, 従来あまり深刻に考察されたことのない動詞の活用処理に焦点を当て, 非サ変動詞活用処理に用いる辞書見出しの側面から考察する. 以下では, 従来方式(音韻論的扱い, 及び学校文法に準ずる扱い2種類)を簡単に示した後, 動詞の音韻的語幹の末尾子音を屈折接辞先頭側に付加した見出しを用いる新手法を提案し, 計算効率を含む種々の観点から従来方式に対する優位性を示す. 提案法は, 最も一般的な活用語尾分割方式の辞書にわずかな変更を加えるだけで実現できる.
著者
久光 徹 新田 義彦
雑誌
全国大会講演論文集
巻号頁・発行日
vol.42, pp.1-2, 1991-02-25
被引用文献数
3

形態素解析において生じる多数の解を、尤度により序列化して出力するための統一的な手法として「接続コスト最小法」を提案し、未登録語を含む教科書の文1000個を用いた実験結果を報告する。日本語のように単語間に切れ目を置かない膠着言語の文の処理において、形態素解析は第一の関門である。形態素解析の解の個数は、一般に文字列の長さの指数関数となるため、解を効率よく尤度付けして出力する技術の確立が望まれる。個々の解の間の尤度を比較する手法は数多く提案されているが、尤度の高い順に解を導出するための計算量を評価した論文は少ない。その少数のうちの代表例として[4]があげられる。[4]は文節数最小法の基礎を与えるものであるが、全解を文節数により分類し、文節数の少ない解から出力するための解析表(付録参照)を、文字数nに関して時間計算量0(n^2)で作製するアルゴリズムを与えている。しかし応用の観点からは、文節数だけでは尤度基準として弱いため、文節数最小解を求め、「自立語の後は付属語が来るものを優先する」などの基準を援用してさらに詳細な尤度付けをすることが多い。しかし、文節数最小解の個数は、一般に文字数の指数関数となるため、最尤解の出力に多大の時間を必要とする恐れがある。したがって、文節数最小法よりきめ細かい尤度付けができ、かつ、妥当な計算量が保証された手法を基礎付けることが望まれる。本報告では、そのような尤度付き形態素解析の手法を、実験結果と共に報告する。
著者
久光 徹 丹羽 芳樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.29, pp.1-6, 1997-03-21
被引用文献数
14

情報検索や情報抽出を目的として新聞記事のように開いたテキストを形態素解析する場合,解析誤りの主因の一つは,辞書に登録されていない,社名,人名,地名等の固有名詞の存在である.本報告では,人名辞書の拡充を目標とし,漢字・片仮名表記の未登録姓名を抽出しつつ,既登録であっても,姓・名に分類されていない固有名詞を,姓・名に分類する方法について述べる.大量の新聞記事からパターンマッチにより抽出した人名候補文字列の集合を長さの順にソートし,既存の辞書と文字列の大域的な出現状況を組み合わせて,姓・名の分割を行う.高い確度で姓または名と推定される文字列が獲得された場合は,その場で辞書に追加することにより,処理の進行とともに獲得精度の向上を図る.新聞記事1年分中,「さん」の前に現れる文字列から抽出した異なり数11,123の文字列を対象とし,約25,000個の人名を含む辞書を用いて行った抽出実験の結果,新たに姓・名893個を約95%の精度で獲得し,既登録の人名3725個の姓・名判別を,約99%の精度で行った.その過程で用いた,人名接辞獲得のための効果的な支援方法についても報告する.The majority of errors in Japanese morphological analysis is caused by unknown words, most of which consists of proper names such as company names, product names, person names and place names. This paper proposes a method of acquiring unregistered person names from newspaper articles. The method also distinguishes family names from given names. Character strings which are assumed to contain person names are first extracted by pattern matching and sorted in the order of their length. Then each of the strings is divided into a family name and a given name using a lexicon and co-occurrence analysis. A newly found word having enough evidence is immediately added into the dictionary, which increases the accuracy of the following analysis. In an experiment on 11.123 different strings, 893 names were newly acquired with 95.3% accuracy and 3725 registered names were distinguished as family names or given names with 98.5% accuracy. This paper also reports an effective method of acquiring suffixes for person names.
著者
久光 徹 新田 義彦
雑誌
全国大会講演論文集
巻号頁・発行日
vol.46, pp.71-72, 1993-03-01

べた書き日本語文の形態素解析においては、一般にきわめて多数の解が生じるため、それらの中から適切な解を選択する必要がある。そのためにさまざまな解の尤度付け手法が提案されているが、単語(またはカテゴリー)連接に関するマルコフモデルを用いて解の尤度付けを行なう手法は、代表的なものの一つである。本報告では、マルコフモデルを用いる手法において、与えられたマルコフモデルをより有効に利用し、モデルを変形することなく尤度付け精度を向上させる方法として、入力文字列に基づく各解の条件付き確率を利用する方法を提案する。以下では、マルコフモデル、条件付き確率の利用法、およびアルゴリズムについて簡単に述べた後、本手法により、最小コスト解の個数を(正解を含んだまで)低減できることを実験的に示す。更に、本手法を拡張して適用することにより、ある種の非確率的な尤度関数(例えば形態素数最小法、コスト最小法)についても同様の効果が見られることを示す。
著者
久光 徹 丹羽 芳樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.107, pp.85-90, 2000-11-21
参考文献数
4
被引用文献数
5

与えられた文書集合を特徴付ける単語を選出することは,様々に応用できる有用技術である。「文書集合を特徴付ける」を,「文書集合中に特異的に多く現れる」と解釈し,これを捉えるために,文書集合D中の単語wに対し,以下の確率値に基づく重み付けを提案する。すなわち,全文書D_0中の単語数をN,wのD_0中での頻度をK,Dの単語数をn,wのD中での頻度をkとしたとき,「N個の玉の中にK個の赤い玉があるとき,任意に取り出したn個の玉の中に赤い玉がk個以上含まれる確率」が小さいほど,wに大きな重みを与えるのである。この指標の有効性を,5指標に関する比較実験により示し,併せて上記の確率の効率的計算方法を述べる.This paper proposes a method of selecting "characteristic words" from a document set. The selection is done by using the weight that is assigned to each word in the document set. The weight is calculated by using the hypergeometric distribution. A comparative evaluation of five methods of word weighting (including tf-idf and SMART) revealed that the proposed method is superior to existing methods. An effiecient method of calculating the hypergeometric probability is also shown.
著者
久光 徹 丹羽 芳樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.109, pp.113-118, 1997-11-20
被引用文献数
5

新聞記事には平均10行に1個以上の割合で括弧表現,すなわち二つの文字列A,Bが括弧により対応付けられた表現"A (B)"が現れる.このような括弧表現の一部は,"欧州連合(EU)"や"朝鮮民主主義人民共和国(北朝鮮)"等の言い替えの括弧表現,"日立製作所(会社人事)"等の固有名詞を含む括弧表現であり,これらが特定できれば多数の重要語や固有名詞を獲得できる.本報告では,共起の強さを計る統計指標とエントロピーを字種情報などに基づく単純なルールを組み合わせ,上記の有用な括弧表現を簡便かつ高精度に獲得できることを示す.共起の強さを計る指標として,自己相互情報量,χ^2検定,Yate補正したχ^2検定,頻度,尤度比,Dice係数,改良Dice係数の7種類を比較し,それぞれの効果を調べた.One year worth newspaper articles contain about 300,000 parenthetical expressions. Some of them contain important unregistered words (terms) such as abbreviations, organization names, and company names. The detection of such expressions is therefore an effective way of lexical knowledge acquisition. The proposed method identifies useful parenthetical expressions by combining entropy criteria, a statistical measure to evaluate collocational strength, and a small number of simple rules. In order to select a proper statistical measure, we conducted a comparative evaluation of seven statistical measures: mutual information, χ^2-test, χ^2-test with Yate's correction, frequency, log-likelihood, Dice coefficient, and modified Dice coefficient.
著者
櫻井 博文 久光 徹
雑誌
全国大会講演論文集
巻号頁・発行日
vol.54, pp.57-58, 1997-03-12
被引用文献数
2

近年CD-ROMやWWWをはじめとする大規模な電子化文書をオンデマンドで解析したいという要求から、形態素解析にも高速性が求められている。我々は、高速・汎用な形態素解析プログラムの作成・公開を目指してANIMAを開発した。本発表ではANIMAのいくつかの特徴を簡単に紹介し、特に単語辞書実装方法と解析処理各部の速度について報告する。