著者
佐藤 美沙 柳井 孝介 柳瀬 利彦 是枝 祐太 丹羽 芳樹
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

ディベートにおける立論文章生成を目的としたソフトウェアのデモンストレーション展示を行う。聴講者は「カジノを合法化すべきか」のような任意の論題を入力し、賛成・反対両方の立場からの意見文章を出力させることができる。データソースとして国会会議録データベースを利用し、会議発言を元に意見文章を生成する手法を提案する。また提案手法の評価結果について報告する。
著者
久光 徹 丹羽 芳樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.29, pp.1-6, 1997-03-21
被引用文献数
14

情報検索や情報抽出を目的として新聞記事のように開いたテキストを形態素解析する場合,解析誤りの主因の一つは,辞書に登録されていない,社名,人名,地名等の固有名詞の存在である.本報告では,人名辞書の拡充を目標とし,漢字・片仮名表記の未登録姓名を抽出しつつ,既登録であっても,姓・名に分類されていない固有名詞を,姓・名に分類する方法について述べる.大量の新聞記事からパターンマッチにより抽出した人名候補文字列の集合を長さの順にソートし,既存の辞書と文字列の大域的な出現状況を組み合わせて,姓・名の分割を行う.高い確度で姓または名と推定される文字列が獲得された場合は,その場で辞書に追加することにより,処理の進行とともに獲得精度の向上を図る.新聞記事1年分中,「さん」の前に現れる文字列から抽出した異なり数11,123の文字列を対象とし,約25,000個の人名を含む辞書を用いて行った抽出実験の結果,新たに姓・名893個を約95%の精度で獲得し,既登録の人名3725個の姓・名判別を,約99%の精度で行った.その過程で用いた,人名接辞獲得のための効果的な支援方法についても報告する.The majority of errors in Japanese morphological analysis is caused by unknown words, most of which consists of proper names such as company names, product names, person names and place names. This paper proposes a method of acquiring unregistered person names from newspaper articles. The method also distinguishes family names from given names. Character strings which are assumed to contain person names are first extracted by pattern matching and sorted in the order of their length. Then each of the strings is divided into a family name and a given name using a lexicon and co-occurrence analysis. A newly found word having enough evidence is immediately added into the dictionary, which increases the accuracy of the following analysis. In an experiment on 11.123 different strings, 893 names were newly acquired with 95.3% accuracy and 3725 registered names were distinguished as family names or given names with 98.5% accuracy. This paper also reports an effective method of acquiring suffixes for person names.
著者
久光 徹 丹羽 芳樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.107, pp.85-90, 2000-11-21
参考文献数
4
被引用文献数
5

与えられた文書集合を特徴付ける単語を選出することは,様々に応用できる有用技術である。「文書集合を特徴付ける」を,「文書集合中に特異的に多く現れる」と解釈し,これを捉えるために,文書集合D中の単語wに対し,以下の確率値に基づく重み付けを提案する。すなわち,全文書D_0中の単語数をN,wのD_0中での頻度をK,Dの単語数をn,wのD中での頻度をkとしたとき,「N個の玉の中にK個の赤い玉があるとき,任意に取り出したn個の玉の中に赤い玉がk個以上含まれる確率」が小さいほど,wに大きな重みを与えるのである。この指標の有効性を,5指標に関する比較実験により示し,併せて上記の確率の効率的計算方法を述べる.This paper proposes a method of selecting "characteristic words" from a document set. The selection is done by using the weight that is assigned to each word in the document set. The weight is calculated by using the hypergeometric distribution. A comparative evaluation of five methods of word weighting (including tf-idf and SMART) revealed that the proposed method is superior to existing methods. An effiecient method of calculating the hypergeometric probability is also shown.
著者
丹羽 芳樹 新田 義彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 自然言語処理研究会報告
巻号頁・発行日
vol.94, no.63, pp.49-56, 1994-07-21
被引用文献数
3

実用的な自然言語処理に求められる頑健性を確保するためには,ルールに基づく解析を補う数値計算的手段が有効である.単語ベクトルとは単語の意味を反映した座標表現であり,文脈の類似度計算や単語例からの学習など幅広い応用が期待される.本研究では2種類の単語ベクトルを用い,多義語の意味推定問題での効果を比較した.一つは大規模テキストから共起統計により得られる共起ベクトル,もう一つは辞書の語義から計算される単語間距離を用いる定義距離ベクトルである.9種類の多義語に関する実験結果では共起ベクトルの方が高い正解率が得られた.従って文脈の類似度に基づく多義性解消問題に関しては共起ベクトルを用いた方が有利である.
著者
久光 徹 丹羽 芳樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.109, pp.113-118, 1997-11-20
被引用文献数
5

新聞記事には平均10行に1個以上の割合で括弧表現,すなわち二つの文字列A,Bが括弧により対応付けられた表現"A (B)"が現れる.このような括弧表現の一部は,"欧州連合(EU)"や"朝鮮民主主義人民共和国(北朝鮮)"等の言い替えの括弧表現,"日立製作所(会社人事)"等の固有名詞を含む括弧表現であり,これらが特定できれば多数の重要語や固有名詞を獲得できる.本報告では,共起の強さを計る統計指標とエントロピーを字種情報などに基づく単純なルールを組み合わせ,上記の有用な括弧表現を簡便かつ高精度に獲得できることを示す.共起の強さを計る指標として,自己相互情報量,χ^2検定,Yate補正したχ^2検定,頻度,尤度比,Dice係数,改良Dice係数の7種類を比較し,それぞれの効果を調べた.One year worth newspaper articles contain about 300,000 parenthetical expressions. Some of them contain important unregistered words (terms) such as abbreviations, organization names, and company names. The detection of such expressions is therefore an effective way of lexical knowledge acquisition. The proposed method identifies useful parenthetical expressions by combining entropy criteria, a statistical measure to evaluate collocational strength, and a small number of simple rules. In order to select a proper statistical measure, we conducted a comparative evaluation of seven statistical measures: mutual information, χ^2-test, χ^2-test with Yate's correction, frequency, log-likelihood, Dice coefficient, and modified Dice coefficient.