著者
長尾 眞 森 信介
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.61, pp.1-8, 1993-07-09
被引用文献数
38

シャノンによる情報理論の確立により,自然言語をマルコフ過程としてとらえ,言語のもつ性質を明らかにしようという立場が提案された.この立場は,あるn文字の組合せがどのような頻度で生じるか(グラム)を調べることにその中心があったが,計算機の性能やテキストデータの不足などにより、大蜆模なテキストに対して、あるいは大きなnに対して言語統計を取ることが行われなかった.我々は,今日の計算機を用いるとこれが実現できると考え,大規模なテキストの任意のnについてのnグラムを簡単にとる方法を考案し,200万文字から3000万文字の中規模の日本語テキストデータに対し,nグラム統計をワークステーションを使って比較的短時間でとることに成功した.その結果,種々のnに対するnグラム統計を比較して調べることによって言葉として有意義なものが取り出せるということが明らかになった.同時にさらに大きいテキストを用いることの必要性と、可能性が明らかになった.In the process of establishing the information theory, C. E. Shannon proposed the Markov process as a good model to characterize a natural language. The core of this idea is to examine the frequency of a string composed of n characters (n-grams), but this statistical analysis of large text data and for a large n has never been carried out because of the low capability of computer and the shortage of text data. Taking advantage of the recent powerful computers to execute it, we developped a new algorithm of n-grams of large text data for arbitrary n and calculated successfully, within relatively short time, n-grams of some middle size Japanese text data containing between two and thirty million characters. From this experiment it became clear that the automatic extraction or determination of words is possible by mutually comparing the n-gram statistics for different values of n.

言及状況

はてなブックマーク (2 users, 2 posts)

Twitter (45 users, 50 posts, 45 favorites)

こんな論文どうですか? 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出(長尾 眞ほか),1993 http://t.co/48ryyMpugq
こんな論文どうですか? 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出(長尾 眞ほか),1993 http://t.co/4kshahla
こんな論文どうですか? 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出(長尾 眞ほか),1993 http://t.co/ko9kyhe
こんな論文どうですか? 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出(長尾 眞ほか),1993 http://t.co/ko9kyhe
こんな論文どうですか? 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出(長尾 眞ほか),1993 http://t.co/ko9kyhe
RT @ronbuntter: こんな論文どうですか? 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出,1993 http://ci.nii.ac.jp/naid/110002934647
こんな論文どうですか? 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出,1993 http://ci.nii.ac.jp/naid/110002934647

収集済み URL リスト