- 著者
-
持橋 大地
山田 武士
上田 修功
- 雑誌
- 研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.2009, no.36(2009-NL-190), pp.49-49, 2009-03-18
本論文では,教師データや辞書を全く必要とせず,あらゆる言語に適用できる教師なし形態素解析器および言語モデルを提案する。観測された文字列を,文字 n グラム ‐ 単語 n グラムをノンパラメトリックベイズ法の枠組で統合した確率モデルからの出力とみなし,MCMC 法と動的計画法を用いて,繰り返し 「単語」 を推定する。提案法は,あらゆる言語の生文字列から直接,高精度で未知語のない n グラム言語モデルを構築する方法ともみなすことができる。