著者
持橋 大地 山田 武士 上田 修功
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2009, no.36(2009-NL-190), pp.49-49, 2009-03-18

本論文では,教師データや辞書を全く必要とせず,あらゆる言語に適用できる教師なし形態素解析器および言語モデルを提案する。観測された文字列を,文字 n グラム ‐ 単語 n グラムをノンパラメトリックベイズ法の枠組で統合した確率モデルからの出力とみなし,MCMC 法と動的計画法を用いて,繰り返し 「単語」 を推定する。提案法は,あらゆる言語の生文字列から直接,高精度で未知語のない n グラム言語モデルを構築する方法ともみなすことができる。

言及状況

Twitter (5 users, 5 posts, 1 favorites)

山田太造ほか「日本南北朝期史料を対象とした潜在的トピックによる史料分類と関連史料提示の手法」。史料の単語分割を行うにあたっては、持橋大地ほか「ベイズ階層言語モデルによる教師なし形態素解析」 http://t.co/6yfgMAN1ld の手法を援用している。 #jinmoncom

収集済み URL リスト