著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.137, pp.39-46, 2000-06-01
参考文献数
9
被引用文献数
1

我々は日本語形態素解析器『茶筌』のための学習ツールを開発している。現在『茶筌』では階層構造をもった品詞体系を採用し、タグの種類は約500にもなっている。このため、通常の品詞tri-gramモデルの作成は困難で、品詞bi-gramモデルでも適当な量のタグづけコーパスを得ることは難しい。通常、このような細かいタグを取り扱うために、複数のタグを同値類へとグループ化することによってタグの数を減らすことが行われる。我々はこれを拡張し、マルコフモデルの条件付き確率計算について各件でタグの同値類を変更するようにした。さらに、例外的な現象によるデータスパースネスに対処するため、単語レベルまで品詞として見るモデルと、選択的tri-gramモデルを導入した。また、単語レベルまで品詞として見る場合には、単語-品詞間スムージングを導入した。『茶筌』にこれらのモデルを適用し、各拡張の評価を行った。

言及状況

はてなブックマーク (1 users, 1 posts)

Twitter (1 users, 2 posts, 0 favorites)

@klmquasi 茶筌は基本が HMM、それに語彙化と一部 trigram を混ぜるというやり方ですね。そういえばこの論文でした。http://t.co/cCTNYS4
@klmquasi 茶筌は基本が HMM、それに語彙化と一部 trigram を混ぜるというやり方ですね。そういえばこの論文でした。http://t.co/cCTNYS4

収集済み URL リスト