著者
持橋 大地 菊井 玄一郎
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.36(2006-NL-172), pp.47-53, 2006-03-27

文書があるトピックの持つ確率分布から生成されたと仮定し その確率分布パラメータと文書のトピックへの帰属確率を求めるモデルに ナイーブベイズ法を Polya 分布を用いてベイズ的に精密にとらえ直した混合ディリクレモデル(DM)があるが この方法はトピック数を事前に与える必要があるという欠点があった.これに対し 本論文では可算無限個の混合比にディリクレ過程事前分布を与えることにより データの複雑さに合わせて混合数を自動推定するディリクレ過程混合モデルによる方法を検討する. モデル選択により混合数を決定する方法と異なり この方法は混合数の事後分布をパラメータと同時に推定し 期待値を取ることで予測を行うことができる. 実験の結果 必要な混合数の上限を推測することができ 特に小規模データに対しては性能がさらに上昇することがわかった.
著者
内海 慶 塚原 裕史 持橋 大地
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2015, no.3, pp.1-8, 2015-01-12

本論文では,教師なし学習による品詞を含めた形態素解析手法を提案する.従来の教師なし形態素解析手法では分かち書きのみを対象としており,品詞の推定は扱われてこなかった.本稿では,品詞遷移確率と単語の生起確率の事前分布に階層 Pitman-Yor 過程を用いた隠れセミマルコフモデルに基づく形態素解析手法を提案し,分かち書きとその潜在的な品詞を同時に学習する.これにより,単語分割自体の精度も向上することを日本語,中国語,およびタイ語での実験により確認した.
著者
大石康智 亀岡弘和 持橋大地 柏野邦夫
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.22, pp.1-8, 2013-08-24

歌声の声の大きさの変化 (音量軌跡と呼ぶ) を楽譜と関連付けて特徴づけ,未知の楽譜に対して,その音量軌跡を予測できる生成過程モデルを提案する.数名の歌唱者による同一曲の歌声の音量軌跡を観察した結果,歌唱者ごとにその動特性は特有であり,楽譜や歌唱表現に起因する成分が含まれることがわかった.また,同一歌唱者による数曲の歌声の音量軌跡を観察したところ,歌唱者はいくつかの動特性パターンを所有し,楽譜が与えられた下で,パターンを使い分けて歌唱すると考えた.これらを踏まえて,楽譜における様々なコンテキスト (音符の音高や音長,音符内位置,前後の音符情報など) が与えられた下で,歌唱者が描くであろう音量軌跡を生成するモデルを構築するために,混合ガウス過程を用いる.複数のガウス過程によって音量軌跡の多様な動特性が特徴づけられ,これらの混合モデルによって歌唱者が時々刻々と動特性パターンを使い分ける動作が表現される.評価実験では,単一のガウス過程を用いるより,混合ガウス過程を用いて音量軌跡の動特性を特徴づけた方が,未知の楽譜に対する音量軌跡の予測性能が高いことを示す.また,音符のコンテキストの種類と予測性能の関係について考察する.
著者
持橋 大地 菊井 玄一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.36, pp.47-53, 2006-03-27
被引用文献数
2

文書があるトピックの持つ確率分布から生成されたと仮定し その確率分布パラメータと文書のトピックへの帰属確率を求めるモデルに ナイーブベイズ法を Polya 分布を用いてベイズ的に精密にとらえ直した混合ディリクレモデル(DM)があるが この方法はトピック数を事前に与える必要があるという欠点があった.これに対し 本論文では可算無限個の混合比にディリクレ過程事前分布を与えることにより データの複雑さに合わせて混合数を自動推定するディリクレ過程混合モデルによる方法を検討する. モデル選択により混合数を決定する方法と異なり この方法は混合数の事後分布をパラメータと同時に推定し 期待値を取ることで予測を行うことができる. 実験の結果 必要な混合数の上限を推測することができ 特に小規模データに対しては性能がさらに上昇することがわかった.This paper proposes a Dirichlet process mixture modeling approach to Dirichlet Mixtures (DM). Endowing a prior distribution on an infinite number of mixture components, this approach yields an appropriate number of components as well as their parameters at the same time. Experimental results on amino acid distributions and text corpora confirmed this effect and show comparative performance on large datasets and better performance on small datasets avoiding overfitting.