著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.4, pp.77-84, 2002-01-21
被引用文献数
9

本論文では 情報検索の分野で提案されたPLSI(Probabilistic Latent Semantic Indexing)の方法を拡張したSemantic Aggregate Model を提案し 単語の持つ意味の概略を最尤推定の立場から$k$-次元の確率分布によって表現する. この表現によって 従来ベクトル空間モデルによって経験的に扱われてきた`意味'を数学的に見通しよく扱うことができる. 関連して 単語間の意味的な距離 意味的重みについての新しい指標を提案する.This paper proposes a Semantic Aggregate Model on word meanings by extending an Information Retrieval model PLSI (Probabilistic Latent Semantic Indexing.) Through the maximum likelihood estimation, this model renders approximate meanings of a word with a discrete probability distribution on latent classes. By this representation, the semantic distance and semantic weights of words can be reformulated mathematically.
著者
持橋 大地 山田 武士 上田 修功
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2009, no.36(2009-NL-190), pp.49-49, 2009-03-18

本論文では,教師データや辞書を全く必要とせず,あらゆる言語に適用できる教師なし形態素解析器および言語モデルを提案する。観測された文字列を,文字 n グラム ‐ 単語 n グラムをノンパラメトリックベイズ法の枠組で統合した確率モデルからの出力とみなし,MCMC 法と動的計画法を用いて,繰り返し 「単語」 を推定する。提案法は,あらゆる言語の生文字列から直接,高精度で未知語のない n グラム言語モデルを構築する方法ともみなすことができる。
著者
長野 匡隼 中村 友昭 長井 隆行 持橋 大地 小林 一郎 高野 渉
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1L3J1101, 2019 (Released:2019-06-01)

人は知覚した高次元の時系列情報を意味を持つ単語や単位動作に分節・分類することで認識している.ロボットが単語や動作を柔軟に学習するためにも,このような教師なしで分節・分類する能力は重要であると考えられる.本稿では教師なしで高次元の時系列データから特徴抽出すると同時に,単位系列に分節・分類が可能なHierarchical Dirichlet Processes-Variational Autoencoder-Gaussian Process-Hidden Semi-Markov Model (HVGH)を提案する.HVGHは,HDP-GP-HSMMにVariational Autoencoder(VAE)を導入したモデルであり,VAEとHDP-GP-HSMMのパラメータが相互に影響しあい学習される.VAEにより高次元データを分節化に適した低次元の潜在変数へと圧縮し,その潜在変数の遷移をガウス過程を用いて表現することで,高次元の複雑な時系列データの分節化を可能とする.実験では,様々なモーションキャプチャデータを用いて,提案手法が既存手法よりクラス数の推定精度及び分節・分類の精度が高いことが示す.
著者
三村 喬生 中村 友昭 松本 惇平 西条 寿夫 須原 哲也 持橋 大地 南本 敬史
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1C4J301, 2019 (Released:2019-06-01)

非ヒト霊長類など社会集団を構成する動物種においても広く観察される視線・表情・姿勢・動作などの身体表現を用いた非言語表現は、社会的コミュニケーションの本質的要素を成していると考えられるが、有効な定量解析技術がなく、コミュニケーションダイナミクスの理解において課題となっている。本研究では、身体表現を高解像度かつ汎用的に解析する手法の開発および実装として、小型霊長類コモン・マーモセットの典型的な摂餌行動を対象とし、ログデータを取得と身体動作時系列の分節推移構造推定を行った。データ取得には深度カメラとオ ブジェクト検出器を組み合わせた新規のマーカーレス・3 次元 モーショントラック技術を開発・実装し身体部位のトラッキン グ情報を抽出した。分節推移構造の推定には、ガウス過程の導入により多次元連続量を取り扱える拡張を施した隠れセミマルコフモデルを用いた。結果、マーモセット行動エソグラムの高解像度な分離を得たことから、提案手法は疾患モデル動物の病態評価など幅広い応用が期待される。
著者
能地 宏 持橋 大地 石塚 満
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-208, no.4, pp.1-11, 2012-08-26

文書の潜在トピックを捉え,トピックに応じた適切なnグラムを用いて予測を行うBayes的なnグラム言語モデルを提案する.文章には,単語の出現が文書のトピックに依存して決まる内容語と,文法的な関係のみで決まる機能語が存在する.我々はこれらの単語の出現が,文脈によっておおまかに決まることに着目し,適切な箇所でのみトピックを考慮した予測を行うモデルとして,2種類のモデルを提案し,比較を行う.トピック別のnグラムモデルを,通常のGibbsサンプリングで学習したのではすぐに局所解に陥ってしまうことを実験的に示し,それを回避するための新しいBlocked Gibbsサンプリングを提案する.提案法は,パープレキシティの比較において,Unigram Rescalingと同等以上の性能を示しながら,予測時間の大幅な改善を行うことを確認した.
著者
持橋 大地 吉井 和佳 後藤 真孝
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-213, no.11, pp.1-8, 2013-09-05

本論文では,単語に潜在空間における座標を明示的に与え,その上でのガウス過程を考えることで,通常の混合モデルに基づくトピックモデルより高精度なテキストモデルが得られることを示す.提案法は潜在層が二値ではなく,ガウス分布に従う RBM の生成モデルともみることができ,MCMC により単語の潜在座標を学習することは他の多くの応用や,可視化にも自然に繋がることができる.
著者
大石康智 亀岡 弘和 持橋 大地 永野 秀尚 柏野 邦夫
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.9, pp.1-8, 2010-07-21
被引用文献数
1

本報告では,歌声のF0動特性をノート単位で編集し,歌い方を多様に変形できる歌声合成インタフェースの実現を目指し,その動特性のモデリングとモデルパラメータ推定に関する新しい解法を提案する.F0動特性は線形2次系に従うと仮定し,その生成過程を完全に確率モデルとして表現する.そして,EM法に基づいて,効率的なモデルパラメータ最適化アルゴリズムを導出する.最終的に,推定された2次系の振動を制御するパラメータと各ノートの音高を表すパラメータを個別に操作し,生成されたF0系列に基づいて歌声音響信号を変形して合成する"Vocal Dynamics Controller"を実装する.We present a novel statistical model for dynamics of various singing behaviors, such as vibrato and overshoot, in a fundamental frequency (F0) sequence and develop a note-by-note editing and synthesizing interface for F0 dynamics. We develop a complete stochastic representation of the F0 dynamics based on a second-order linear system and propose a complete, efficient scheme for parameter estimation using the Expectation-Maximization (EM) algorithm. Finally, we synthesize the singing voice using the F0 sequence generated by manipulating model parameters individually which control the oscillation based on the second-order system and the pitch of each note.
著者
持橋 大地 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2003, no.4(2002-NL-153), pp.41-47, 2003-01-20

本報告では 語彙の意味的概念の空間内での表現に関し 空間の性質によらない評価基準を示し 確率的表現が従来のベクトル空間での表現より優れていることを見る.また 計算量上問題となる概念空間の次元数に対し AICによる最適次元数の決定を試みた.
著者
持橋 大地 加来田 裕和
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.2(1998-NL-129), pp.35-39, 1999-01-20

メッセージ処理などにおいて,単語に重みづけを行うことは基本的で重要な課題である.従来このための手法としてtf・idfが用いられてきたが,tf・idfは文脈を考慮していないため,重要な語を落としてしまう可能性がある.本研究では,単語の重要度の基準として周辺分布に着目し,頻度と組み合わせた形での指標を提案する.この手法はテキストが文書に分かれない環境でも重みづけが可能であり,学習データによって適応的な重みづけが得られる.また,電子メールの重要性判定に適用することで,内容による優先度判定やフィルタリングが行えることが示唆された.
著者
持橋 大地 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.95(1999-NL-134), pp.155-162, 1999-11-25

本論文では,単語の意味を単語間の連想関係を表す確率分布として表現し,その定式化と連想確率の獲得について述べる.単語の意味的な重みを表す指標として単語の共起確率分布の情報量から計算される連想情報量を提案し,共起確率との組み合わせにより連想確率を計算する.連想はMarkov過程の上で行われ,その状態確率分布として意味が定義される.状態遷移として連想を行うことによって,直接共起しない語の意味的な関係が表現できる.また,確率ベクトルとして捉えた意味のスケール変換として文脈を捉え,先行単語集合の数を仮定しない非線型な更新式を提案し,これにより文脈の強化と順序への依存が表現できることを示す.現実のテキストから意味を獲得し,文脈をモデル化することで,意味的類似度や文脈解析だけでなく,情報検索などにおいて様々な実際的な意味処理が可能になる.
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.95, pp.155-162, 1999-11-25

本論文では,単語の意味を単語間の連想関係を表す確率分布として表現し,その定式化と連想確率の獲得について述べる.単語の意味的な重みを表す指標として単語の共起確率分布の情報量から計算される連想情報量を提案し,共起確率との組み合わせにより連想確率を計算する.連想はMarkov過程の上で行われ,その状態確率分布として意味が定義される.状態遷移として連想を行うことによって,直接共起しない語の意味的な関係が表現できる.また,確率ベクトルとして捉えた意味のスケール変換として文脈を捉え,先行単語集合の数を仮定しない非線型な更新式を提案し,これにより文脈の強化と順序への依存が表現できることを示す.現実のテキストから意味を獲得し,文脈をモデル化することで,意味的類似度や文脈解析だけでなく,情報検索などにおいて様々な実際的な意味処理が可能になる.This paper describes meanings of a word by stochastic association. First, we propose a new indicator of semantic informativeness of a word by its co-occurrence distributions. Second, we define the association probability by a combination of co-occurrence probability and the indicator. Then, regarding context as a vector of scaling factors against semantic vector, we propose a nonlinear formula of context succession to show its validity in modeling reinforcement and order depencency of context. Stochastic treatment of meaning and its aquisition from texts is useful in real semantic processing.
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.41-47, 2003-01-20
被引用文献数
2

本報告では 語彙の意味的概念の空間内での表現に関し 空間の性質によらない評価基準を示し 確率的表現が従来のベクトル空間での表現より優れていることを見る.また 計算量上問題となる概念空間の次元数に対し AICによる最適次元数の決定を試みた.This paper proposes a neutral metric of semantic coherence independent of the inherent property of semantic spaces. Using this metric, we show that PLSA representation excels than LSA, and try to find an optimal setting of semantic dimensions based on minimum description length criterion.
著者
長野 匡隼 中村 友昭 長井 隆行 持橋 大地 小林 一郎 金子 正秀
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.2G404, 2018 (Released:2018-07-30)

本稿では,連続的な時系列データを教師なしで分節化する手法を提案する.ガウス過程(GP)を出力確率分布とした隠れセミマルコフモデル(HSMM)により,連続的な身体動作を単位動作に分節化する手法(GP-HSMM)が提案されている.しかし,GP-HSMMでは,予め分類されるクラス数を与える必要があった.そこで,階層ディリクレ過程(HDP)を導入することで,GP-HSMMをノンパラメトリックベイズモデルに拡張したHDP-GP-HSMMを提案する.提案手法では,GPから単位動作が生成され,それらが結合されることで,動作全体が生成されると考える.クラス数を階層ディリクレ過程とSlice Samplingにより決定し,Forward filtering-Backward samplingによりパラメータを推定することで教師なしの身体動作の分節化が可能となる.
著者
横井 祥 持橋 大地 高橋 諒 岡崎 直観 乾 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

コーパスから関係知識を取り出す際,元の文のどの単語までを知識に含めるかが問題となる.本研究では,文ペアの集合を入力として知識に含めるべき単語を教師なしで推定する問題を提案し,この形式の問題が人工知能の諸分野に存在することを指摘する.提案手法では,カーネル法ベースの独立性尺度を目的関数に用いて乱択アルゴリズムで最適化する.人工データと実データを用いた実験でその有用性を示す.