著者
福水 健次 鈴木 大慈 小林 景
出版者
統計数理研究所
雑誌
基盤研究(B)
巻号頁・発行日
2014-04-01

H29年度はカーネル法の効率的計算アルゴリズムの課題を中心に研究を遂行した.まず,カーネル法を用いた分布間の距離尺度としてよく用いられる Maximum Mean Discrepancy (MMD)の効率的計算に関して研究を行った.MMDの計算は,そのまま実行するとサンプル数 n に対して O(n^2) の計算量がかかるため大規模なデータに使うことが難しい.これに対し,MMDをU統計量として表現して,データからのランダムサンプリングを行う不完全U統計量の計算を行うと,計算量が削減されるだけでなく,分布の均一性検定の帰無分布が漸近正規性を満たすという非常に良いよい性質を持つことが分かった.この結果に基づいて,MMDの効率計算を従来から研究を行っていた事後選択推論(Post Selection Inference)に応用した論文をまとめて投稿準備を行っている.また,カーネル法を用いた自然言語処理における共起尺度に関して共同研究を行い,低ランク近似の方法を用いることによって比較的少ない計算量で尺度を構築することが可能で,巨大なコーパスからでも学習が可能であることを示した.さらに,カーネル法による分布埋め込みに関するサーベイ論文を出版した.このトピックは本課題においても大きな役割を果たす技術であるが,まとまって書かれた教科書などは存在していなかった.本サーベイ論文は技術を普及するうえで重量な役割を持つと考える.
著者
横井 祥 小林 颯介 福水 健次 乾 健太郎
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

コロケーション獲得や対話応答選択など,言語表現の間の関連の強さのモデル化は自然言語処理における基本的タスクである.デファクトの共起尺度である自己相互情報量(PMI)は疎なデータに適用すると大きな学習時間が必要となる.本講演では,PMIが「相互情報量へのペア(x,y)の貢献度」と捉えられることと対応付け,新しい共起尺度であるPointwise HSIC(PHSIC)を「カーネル法に基づく依存性尺度HSICへのペア(x,y)の貢献度」として提案する.PHSICは句や文などの疎な言語表現に適用でき,しかも行列計算に基づく高速な推定が可能である.実験では,PHSICを対話の応答文選択タスクに適用し,学習速度が既存尺度に比べ約100倍高速で,かつデータ数が少ないときにも予測精度の劣化が少ないことを示す.
著者
金川 元信 福水 健次
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.113, no.286, pp.147-154, 2013-11-12

近年のカーネル法の発展のひとつとして,確率分布を再生核ヒルベルト空間(RKHS)上の点として表現することによりノンパラメトリックな統計的推論を実現する「カーネル平均埋め込み」と呼ばれる方法論が盛んに研究されており,状態空間モデル,確率伝搬法,強化学習を含む幅広い対象に対して応用されている.この枠組みでは確率分布そのものを推定する代わりに,RKHS上での確率表現を直接的に推定することによりノンパラメトリックな統計的推論を実現する.しかしながら,推定されたRKHS上での確率表現から対応する確率分布の分布統計量を計算する方法は現在までにほとんど研究されていない.本稿では確率密度関数,信頼区間,モーメントといった分布統計量をRKHS上の確率表現から推定する方法論を示し,それらの推定量の収束性を証明する.
著者
福水 健次 Fukumizu Kenji
雑誌
データマイニングと統計数理研究会(第 1 回)

This paper reviews the recent approaches of "kernel method" as a transform of data into the reproducing kernels.