著者
山西 健司
出版者
一般社団法人 電子情報通信学会
雑誌
電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review (ISSN:18820875)
巻号頁・発行日
vol.10, no.3, pp.186-194, 2017-01-01 (Released:2017-01-01)
参考文献数
30

記述長最小原理(MDL原理)はできるだけ短い符号長でデータを符号化することにより,情報源の推定や予測のための最適戦略を与えるものである.それは機械学習やデータマイニングにおけるアルゴリズムの統一的設計指針を導き,知識発見のコア技術として年々その活用は発展している.これまでMDL 原理は定常的な仮定の下で,正則なモデルを選択するためのモデル選択原理として漸近的な形で与えられ,その適用範囲はある意味制限されていた.本稿では,MDL原理の基礎から始めて,最近の発展,特に,非正則,非漸近,非定常,非確率的といった状況でMDL原理を適用するための方法論についての最近の研究動向を示す.また,データマイニング応用についても言及する.
著者
大枝 真一 天野 恵理子 山西 健司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IBISML, 情報論的学習理論と機械学習 (ISSN:09135685)
巻号頁・発行日
vol.113, no.286, pp.123-130, 2013-11-05

試験は学習者のスキルを測る手段として用いられる.したがって,試験の各設問には解くために必要なスキルが設定されており,学習者がそのスキルを習得していなければ各設問に正答する事はできない.その設問とスキルの関係は関係行列としてQ-matrixと呼ばれ,見識者によって定義されていた.先行研究では,試験結果からNon-negative matrix factorization(NMF)を用いてQ-matrixを自動的に抽出する試みがなされている.しかしながら,それらは学習者のスキルの時間変化を考慮していなかった.教育過程による学習効果をより深く理解するためには,時間とともにどのように潜在的にスキルが習得されていくか解析することが非常に重要である.本研究ではNMFをオンライン化することにより,蓄積された試験結果からQ-matrixを抽出するとともに,時間変化する学習者の潜在スキル状態も抽出することを試みる.また,論理値で構成される行列を因子分解するBoolean matrix factorization(BMF)とNMFとの抽出結果の比較を行う.計算機実験の結果,学習初期から終期の試験結果から学習者の潜在スキルの習得過程を可視化することが可能であることがわかった.

1 0 0 0 OA MDL原理

著者
山西 健司
出版者
日本知能情報ファジィ学会
雑誌
日本ファジィ学会誌 (ISSN:0915647X)
巻号頁・発行日
vol.10, no.1, pp.43-50, 1998-02-15 (Released:2017-09-22)
参考文献数
15
著者
高橋 俊允 冨岡 亮太 山西 健司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IBISML, 情報論的学習理論と機械学習 (ISSN:09135685)
巻号頁・発行日
vol.110, no.476, pp.169-176, 2011-03-21

拡大しつつある話題のリアルタイムな検出は,ソーシャルネットワーキングサービスの普及などによる,リアルタイムなコミュニケーションの発展により重要性を増している.従来はデータが持つ自然言語情報の解析による話題検出が中心であったが,近年はインターネットの発展などによりコンテンツが多様化し,自然言語情報のみによる話題検出はより困難になってきている.そこで本研究ではソーシャルネットワーク上の投稿に対して,それらが持つリンク情報すなわちユーザ間の言及関係を用いた話題拡大の検出手法を提案する.リンク情報について確率モデルを設定し,それに基づく変化点検出によって話題の拡大を捉える.また,Twitterの実データを用いて実験を行い,キーワードの出現頻度による検出と比較した結果,話題拡大の検出に対する提案手法の有効性を確認することができた.
著者
藤巻 遼平 中田 貴之 塚原 英徳 佐藤 彰典 山西 健司
雑誌
全国大会講演論文集
巻号頁・発行日
vol.70, pp.45-46, 2008-03-13

本稿は故障事象の検出問題に関し,A)各属性(時系列データ)の性質が異種多様,B)故障事象の学習事例が少数,C)故障事象とは無関係な属性が多く含まれる,という実応用でしばしば直面する状況で,高精度な診断を可能とするアルゴリズムを提案する.提案アルゴリズムの特徴は,1)各属性の時系列を異常スコアの列へ変換し各属性の異常スコアベクトルによって各故障を特徴付ける,2)故障時および正常時の異常スコアベクトルを利用して適切な属性を選択する,という2点からなる.実験では自動車の実データに対して提案アルゴリズムを適用し,その有効性を確認した.
著者
山西 健司 森永 聡 松村 憲和
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.48, no.8, pp.830-836, 2007-08-15
参考文献数
8
被引用文献数
1

本稿では,テキストマイニング技術を用いてCGM(consumer generated media)情報から知識化を行う枠組みについて解説する.CGMマイニングにおいては,1)トピックのダイナミクスを捉えること,2)トピックの共通文脈を捉えること,3)分散へテロな情報を俯瞰すること,といった問題が重要である.これに対して,それぞれ,動的トピック分析,文脈マイニング,分散協調マイニングといった技術によって解決できることを示す.本枠組みの有効性を,BIGLOBE旬感ランキングにおける事例などを用いて示す.