著者
荒川 貴紀 三川 健太 後藤 正幸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.96, no.8, pp.1956-1959, 2013-08-01

本研究では,学習データ中に全く現れなかった未知のカテゴリー(未観測カテゴリー)の文書が出現するような状況での文書分類問題を対象とし,確率モデルに基づいた新しい分類手法を提案する.
著者
三川 健太 後藤 正幸
出版者
公益社団法人 日本経営工学会
雑誌
日本経営工学会論文誌 (ISSN:13422618)
巻号頁・発行日
vol.66, no.4, pp.335-347, 2016 (Released:2016-02-16)
参考文献数
24

入力データの統計的特徴を考慮した距離計量を学習するための手法としてDistance Metric Learnig(以下,計量距離学習)が提案されている.計量距離学習では,適切な制約条件のもとで,繰り返し法による最適化問題を解くことにより最適な計量行列を学習する.しかしながら,一般的な計量距離学習手法では繰り返し毎に固有値分解を行うアルゴリズムを採用していることが多く,学習データの次元数が増加した場合には計算量が大幅に増加し,現実的な時間で最適解を得ることが難しい.また,これらの手法では学習データ全体に対し唯一の計量行列の存在を仮定しているため,学習データの統計的特徴を考慮することが難しいという問題点も存在している.これらの問題点を改善するため,本研究ではカテゴリ毎に複数の計量行列の存在を仮定し,その学習方法について提案を行う.各カテゴリの計量行列導出時にはカテゴリ間の特徴の差異を考慮した定式化を行うとともに繰り返し法を用いずに最適解を得る方法についても述べる.提案手法により得られた計量行列は各カテゴリの統計的特徴を保持していると考えられるため,これらの情報を活用したデータの分類方法についても提案を行う.提案手法の有効性を,低次元密なデータセット,ならびに高次元スパースなデータセットを用いることで示す.
著者
下村 良 三川 健太 後藤 正幸
出版者
Japan Industrial Management Association
雑誌
日本経営工学会論文誌 (ISSN:13422618)
巻号頁・発行日
vol.65, no.2, pp.51-60, 2014

近年の情報化により,企業は大量のテキストデータを蓄積可能となった.これらのデータからは様々な情報を抽出できる可能性があるため,データの効率的な分析手法が望まれている.これらのデータから情報を効率的に把握する方法としてその構造化が考えられ,既に様々な手法が提案されているが,全作業が人手によるため,その数が膨大な大規模テキストデータには適用できないという欠点がある.そこで本研究では,人手による分類手法に大規模テキストデータを扱う自動文書分類の技術を組み合わせ,大規模テキストデータの効率的な解析を支援する手法を提案する.また,ソフトウェア開発に関わる企業が保有する実データに適用し,その有効性を示す.
著者
下村 良 三川 健太 後藤 正幸
出版者
Japan Industrial Management Association
雑誌
日本経営工学会論文誌 (ISSN:13422618)
巻号頁・発行日
vol.65, no.2, pp.51-60, 2014

近年の情報化により,企業は大量のテキストデータを蓄積可能となった.これらのデータからは様々な情報を抽出できる可能性があるため,データの効率的な分析手法が望まれている.これらのデータから情報を効率的に把握する方法としてその構造化が考えられ,既に様々な手法が提案されているが,全作業が人手によるため,その数が膨大な大規模テキストデータには適用できないという欠点がある.そこで本研究では,人手による分類手法に大規模テキストデータを扱う自動文書分類の技術を組み合わせ,大規模テキストデータの効率的な解析を支援する手法を提案する.また,ソフトウェア開発に関わる企業が保有する実データに適用し,その有効性を示す.
著者
齋藤 洋 山崎 史博 三川 健太 後藤 正幸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.114, no.138, pp.7-12, 2014-07-17

本研究では,メトリックラーニングの代表的な手法であるMahalanobis Metric for Clustering (MMC)に着目する.MMCでは,学習データ数の増加や入力データの高次元化により計算量が著しく増加してしまうことが知られている.本研究ではこの問題の解決のため,学習データと特徴次元をランダムに削減し,その下で計量行列を学習する作業を繰り返して結合する手法を提案し,分類精度維持と計算量削減を図る.ベンチマークデータと人工データを用いた評価実験を行い,分類精度と計算量両面から提案手法の有効性を示す.
著者
荒川 貴紀 三川 健太 後藤 正幸
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J96-D, no.8, pp.1956-1959, 2013-08-01

本研究では,学習データ中に全く現れなかった未知のカテゴリー(未観測カテゴリー)の文書が出現するような状況での文書分類問題を対象とし,確率モデルに基づいた新しい分類手法を提案する.