著者
三川 健太 後藤 正幸
出版者
公益社団法人 日本経営工学会
雑誌
日本経営工学会論文誌 (ISSN:13422618)
巻号頁・発行日
vol.66, no.4, pp.335-347, 2016 (Released:2016-02-16)
参考文献数
24

入力データの統計的特徴を考慮した距離計量を学習するための手法としてDistance Metric Learnig(以下,計量距離学習)が提案されている.計量距離学習では,適切な制約条件のもとで,繰り返し法による最適化問題を解くことにより最適な計量行列を学習する.しかしながら,一般的な計量距離学習手法では繰り返し毎に固有値分解を行うアルゴリズムを採用していることが多く,学習データの次元数が増加した場合には計算量が大幅に増加し,現実的な時間で最適解を得ることが難しい.また,これらの手法では学習データ全体に対し唯一の計量行列の存在を仮定しているため,学習データの統計的特徴を考慮することが難しいという問題点も存在している.これらの問題点を改善するため,本研究ではカテゴリ毎に複数の計量行列の存在を仮定し,その学習方法について提案を行う.各カテゴリの計量行列導出時にはカテゴリ間の特徴の差異を考慮した定式化を行うとともに繰り返し法を用いずに最適解を得る方法についても述べる.提案手法により得られた計量行列は各カテゴリの統計的特徴を保持していると考えられるため,これらの情報を活用したデータの分類方法についても提案を行う.提案手法の有効性を,低次元密なデータセット,ならびに高次元スパースなデータセットを用いることで示す.
著者
永森 誠矢 山下 遥 荻原 大陸 後藤 正幸
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.4, pp.1273-1285, 2018-04-15

近年,企業は就職ポータルサイトを用いて学生に採用情報を提供している.その際,就職ポータルサイトを活用しようとする企業は採用活動の被エントリ数への影響とその予測値に関心がある.そこで本研究では,就職ポータルサイトに蓄積されている履歴データを活用し,新規企業が獲得できる被エントリ数の予測と被エントリ数の影響要因分析のためのモデルを構築する方法について検討する.具体的には,精度の高い予測とともに,影響要因の効果を分析可能とするモデルとして,各企業が持つ潜在的要因を考慮した混合回帰モデルを提案する.提案したモデルを就職ポータルサイト上の実データに適用し,企業の採用活動と学生の被エントリ数の関係性を解析し,その有効性を示す.
著者
下村 良 三川 健太 後藤 正幸
出版者
Japan Industrial Management Association
雑誌
日本経営工学会論文誌 (ISSN:13422618)
巻号頁・発行日
vol.65, no.2, pp.51-60, 2014

近年の情報化により,企業は大量のテキストデータを蓄積可能となった.これらのデータからは様々な情報を抽出できる可能性があるため,データの効率的な分析手法が望まれている.これらのデータから情報を効率的に把握する方法としてその構造化が考えられ,既に様々な手法が提案されているが,全作業が人手によるため,その数が膨大な大規模テキストデータには適用できないという欠点がある.そこで本研究では,人手による分類手法に大規模テキストデータを扱う自動文書分類の技術を組み合わせ,大規模テキストデータの効率的な解析を支援する手法を提案する.また,ソフトウェア開発に関わる企業が保有する実データに適用し,その有効性を示す.
著者
下村 良 三川 健太 後藤 正幸
出版者
Japan Industrial Management Association
雑誌
日本経営工学会論文誌 (ISSN:13422618)
巻号頁・発行日
vol.65, no.2, pp.51-60, 2014

近年の情報化により,企業は大量のテキストデータを蓄積可能となった.これらのデータからは様々な情報を抽出できる可能性があるため,データの効率的な分析手法が望まれている.これらのデータから情報を効率的に把握する方法としてその構造化が考えられ,既に様々な手法が提案されているが,全作業が人手によるため,その数が膨大な大規模テキストデータには適用できないという欠点がある.そこで本研究では,人手による分類手法に大規模テキストデータを扱う自動文書分類の技術を組み合わせ,大規模テキストデータの効率的な解析を支援する手法を提案する.また,ソフトウェア開発に関わる企業が保有する実データに適用し,その有効性を示す.
著者
齋藤 洋 山崎 史博 三川 健太 後藤 正幸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.114, no.138, pp.7-12, 2014-07-17

本研究では,メトリックラーニングの代表的な手法であるMahalanobis Metric for Clustering (MMC)に着目する.MMCでは,学習データ数の増加や入力データの高次元化により計算量が著しく増加してしまうことが知られている.本研究ではこの問題の解決のため,学習データと特徴次元をランダムに削減し,その下で計量行列を学習する作業を繰り返して結合する手法を提案し,分類精度維持と計算量削減を図る.ベンチマークデータと人工データを用いた評価実験を行い,分類精度と計算量両面から提案手法の有効性を示す.
著者
荒川 貴紀 三川 健太 後藤 正幸
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J96-D, no.8, pp.1956-1959, 2013-08-01

本研究では,学習データ中に全く現れなかった未知のカテゴリー(未観測カテゴリー)の文書が出現するような状況での文書分類問題を対象とし,確率モデルに基づいた新しい分類手法を提案する.
著者
小幡 洋昭 後藤 正幸 平澤 茂一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IT, 情報理論
巻号頁・発行日
vol.96, no.494, pp.79-84, 1997-01-24
被引用文献数
1

Z.Zhang and V.K.Weiの提案したGold Washingアルゴリズムは, ある一定の確率分布で発生させたランダムな系列で辞書を逐次更新することにより, 有限アルファペットの無記憶情報源に対し, 確率分布が未知であっても漸近的にRate-Distortion関数に収束することが証明されている. 一方, Y.Steinberg and M.GutmanはLZ77符号に用いられるString Matchingを有歪み圧縮に応用したアルゴリズムを提案した. このアルゴリズムは, 有限アルファベットの無記憶情報源に対し, 情報源から定まる最適な符号語の分布により発生させたランダムな系列で辞書を更新することにより, 漸近的にRate-Distortion関数に収束することが証明されている. そこで, 本稿ではGold Washingアルゴリズムの考えを用いたString Matchingアルゴリズムに基づくアルゴリズムを提案し, シミュレーションによりそれぞれのアルゴリズムの特性を考察する.
著者
鈴木 誠 大須賀 昭彦 後藤 正幸 須子 統太
出版者
湘南工科大学
雑誌
基盤研究(C)
巻号頁・発行日
2010

文字N-グラムに基づく言語独立なテキスト分類手法である蓄積手法を提案した。蓄積手法は、索引語を形成する際に文字N-グラムを使用するので、言語固有の文法構造に依存しない。テキスト文書がUnicodeで表現されてさえいれば、蓄積手法は異なる言語に対しても同一のプログラムを用いて文書を分類することができる。そこで、この蓄積手法を用いて英語と日本語と韓国語と中国語のテキスト文書の分類実験をした。その結果、英語のReuters-21578は94.5%、日本語の毎日新聞の実験データは88.5%、韓国語のハンギョレー新聞の実験データは90.2%、中国語の人民日報の実験データに対しても92.6%の精度で分類することができた。このように、蓄積手法が様々な言語で比較的高い精度で分類できることを確認した。さらに、蓄積手法の数理モデルを構築し、その数理的な意味を解明することができた。