著者
福島 俊一 藤巻 遼平 岡野原 大輔 杉山 将
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.60, no.8, pp.543-554, 2017-11-01 (Released:2017-11-01)
参考文献数
30
被引用文献数
3

機械学習技術を用いることで,過去の事例・観測データからの学習に基づく,モノやコトの判別・分類,予測,異常検知等の知的な判断をコンピューターで実現可能になる。ビッグデータの活用と相まって,さまざまな問題解決に機械学習技術の適用が広がっている。本稿では,問題解決への適用という視点から重要と考える技術的チャレンジの方向性として,(1)学習結果の解釈性の確保,(2)機械学習から意思決定まで通した解法の実現,(3)深層学習の高速化・高効率化,(4)機械学習型システム開発方法論の確立,という4点について述べる。
著者
ホーンスティン ノバート 折田 奈甫 藤井 友比呂 小野 創 岡野原 大輔 瀧川 一学
出版者
岩波書店
雑誌
科学
巻号頁・発行日
vol.93, no.12, pp.1004-1014, 2023-12

[連載]人間の言語能力とは何か ― 生成文法からの問い 2
著者
岡野原 大輔 辻井 潤一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.59-64, 2008-09-17

本稿では,全ての部分文字列が素性として利用される文書分類モデル,及びその効率的な学習,推定手法を提案する.文書分類に有効な部分文字列は,単語と異なる場合や,署名やテンプレートなど,非常に長くなる場合が少なくない.しかし,部分文字列の種類数は文書長の二乗に比例するため,それらを素性として直接用いて学習することは,計算量的に困難だった.本稿では,テキスト長に比例する個数のみ存在する極大部分文字列に関する統計量を扱うことで,有効な部分文字列を漏れなく求めることができることを示す.また,拡張接尾辞配列を用いることで,これらを効率的に列挙可能であり,全文書長に比例した時間で学習可能であることを示す.さらに L1 正則化を適用することで,コンパクトな学習結果が得られ,高速な推定が可能であることを示す.このモデルは,形態素解析結果や TF/IDF などの統計量と組み合わせられることを示し,従来の単語ベースの Bag of Words 表現と比較し,精度が向上することを示す.This paper presents a novel document classification method using all substrings as features. Although an effective substring for a document classification task is often different from tokenized words, the number of all candidate substrings is the quadratic of the length of a document, and a learning using all these substrings as features requires a prohibitive computational cost. We show that all effective substrings can be computed exhaustively by checking only maximal substrings, which can be enumerated in linear time by using enhanced suffix arrays. Moreover, we use L1 regularization to obtain a compact learning result, which makes an inference efficient. We show that many prior weights (tf, idf, other tokenized result) can be included in this method naturally. In experiments, we show that our model can extract effective substrings, and more accurate than that of word-base BOW representation.
著者
岡野原 大輔
雑誌
情報処理
巻号頁・発行日
vol.53, no.5, pp.504-512, 2012-04-15

近年,高い圧縮率と高速な問い合わせを両立するデータ構造として,簡潔データ構造(succinct data structure)が注目されている. 簡潔データ構造は理論的な発展とともに,実用化に向けた改善が進んでおり,今後様々な分野でその用途がさらに広がっていくと期待される.この記事では,簡潔データ構造の仕組みと,その利用事例について解説する.
著者
岡野原 大輔 辻井 潤一
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.90(2008-NL-187), pp.59-64, 2008-09-17

本稿では,全ての部分文字列が素性として利用される文書分類モデル,及びその効率的な学習,推定手法を提案する.文書分類に有効な部分文字列は,単語と異なる場合や,署名やテンプレートなど,非常に長くなる場合が少なくない.しかし,部分文字列の種類数は文書長の二乗に比例するため,それらを素性として直接用いて学習することは,計算量的に困難だった.本稿では,テキスト長に比例する個数のみ存在する極大部分文字列に関する統計量を扱うことで,有効な部分文字列を漏れなく求めることができることを示す.また,拡張接尾辞配列を用いることで,これらを効率的に列挙可能であり,全文書長に比例した時間で学習可能であることを示す.さらに L1 正則化を適用することで,コンパクトな学習結果が得られ,高速な推定が可能であることを示す.このモデルは,形態素解析結果や TF/IDF などの統計量と組み合わせられることを示し,従来の単語ベースの Bag of Words 表現と比較し,精度が向上することを示す.