著者
平 博順 向内 隆文 春野 雅彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.173-180, 1998-11-05
参考文献数
19
被引用文献数
11

本稿では、Support Vector Machine (SVM)を用いたテキスト分類法を提案する。テキスト分類問題に対して学習手法を適用する場合、出現頻度の小さい単語まで考慮して学習を行なわいと、分類精度が落ちることが知られている。このため高い分類精度を実現するためには、高次元の単語ベクトルを用いなければならないが、過学習により分類精度が落ちてしまう危険性が生じる。SVMはKernel開数により非線形学習も可能であり、高次元の入力ベクトルを用いても過学習なしに最適解が得られる。SVMをテキスト分類に適用し、1.異なる次元の単語ベクトル、2.異なるKernel関数、3.異なる目的関数、の3点について比較実験を行なった。その結果、SVMがテキスト分類問題に対して有効であることが確認された。This paper describes a text categorization method that uses Support Vector Machines (SVMs). The accuracies of learning-based text categorization systems depend not only on frequent words but also on infrequent ones. However, high dimensionality of the data sometimes causes overfitting that harms the overall performance of the system. SVMs avoid the curse of dimensionality by using a quadratic optimization method. In addition, SVMs can also learn Non-linearity by introducing Kernel functions. We tested method from the following three perspectives: 1. word vectors of different dimensions, 2. different Kernel functions and 3. extended cost function. The results clearly show the effectiveness of SVMs for the text categorization task.
著者
平 博順 春野 雅彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.6, pp.1843-1851, 2002-06-15
参考文献数
24
被引用文献数
5

本論文では,トランスダクティブ・ブースティング法によるテキスト分類手法を提案する.テキスト分類器の学習に使用する大規模な訓練データの作成にはコストや時間がかかる.そのため訓練データが少ない場合にも高い分類精度が得られる学習法が求められている.トランスダクティブ法は学習の際に訓練データだけでなく,分類クラスの付与されていないテストデータの分布も考慮に入れることにより分類精度を上げる方法である.本論文ではこれをブースティングに対し適用し,実験を行った.その結果,従来のブースティングによる学習に比べて高精度のテキスト分類器を学習できた.特に少数の訓練データしかない場合にも高い精度が得られた.This paper describes a new text categorization method using transductiveboosting. It is time-consuming and expensive to assemble a large corpus of categorized textfor use with learning-based classification methods.Therefore, we require learning methods that are able to learn classifiersextremely accurately from a small quantity of training data.The transductive method takes account of bothtraining data and test data distribution and provides a highly accurate classifier.We adopt a transductive method in a boosting algorithm for text categorization. The categorization performance was better than that of the original boosting.Specifically the performance wasimproved significantly for small quantities of training data.
著者
春野 雅彦
出版者
バイオメカニズム学会
雑誌
バイオメカニズム学会誌 (ISSN:02850885)
巻号頁・発行日
vol.25, no.4, pp.172-176, 2001-11-01 (Released:2016-11-01)
参考文献数
9

我々は日常の何気ない動作の中で実に巧みに複合的で階層的な運動を行っている.例えば,テニスをするにはボールの回転や着地点といった目的が存在し,その目的を実現するための個々の動作は更に多くの要素運動の複雑な組み合わせで構成されている.本稿ではこのような階層的運動の学習機構の解明を目指し我々が計算論的立場から行っている研究について解説する.特に予測モデルを用いた行動の結果予測と,制御モデルによる実際の制御を組み合わせて学習制御を行うMOSAICアーキテクテャに焦点を絞り,その基本動作原理,シミュレーション,任意の階層構造への拡張等について紹介することとしたい.
著者
川人 光男 銅谷 賢治 春野 雅彦
出版者
一般社団法人映像情報メディア学会
雑誌
映像情報メディア学会技術報告 (ISSN:13426893)
巻号頁・発行日
vol.24, no.38, pp.57-64, 2000-06-22

言語などのヒトの高次認知機能を神経科学の研究対象とするためには、サルなどの動物実験で得られた神経科学のミクロなレベルの知識を、計算理論を媒介として、ヒトを対象にした脳活動の計測データや、言語学などの研究と統合する必要がある。このための新しい計算理論とそれを支持するデータを紹介する。我々の提唱するアプローチの対極となる、Chomskyが構築した生成文法研究で大前提とされる仮定に対する批判を行いながら、研究の全体像を俯瞰する。
著者
春野 雅彦 白井 諭 大山 芳史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.39, no.12, pp.3177-3186, 1998-12-15
被引用文献数
15

本稿ではコーパスから決定木を構成し日本語係受け解析に適用する手法を提案する.一般に日本語係受け解析では2文節間の係りやすさを数値で表現し,その数値を1文全体で最適化することによって係受け関係を決定する.したがって,日本語係受け解析の問題は2文節間の係りやすさを正確に計算することに帰着される.提案手法の主旨は2文節の係りやすさの評価と必要な属性の自動選択に決定木を利用するということである.既存の統計的依存解析の研究では,文節の種類によらず,あらかじめ決められた属性すべてによる条件付き確率で係りやすさを評価する.一方,決定木による手法では,係受け関係にある文節とそうでない文節を弁別する属性が,2文節の種類に応じて重要な順に必要な数だけ選択される.したがって,大量の属性をシステムに与えても必要がなければ利用されず,データスパースネスの問題を避けることが可能となる.これによって構文解析の精度向上に効果が期待される属性はすべて採用することができる.EDRコーパスを用いて手案手法の評価実験を行ったところ,既存の統計的係受け解析手法を4%上回る解析精度が得られた.さらに本実験では,1.決定木の枝刈りと解析精度の関係,2.データ量と解析精度の関係,3.種々の属性の解析精度に与える影響,4.文節の主辞に関して頻出単語の表層,分類語彙表カテゴリを属性に加えた場合の影響,の各項目について検討を行った.その結果,1.少なめの枝刈りで解析精度が向上する,2.係受け解析の学習に必要な文数はおよそ2万文である,3.属性のうち特に有効なのは,係り側文節の形と文節間距離である,4.主辞の語彙情報を使っても必ずしも解析精度が上がるわけではない,の4点で明らかとなった.これらの結果は今後日本語係受け解析システムや日本語解析済みコーパスを構築する際に一定の指針となりうる.This paper describes a Japanese dependency parser that uses a decision tree.Jananese dependency parser generally prepares a modification matrix,each value of which represents how a phrase tends to modify the other.The parser determines the best dependency structure by totally optimizing the values in a sentence under several constraints.Therefore,our main task is to precisely evaluate the modification matrix from corpora.Conventional stochastic dependency parsers define a set of learning features and apply all of them regardless of phrase types.On the contrary,our decision tree based method automatically selects significant and enough number of features according to the phrase types.We can make use of large number of features that may have contrivution to parsing accuracy.The proposed method was tested with EDR corpus and yielded significantly better (4%) performance over a conventional statistical dependency parser.In addition,we tested the following 4 properties of the system;1.relation between parsing accuracy and pruning of decision tree,2.relation between parsing accuracy and amount of training data,3.relation between types of features and parsing accuracy and 4.parsing accuracy when additionally using frequent open class words and thesaurus categories.The results were 1.weak pruning yielded better performance,2.the decision tree learning for dependency parsing required fifty thousands Japanese sentences,3.the type of modifier and the modification distance are particularly effective for parsing accuracy and 4.open class words and thesaurus categories do always improve the accuracy.These findings may offer the important clues to Japanese parser developments and corpus constructions in the future.