著者
鈴木 潤 藤野 昭典 磯崎 秀樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.21-28, 2007-09-25
参考文献数
9

本稿では,半教師あり条件付確率場(Semi supervised conditional random fields)について議論をおこなう.自然言語処理の多くのタスクでは )効果的なモデル学習のために単語やその連接といった特徴を利用する必要があり,一般的に数万次元以上という高次元かつスパースな特徴空間を用いて学習をおこなう必要がある。よって,これらのタスクでは,半教師あり学習の枠組みにおいても,高次元スパース特徴空間に頑健な枠組が求められるそこで。本稿では文献[1]の枠組をベースにし,高次元スパース特徴空間に対して頑健な半教師あり条件付確率場を新たに提案する.また,固有表現抽出およびチヤンキングタスクを用いて半教師あり条件付確率場の性能と性質について検証をおこなった提案法により,従来の教師あり条件付確率場[2],エントロピー正則化に基づく半教師あり条件付確率場[3]と比較して大幅に良い結果が得られたまた,エントロピー、正則化に基づく半教師あり条件付確率場は,理論的にも実験的にも,高次元スパース特徴空間を用いた学習では性能の向上が期待できないことを明らかにする.This paper proposes a novel semi-supervised conditional random field which provides good characteristics with respect to handling the large and sparse feature spaces. Experiments on two real NLP tasks with extremely large feature spaces, such as named entity recognition and syntactic chunking, show that our proposed method significantly improves the state-of-the-art performance obtained from supervised CRFs[2], and semi-supervised CRFs employing the entropy regularization approach[3]. Moreover, this paper reveals that, theoretically and experimentally, semi-supervised CRFs based on the entropy regularization approach[2] cannot work well for improving the performance of tasks with large and sparse feature spaces.
著者
藤田 早苗 Kevin Duh 藤野 昭典 平 博順 進藤 裕之
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.3, pp.273-291, 2011 (Released:2011-10-04)
参考文献数
26
被引用文献数
1

本稿では,訓練データの自動拡張による語義曖昧性解消の精度向上方法について述べる.評価対象として,SemEval-2010 日本語語義曖昧性解消タスクを利用した.本稿では,まず,配布された訓練データのみを利用して学習した場合の結果を紹介する.更に,辞書の例文,配布データ以外のセンスバンク,ラベルなしコーパスなど,さまざまなコーパスを利用して,訓練データの自動拡張を試みた結果を紹介する.本稿では,訓練データの自動獲得により 79.5% の精度を得ることができた.更に,対象語の難易度に基づき,追加する訓練データの上限を制御したところ,最高 80.0% の精度を得ることができた.
著者
藤野 昭典 上田 修功 磯崎 秀樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.85, pp.95-98, 2008-09-11

各データが複数のカテゴリに属する多重分類問題に対して,ラベルありデータとラベルなしデータを用いた半教師あり学習により分類器を設計する手法を提案する.提案法では,ラベルありデータで学習させる識別モデルとラベルなしデータで学習させる生成モデルの統合により分類器を得る.提案法を多重テキスト分類問題に適用するため,識別モデルに対数線形モデルを,生成モデルにナイーブベイズモデルを用いる.実テキストデータからなる3つのテストコレクションを用いた実験で,従来の対数線形モデルとナイーブベイズモデルの半教師あり学習法と比較して,提案法ではより高い汎化能力を持つ多重分類器を得られることを確認した.We propose a method for designing semi-supervised multi-label classifiers, which select one or more category labels for each data example and are trained on labeled and unlabeled examples. The proposed method is based on a combination of discriminative models trained on labeled examples with generative models trained on unlabeled examples. We employed a log-linear model and a naive Bayes model as the discriminative and generative models, respectively, for multi-label text classification problems. Using three test collections consisting of real text data, we confirmed experimentally that the proposed method provided a better multi-label classifier with high generalization ability than conventional semi-supervised learning methods of log-linear and naive Bayes models.
著者
数原 良彦 宮原 伸二 植松 幸生 金田 有二 藤野 昭典 片岡 良治
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.99-111, 2010-09-28

情報検索において,機械学習の枠組みでランキング関数の最適化を行うランキング学習が重要な課題である.従来のランキング学習手法では人手による適合性評価,もしくはクリックログから得られる訓練データを利用してきた.我々は,これらの複数情報源を適切に利用し,より高精度なランキング学習を達成することを目標とする.我々は複数情報源から得られる訓練データは,適合性分布が異なると考えた.そのため,訓練データの適合性分布が同一であることを仮定している従来の教師あり学習に基づくランキング学習手法では,複数情報源を用いたランキング学習の実現が困難だと考えられる.そこで我々は,分布が異なる訓練データを用いて転移学習の枠組みに着目し,転移学習をランキング学習に適用することによって適合性分布が異なる複数の情報源を用いたランキング学習の実現を試みる.本稿では,転移学習の枠組みに基づくランキング学習手法 TRankBoost を提案し,商用モバイルウェブ検索エンジンの実データを用いた評価実験によって有効性を検証した.評価実験により,TRankBoost によって,従来手法である RankingSVM,RankBoost と比べて NDCG@5,10 の値で上回る精度のランキングを実現することを示した.