著者
梶野 洸 坪井 祐太 佐藤 一誠 鹿島 久嗣
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

教師付き学習における教師データをクラウドソーシングを利用して作成する試みが広まっている.このようなデータは信頼性が低いため,真の教師データの推定や,このデータを用いた識別器の学習に関する研究が行われているが,真の教師データが一部存在する場合の研究は行われていない.本研究ではクラウドソーシングで得られた教師データと真の教師データを併用して直接識別器を構成する手法を提案し,その性能を検証する.
著者
坪井 祐太 森 信介 鹿島 久嗣 小田 裕樹 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.6, pp.1622-1635, 2009-06-15
被引用文献数
4

本研究では文の一部にのみ単語分割情報を付与する部分的アノテーションに注目する.重要な部分や作業負荷の少ない部分にのみアノテーションをすることにより,新しい分野に対応するための学習データを効率的に作成できる.この部分的アノテーションを使用して条件付き確率場(CRF)を学習する方法を提案する.CRFは単語分割および自然言語処理の様々な問題でその有効性が示されている手法であるが,その学習には文全体へのアノテーションが必要であった.提案法は周辺尤度を目的関数にすることで部分的アノテーションを用いたCRFのパラメータ推定を可能にした.日本語単語分割器の分野適応実験において部分的アノテーションによって効果的に性能を向上させることが可能であったことを報告する.In this paper, we address word-boundary annotations which are done only on part of sentences. By limiting our focus on crucial part of sentences, we can effectively create a training data for each new target domain by conducting such partial annotations. We propose a training algorithm for Conditional Random Fields (CRFs) using partial annotations. It is known that CRFs are wellsuited to word segmentation tasks and many other sequence labeling problems in NLP. However, conventional CRF learning algorithms require fully annotated sentences. The objective function of the proposed method is a marginal likelihood function, so that the CRF model incorporates such partial annotations. Through experiments, we show our method effectively utilizes partial annotations on a domain adaptation task of Japanese word segmentation.
著者
梶野 洸 坪井 祐太 佐藤 一誠 鹿島 久嗣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.3, pp.243-248, 2013 (Released:2013-03-13)
参考文献数
9
被引用文献数
2

Crowdsourcing services are often used to collect a large amount of labeled data for machine learning. Although they provide us an easy way to get labels at very low cost in a short period, they have serious limitations. One of them is the variable quality of the crowd-generated data. There have been many attempts to increase the reliability of crowd-generated data and the quality of classifiers obtained from such data. However, in these problem settings, relatively few researchers have tried using expert-generated data to achieve further improvements. In this paper, we apply three models that deal with the problem of learning from crowds to this problem: a latent class model, a personal classifier model, and a data-dependent error model. We evaluate these methods against two baseline methods on a real data set to demonstrate the effectiveness of combining crowd-generated data and expert-generated data.
著者
坪井 祐太 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.20, pp.17-24, 2002-03-04
被引用文献数
2

本研究では、機械学習手法(Support Vector Machines)を用いてメーリングリストの著者識別を行った。また、メーリングリストのデータで学習した識別器によって、Webの文書の著作識別を試みることで異なるタイプのドキュメントに対する性能を調べた。この際、従来から使われていた単語N-gramとともに、データマイニング手法(PrefixSpan)によって抽出された単語の連続パターンを素性に用いることでより高い性能が得られた。使用されたパターンは隣り合わない単語列にもマッチするパターンであり、実験結果より著述すタイルを表現するのに適当な特徴の一つであると考えられる。The study of authorship identification in Japanese has for most part been restricted to literary texts using basic statistical methods. In the present study, authors of mailing list messages are identified using a machine learning technique (Support Vector Machines). In addition, the classifier trained on the mailing list data is applied to identify the author of Web documents in order to investigate performance in authorship identification for more heterogeneous documents. Experimental results show better identification performance when we use the features of not only conventional word N-gram information but also of frequent sequential patterns extracted by a data mining technique (PrefixSpan).