著者
馬場 雪乃 鹿島 久嗣
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

不特定多数の人々に仕事を依頼するクラウドソーシングでは成果物の品質管理が重要課題である。本研究では、翻訳やデザインのような成果物が非定型となるクラウドソーシングタスクにおける統計的な品質管理手法を提案する。我々は、成果物が提出された後に他の作業者にその評価を依頼するというプロセスにもとづき、成果物を作成する作業者と評価者の能力をそれぞれモデル化した「作成」「評価」の二段階の生成モデルを提案する。
著者
坂田 雄亮 馬場 雪乃 鹿島 久嗣
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

機械学習を行う為には入力となる特徴量が必要であるが、抽象性の高いデータを学習対象とすると機械的な方法では本質的な特徴量を得られない場合がある為、人による特徴抽出を行いたい。人間をアルゴリズムに組み込むには本来であれば多大なコストが必要となるが、クラウドソーシングの発展により安価にかつ大量に人的リソースを得る事が出来る様になったため現実的なコストで人間参加型のアルゴリズムを組む事が出来る。しかし人間の能力には個人差があるため成果物の品質にばらつきが出てしまう。よって頑健化の為に複数のワーカの意見を統合した物を成果とする手法が一般に行われている。本研究では特徴抽出にクラウドソーシングを用いて分類器の生成を行う過程で、分類器の精度向上を目的として複数のワーカの意見を適切に統合する手法を考察する。そのような手法として畳み込みニューラルネットワークを応用してワーカの能力と各ノードの重みを纏めて学習する事でより良く意見統合を行うCrowd Neural Networkを提案する。上記の手法の性能を確認する為に4つの抽象性の高いデータセットを用いて実験を行い、提案手法が既存手法に優る例を示した。
著者
梶村 俊介 馬場 雪乃 梶野 洸 鹿島 久嗣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.31, no.2, pp.K-F79_1-9, 2016-03-01 (Released:2016-02-18)
参考文献数
20

Crowdsourcing allows human intelligence tasks to be outsourced to a large number of unspecified people at low costs. However, because of the uneven ability and diligence of crowd workers, the quality of their work is also uneven and sometimes quite low. Therefore, quality control is one of the central issues in crowdsourcing research. In this paper, we address a quality control problem of enumeration tasks, in which workers are asked to enumerate as many answers satisfying certain conditions as possible. As examples of enumeration tasks, we consider text collection tasks in addition to POI collection tasks. Since workers neither necessarily provide correct answers nor provide exactly the same answers even if the answers indicate the same object because of orthographic or numerical variations, we propose a two-stage quality control method consisting of an answer clustering stage and a reliability estimation stage. The answer clustering stage with a new constrained exemplar clustering method groups answers indicating the same object into a cluster and requires a representative answer from each cluster, and then the reliability estimation stage with a modified HITS estimates the reliabilities of representative answers and removes unreliable ones. Implemented with a new constrained exemplar clustering and a modified HITS algorithm, the effectiveness of our method is demonstrated as compared to baseline methods on several real crowdsourcing datasets of POI collection tasks and text collection tasks.
著者
加藤 直 馬場 雪乃 鹿島 久嗣 横路 隆
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

企業の会計業務は煩雑を極め、作業量の多さから自動化が望まれるが一般に自動化は困難である。しかし近年、クラウド会計ソフトを通じてデータが蓄積されるようになり、機械学習による会計業務の自動化の実現が現実味を帯びてきている。本研究では会計業務の一つである消込処理について業務自動化の実現可能性を検証する。機械学習により入出金データのマッチングを予測することで作業の効率化が可能であることを示す。
著者
則 のぞみ ボレガラ ダヌシカ 鹿島 久嗣
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

ソーシャルWebサービスにおいて、他のユーザとのコミュニケーションや、コンテンツへのアノテーションなどといったユーザの行動は重要な役割を果たす。ユーザの行動は、ユーザ、文書、キーワード、場所など、複数の異種オブジェクトを巻き込んだ関係データとして表現されるため、これらを限定されたデータから予測することは困難である。本研究では、観測データの疎性に対して頑強な多オブジェクト間関係の予測法を提案する。
著者
梶野 洸 坪井 祐太 佐藤 一誠 鹿島 久嗣
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

教師付き学習における教師データをクラウドソーシングを利用して作成する試みが広まっている.このようなデータは信頼性が低いため,真の教師データの推定や,このデータを用いた識別器の学習に関する研究が行われているが,真の教師データが一部存在する場合の研究は行われていない.本研究ではクラウドソーシングで得られた教師データと真の教師データを併用して直接識別器を構成する手法を提案し,その性能を検証する.
著者
則 のぞみ 鹿島 久嗣 山下 和人 猪飼 宏 今中 雄一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J100-D, no.2, pp.194-204, 2017-02-01

ICU入室患者の死亡リスク予測問題において,疾病によってリスク要因がどのように死亡リスクに関係するかが異なる点を考慮するために,疾病ごとに個別化した予測モデルを構築する.疾病ごとの個別化に際して課題となるデータの疎性に対処するために,疾病の分類と電子健康記録の分類に関する二つのドメイン知識を取り込むマルチタスク学習手法を提案し,医療機関における実データを用いた実験で提案手法の有効性を示す.
著者
坪井 祐太 森 信介 鹿島 久嗣 小田 裕樹 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.6, pp.1622-1635, 2009-06-15
被引用文献数
4

本研究では文の一部にのみ単語分割情報を付与する部分的アノテーションに注目する.重要な部分や作業負荷の少ない部分にのみアノテーションをすることにより,新しい分野に対応するための学習データを効率的に作成できる.この部分的アノテーションを使用して条件付き確率場(CRF)を学習する方法を提案する.CRFは単語分割および自然言語処理の様々な問題でその有効性が示されている手法であるが,その学習には文全体へのアノテーションが必要であった.提案法は周辺尤度を目的関数にすることで部分的アノテーションを用いたCRFのパラメータ推定を可能にした.日本語単語分割器の分野適応実験において部分的アノテーションによって効果的に性能を向上させることが可能であったことを報告する.In this paper, we address word-boundary annotations which are done only on part of sentences. By limiting our focus on crucial part of sentences, we can effectively create a training data for each new target domain by conducting such partial annotations. We propose a training algorithm for Conditional Random Fields (CRFs) using partial annotations. It is known that CRFs are wellsuited to word segmentation tasks and many other sequence labeling problems in NLP. However, conventional CRF learning algorithms require fully annotated sentences. The objective function of the proposed method is a marginal likelihood function, so that the CRF model incorporates such partial annotations. Through experiments, we show our method effectively utilizes partial annotations on a domain adaptation task of Japanese word segmentation.
著者
梶野 洸 鹿島 久嗣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.27, no.3, pp.133-142, 2012 (Released:2012-03-27)
参考文献数
16
被引用文献数
18 32

It has attracted considerable attention to use crowdsourcing services to collect a large amount of labeled data for machine learning, since crowdsourcing services allow one to ask the general public to label data at very low cost through the Internet. The use of crowdsourcing has introduced a new challenge in machine learning, that is, coping with low quality of crowd-generated data. There have been many recent attempts to address the quality problem of multiple labelers, however, there are two serious drawbacks in the existing approaches, that are, (i) non-convexity and (ii) task homogeneity. Most of the existing methods consider true labels as latent variables, which results in non-convex optimization problems. Also, the existing models assume only single homogeneous tasks, while in realistic situations, clients can offer multiple tasks to crowds and crowd workers can work on different tasks in parallel. In this paper, we propose a convex optimization formulation of learning from crowds by introducing personal models of individual crowds without estimating true labels. We further extend the proposed model to multi-task learning based on the resemblance between the proposed formulation and that for an existing multi-task learning model. We also devise efficient iterative methods for solving the convex optimization problems by exploiting conditional independence structures in multiple classifiers.
著者
木村 大翼 鹿島 久嗣
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

カーネル法は文字列、木構造、グラフ構造などの構造データに対する強力な学習手法であり、代表的な学習器としてSVMがある。しかし、一般にカーネル関数を用いたSVM学習の計算量は入力のデータ数nについてO(n^2)であり、大規模データに対する学習は困難である。本論文では木カーネルに着目し、切断法とXBWという簡潔データ構造を用いることでO(n)の計算量で非常に省メモリであるアルゴリズムを提案する。
著者
林 勝悟 谷本 啓 鹿島 久嗣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.5, pp.B-K33_1-9, 2020-09-01 (Released:2020-09-01)
参考文献数
26

The recent rapid and significant increase of big data in our society has led to major impacts of machine learningand data mining technologies in various fields ranging from marketing to science. On the other hand, there still existareas where only small-sized data are available for various reasons, for example, high data acquisition costs or therarity of targets events. Machine learning tasks using such small data are usually difficult because of the lack ofinformation available for training accurate prediction models. In particular, for long-term time-series prediction, thedata size tends to be small because of the unavailability of the data between input and output times in training. Suchlimitations on the size of time-series data further make long-term prediction tasks quite difficult; in addition, thedifficulty that the far future is more uncertain than the near future.In this paper, we propose a novel method for long-term prediction of small time-series data designed in theframework of generalized distillation. The key idea of the proposed method is to utilize the middle-time data betweenthe input and output times as “privileged information,” which is available only in the training phase and not in thetest phase. We demonstrate the effectiveness of the proposed method on both synthetic data and real-world data. Theexperimental results show the proposed method performs well, particularly when the task is difficult and has highinput dimensions.
著者
則 のぞみ ボレガラ ダヌシカ 鹿島 久嗣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.29, no.1, pp.168-176, 2014-01-05 (Released:2014-01-07)
参考文献数
24
被引用文献数
1 1

Many phenomena in the real world can be represented as multinomial relations, which involve multiple and heterogeneous objects. For instance, in social media, users' various actions such as adding annotations to web resources or sharing news with their friends can be represented by multinomial relations which involve multiple and heterogeneous objects such as users, documents, keywords and locations. Predicting multinomial relations would improve many fundamental applications in various domains such as online marketing, social media analyses and drug development. However, the high-dimensional property of such multinomial relations poses one fundamental challenge, that is, predicting multinomial relations with only a limited amount of data. In this paper, we propose a new multinomial relation prediction method, which is robust to data sparsity. We transform each instance of a multinomial relation into a set of binomial relations between the objects and the multinomial relation of the involved objects. We then apply an extension of a low-dimensional embedding technique to these binomial relations, which results in a generalized eigenvalue problem guaranteeing global optimal solutions. We also incorporate attribute information as side information to address the ``cold start"problem in multinomial relation prediction. Experiments with various real-world social web service datasets demonstrate that the proposed method is more robust against data sparseness as compared to several existing methods, which can only find sub-optimal solutions.
著者
谷本 啓 坂井 智哉 竹之内 高志 鹿島 久嗣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第35回全国大会(2021)
巻号頁・発行日
pp.3G2GS2h03, 2021 (Released:2021-06-14)

どの介入行動がより良い結果につながるかを予測することは、意思決定支援システムの中心的な課題である。実環境での予測モデルを構築するためには、ランダム化比較試験(RCT)データがないため、サンプリングバイアスのある観測データからの学習に頼らざるを得ない。これに対するための近年の因果推論及び反事実機械学習では、薬を投与するかどうかなど二値の行動空間上の潜在アウトカムとその差、すなわち条件付き期待因果効果を推定することに注力している。しかし、本発表で示すように、大きな行動空間(個々の患者に対し適切な薬の組み合わせを選択するなど)になると、潜在アウトカムの回帰精度だけでは実用的にはもはや十分な意思決定性能を得ることができなくなる。提案する損失関数は、予測精度と同時に、個々の状況(患者)に対して過去の平均的な意思決定者(医者)の行動よりも相対的に良い行動であるかどうかの判別誤差を最小化することで、学習されたモデルに基づく意思決定性能を向上させる。半合成データセットで実験により、広い行動空間に対する提案法の優位性を実証する。
著者
田中 大貴 馬場 雪乃 鹿島 久嗣 齋藤 朋也 大久保 雄太
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

本研究では、運転時の位置情報や速度・加速度等の運転データを用いたドライバー識別に取り組む。既存研究では十数人のドライバー識別を対象にしていたのに対し、本研究では、最大1万人という大規模なドライバー識別を扱う。実データを用いた実験により、提案法がベースラインよりも精度良くドライバーを識別できることを示した。特に、位置や時間に関する特徴量が大規模ドライバー識別に極めて有効であることを示し、また、速度や加速度情報もドライバーの識別に一定の寄与があることを示した。
著者
梶野 洸 馬場 雪乃 鹿島 久嗣
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

クラウドソーシングでは写真のタグ付けや音声書き起こしなど様々なデータ処理の仕事が依頼できる。しかしワーカーに渡すデータに不特定多数に公開すべきでない情報が含まれる場合はプライバシの問題が生じるため、クラウドソーシングを用いるのは不適切となる。本発表では写真中の顔を隠す仕事を題材とし、この仕事におけるプライバシ定義を行うと共に、プライバシを保護しつつデータ処理を行う手法の提案及び実験的な評価を行う。
著者
木村 大翼 久保山 哲二 渋谷 哲朗 鹿島 久嗣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.26, no.3, pp.473-482, 2011 (Released:2011-04-19)
参考文献数
26
被引用文献数
2 12

Kernel method is one of the promising approaches to learning with tree-structured data, and various efficient tree kernels have been proposed to capture informative structures in trees. In this paper, we propose a new tree kernel function based on ``subpath sets'' to capture vertical structures in tree-structured data, since tree-structures are often used to code hierarchical information in data. We also propose a simple and efficient algorithm for computing the kernel by extending the Multikey quicksort algorithm used for sorting strings. The time complexity of the algorithm is O((|T_1|+|T_2|)log(|T_1|+|T_2|)) time on average, and the space complexity is O({|T_1|+|T_2|)}, where |T_1| and |T_2| are the numbers of nodes in two trees T_1 and T_2. We apply the proposed kernel to two supervised classification tasks, XML classification in web mining and glycan classification in bioinformatics. The experimental results show that the predictive performance of the proposed kernel is competitive with that of the existing efficient tree kernel proposed by Vishwanathan et al., and is also empirically faster than the existing kernel.
著者
小山 聡 馬場 雪乃 大向 一輝 堂腰 裕明 鹿島 久嗣
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SC, サービスコンピューティング (ISSN:09135685)
巻号頁・発行日
vol.114, no.182, pp.1-6, 2014-08-13

多くの国々においてオープンデータめ取組みが進んでおり,様々な統計データが行政等によって公開されている.しかしこれらのデータは画像やPDFの形式で与えられるものが少なくなく,分析やサービスの開発などでの再利用を妨げている.そこで,クラウドソーシングを用いて,画像として与えられたレガシーな統計データを機械可読な表形式に変換する枠組みを提案する.その際,作業者に表だけを作成させるのではなく,画像をスプレッドシート上でグラフとして視覚的に再現させるタスク設計を行った.このタスク設計により,データの誤りに気付き易くなる効果に加えて,再現されたグラフオブジェクトのプロパティとして項目名や系列といったデータの構造を容易に取り出し,作業結果の統合や品質管理に利用することが可能となる.国土交通省が公開している観光白書を対象に評価実験を行い,提案手法の有効性を検証した.
著者
大谷 直樹 馬場 雪乃 鹿島 久嗣
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

クラウドソーシングで大規模なデータに対して注釈付けを行うためには、高い品質を小さなコストで実現する品質管理手法が求められる。本研究は、階層的な構造を持つタグを付与する階層的分類タスクに対して高精度にラベルを統合する手法を提案する。中間階層での情報を加味してワーカーの意思決定のモデルを設計し、多数決や既存手法よりも高い精度で正解ラベルを推定できることを実データを用いた実験により示した。