著者
東中 竜一郎 杉山 弘晃 成松 宏美 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 喜多 智也 南 泰浩 風間 健流 大和 淳司
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

「ロボットは東大に入れるか」プロジェクトの英語における意見要旨把握問題の解法について述べる.具体的には,RACEと呼ばれる大規模な英語問題のデータセットを用いた深層学習の手法により,Word2vecの類似度に基づく手法よりも高精度に意見要旨把握問題が解けることを示す.今回,30%の正解率を44%まで改善することができた.
著者
東中 竜一郎 杉山 弘晃 成松 宏美 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 喜多 智也 南 泰浩 風間 健流 大和 淳司
出版者
一般社団法人 人工知能学会
巻号頁・発行日
pp.2C102, 2018 (Released:2018-07-30)

「ロボットは東大に入れるか」プロジェクトの英語における意見要旨把握問題の解法について述べる. 具体的には,RACEと呼ばれる大規模な英語問題のデータセットを用いた 深層学習の手法により,Word2vecの類似度に基づく手法よりも高精度に意見要旨把握問題が解けることを示す. 今回,30%の正解率を44%まで改善することができた.
著者
松崎 拓也 横野 光 宮尾 祐介 川添 愛 狩野 芳伸 加納 隼人 佐藤 理史 東中 竜一郎 杉山 弘晃 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 新井 紀子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.119-159, 2016-01-25 (Released:2016-04-25)
参考文献数
35

「ロボットは東大に入れるか」は,大学入試試験問題を計算機で解くという挑戦を通じ,言語処理を含む AI 諸技術の再統合と,知的情報処理の新たな課題の発見を目指すプロジェクトである.知的能力の測定を第一目的として設計された入試問題は,AI 技術の恰好のベンチマークであるとともに,人間の受験者と機械のエラー傾向を直接比較することが可能である.本稿では,大手予備校主催のセンター試験形式模試を主たる評価データとして,各科目の解答システムのエラーを分析し,高得点へ向けた今後の課題を明らかにするとともに,分野としての言語処理全体における現在の課題を探る.
著者
東中 竜一郎 杉山 弘晃 成松 宏美 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 大和 淳司
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

「ロボットは東大に入れるか」プロジェクトにおける英語科目の到達点と今後の課題について説明する.現状,短文問題については高精度に正解しつつも,複数文からなる問題(複数文問題)については深層学習などの手法を適用しても精度が伸び悩んでいる.本稿では,短文問題における成績向上のポイント,そして,複数文問題の難しさについて触れ,複数文問題・長文問題の解決に向けた今後の方向性を示す.
著者
藤田 早苗 平 博順 小林 哲生 田中 貴秋
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.515-539, 2014-06-16 (Released:2014-09-16)
参考文献数
21

これまで,主に新聞などのテキストを対象とした解析では,形態素解析器を始めとして高い解析精度が達成されている.しかし分野の異なるテキストに対しては,既存の解析モデルで,必ずしも高い解析精度を得られるわけではない.そこで本稿では,既存の言語資源を対象分野の特徴にあわせて自動的に変換する手法を提案する.本稿では,絵本を解析対象とし,既存の言語資源を絵本の特徴にあわせて自動的に変換し,学習に用いることで相当な精度向上が可能であることを示す.学習には既存の形態素解析器の学習機能を用いる.さらに,絵本自体にアノテーションしたデータを学習に用いる実験を行い,提案手法で得られる効果は,絵本自体への約 11,000 行,90,000 形態素のアノテーションと同程度であることを示す.また,同じ絵本の一部を学習データに追加する場合と,それ以外の場合について,学習曲線や誤り内容の変化を調査し,効果的なアノテーション方法を示す.考察では,絵本の対象年齢と解析精度の関係や,解析精度が向上しにくい語の分析を行い,更なる改良案を示す.また,絵本以外への適用可能性についても考察する.
著者
平 博順 向内 隆文 春野 雅彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.173-180, 1998-11-05
参考文献数
19
被引用文献数
11

本稿では、Support Vector Machine (SVM)を用いたテキスト分類法を提案する。テキスト分類問題に対して学習手法を適用する場合、出現頻度の小さい単語まで考慮して学習を行なわいと、分類精度が落ちることが知られている。このため高い分類精度を実現するためには、高次元の単語ベクトルを用いなければならないが、過学習により分類精度が落ちてしまう危険性が生じる。SVMはKernel開数により非線形学習も可能であり、高次元の入力ベクトルを用いても過学習なしに最適解が得られる。SVMをテキスト分類に適用し、1.異なる次元の単語ベクトル、2.異なるKernel関数、3.異なる目的関数、の3点について比較実験を行なった。その結果、SVMがテキスト分類問題に対して有効であることが確認された。This paper describes a text categorization method that uses Support Vector Machines (SVMs). The accuracies of learning-based text categorization systems depend not only on frequent words but also on infrequent ones. However, high dimensionality of the data sometimes causes overfitting that harms the overall performance of the system. SVMs avoid the curse of dimensionality by using a quadratic optimization method. In addition, SVMs can also learn Non-linearity by introducing Kernel functions. We tested method from the following three perspectives: 1. word vectors of different dimensions, 2. different Kernel functions and 3. extended cost function. The results clearly show the effectiveness of SVMs for the text categorization task.
著者
藤田 早苗 平 博順 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.223-250, 2013-06-14 (Released:2013-09-14)
参考文献数
26
被引用文献数
1

既存のテキストのみからなる辞書に対し,インターネット上にある膨大な画像を関連付けることができれば,文字列情報からだけでは得られない,視覚的な情報を利用できるようになり,用途が広がると期待できる.そのため,本稿では,辞書の出来る限り広い語義に対して画像を付与することを考える.作成・維持コストを考えれば,なるべく自動的に画像を付与することが望ましいが,大量の辞書エントリに対して,高い精度で画像を付与することは容易ではない.また,そもそもどういった語義には画像を付与できるのか,あるいはできないのかといった調査が大規模になされた例はなく,画像が付与できる語義を自動的に判別することも困難である.そこで本稿では,まず語義別に画像が付与された辞書を人手で構築することを第一の目標とする.その上で,画像が付与できる語義とできない語義について,品詞や意味クラスとの関連性に着目して分析する.具体的には,名詞,動詞,形容詞,形容動詞,副詞を含む 25,481 語,39,251 語義を対象に画像付与実験と分析を行ない,その結果,全語義の 94.0% は画像付与が可能であること,品詞や意味クラスに応じて画像付与の可否が変わることを示す.また,幅広い語義に適切な画像を付与するため,インターネットから画像検索によって画像を獲得する.検索時に重要となるのが検索語である.本稿の第二の目標は,語義毎に適切な画像を得るための検索語を調査することである.本稿では,複数の検索語の組合せ(以下,検索語セット)の中から最も適切な画像を得られる検索語セットを作業者に選択してもらい,適切な検索語セットがない場合には修正してもらう.こうして最終的に利用された検索語セットを分析し,提案手法の改良点を探る.さらに,検索語セットの優先順位の決定方法も提案,その妥当性を示すことを本稿の第三の目標とする.新しい辞書への適用等を考えると,人手による画像付与ができない場合でも,優先順位の高い検索語セットによる検索結果が利用できれば,有用だと考えられるからである.提案手法では,対象語義がメジャーな語義かどうかで優先順位を変化させる.実験では,2 種類の評価方法を通してその妥当性を示す.
著者
藤田 早苗 Kevin Duh 藤野 昭典 平 博順 進藤 裕之
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.3, pp.273-291, 2011 (Released:2011-10-04)
参考文献数
26

本稿では,訓練データの自動拡張による語義曖昧性解消の精度向上方法について述べる.評価対象として,SemEval-2010 日本語語義曖昧性解消タスクを利用した.本稿では,まず,配布された訓練データのみを利用して学習した場合の結果を紹介する.更に,辞書の例文,配布データ以外のセンスバンク,ラベルなしコーパスなど,さまざまなコーパスを利用して,訓練データの自動拡張を試みた結果を紹介する.本稿では,訓練データの自動獲得により 79.5% の精度を得ることができた.更に,対象語の難易度に基づき,追加する訓練データの上限を制御したところ,最高 80.0% の精度を得ることができた.
著者
佐々木 裕 磯崎 秀樹 平 博順 廣田 啓一 賀沢 秀人 平尾 努 中島 浩之 加藤 恒昭
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.100, no.401, pp.17-24, 2000-10-20
被引用文献数
16

本稿では, いくつかの質問応答システムを独立に作成し, 50問の質問文に対する性能評価を行なった結果を報告する.質問応答システムは1999年のTREC-8のQAタスクの開催以降注目を集めており, 次のような点で従来の情報検索や情報抽出と異なっている.従来の情報検索では, 質問に対する答えを文書の単位で列挙していたが, 質問応答システムは質問の答えを記述した部分を返す.また, 従来の情報抽出は対象分野と抽出項目があらかじめ限定されていたが, 質問応答では, 抽出する項目が質問文により自由に決まる点で異なっている.本稿は, 今後の質問応答システム研究の参考とするため, 日本語QAシステムの性能のベースラインを探るとともに, 日本語QAシステムの比較・評価法を紹介するものである.
著者
平 博順 春野 雅彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.6, pp.1843-1851, 2002-06-15
被引用文献数
5

本論文では,トランスダクティブ・ブースティング法によるテキスト分類手法を提案する.テキスト分類器の学習に使用する大規模な訓練データの作成にはコストや時間がかかる.そのため訓練データが少ない場合にも高い分類精度が得られる学習法が求められている.トランスダクティブ法は学習の際に訓練データだけでなく,分類クラスの付与されていないテストデータの分布も考慮に入れることにより分類精度を上げる方法である.本論文ではこれをブースティングに対し適用し,実験を行った.その結果,従来のブースティングによる学習に比べて高精度のテキスト分類器を学習できた.特に少数の訓練データしかない場合にも高い精度が得られた.This paper describes a new text categorization method using transductiveboosting. It is time-consuming and expensive to assemble a large corpus of categorized textfor use with learning-based classification methods.Therefore, we require learning methods that are able to learn classifiersextremely accurately from a small quantity of training data.The transductive method takes account of bothtraining data and test data distribution and provides a highly accurate classifier.We adopt a transductive method in a boosting algorithm for text categorization. The categorization performance was better than that of the original boosting.Specifically the performance wasimproved significantly for small quantities of training data.