著者
成松 宏美 杉山 弘晃 菊井 玄一郎 平 博順 的場 成紀 東中 竜一郎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.3C4J901, 2019 (Released:2019-06-01)

我々は,「ロボットは東大に入れるか?」プロジェクトにおいて英語問題に取り組んでいる.本稿では,不要文除去問題に着目し,本問題に対して,近年あらゆるタスクで最高スコアを達成したBERTを適用する.BERTをどのように解法に適用するかを紹介し,ベースラインを超えて最高スコアに到達したことを示す.さらに,エラー分析により,BERTでできていないことを明らかにする.
著者
東中 竜一郎 杉山 弘晃 成松 宏美 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 喜多 智也 南 泰浩 風間 健流 大和 淳司
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

「ロボットは東大に入れるか」プロジェクトの英語における意見要旨把握問題の解法について述べる.具体的には,RACEと呼ばれる大規模な英語問題のデータセットを用いた深層学習の手法により,Word2vecの類似度に基づく手法よりも高精度に意見要旨把握問題が解けることを示す.今回,30%の正解率を44%まで改善することができた.
著者
東中 竜一郎 杉山 弘晃 成松 宏美 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 喜多 智也 南 泰浩 風間 健流 大和 淳司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.2C102, 2018 (Released:2018-07-30)

「ロボットは東大に入れるか」プロジェクトの英語における意見要旨把握問題の解法について述べる. 具体的には,RACEと呼ばれる大規模な英語問題のデータセットを用いた 深層学習の手法により,Word2vecの類似度に基づく手法よりも高精度に意見要旨把握問題が解けることを示す. 今回,30%の正解率を44%まで改善することができた.
著者
東中 竜一郎 杉山 弘晃 成松 宏美 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 大和 淳司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第31回全国大会(2017)
巻号頁・発行日
pp.2H21, 2017 (Released:2018-07-30)

「ロボットは東大に入れるか」プロジェクトにおける英語科目の到達点と今後の課題について説明する.現状,短文問題については高精度に正解しつつも,複数文からなる問題(複数文問題)については深層学習などの手法を適用しても精度が伸び悩んでいる.本稿では,短文問題における成績向上のポイント,そして,複数文問題の難しさについて触れ,複数文問題・長文問題の解決に向けた今後の方向性を示す.
著者
松崎 拓也 横野 光 宮尾 祐介 川添 愛 狩野 芳伸 加納 隼人 佐藤 理史 東中 竜一郎 杉山 弘晃 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 新井 紀子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.119-159, 2016-01-25 (Released:2016-04-25)
参考文献数
35

「ロボットは東大に入れるか」は,大学入試試験問題を計算機で解くという挑戦を通じ,言語処理を含む AI 諸技術の再統合と,知的情報処理の新たな課題の発見を目指すプロジェクトである.知的能力の測定を第一目的として設計された入試問題は,AI 技術の恰好のベンチマークであるとともに,人間の受験者と機械のエラー傾向を直接比較することが可能である.本稿では,大手予備校主催のセンター試験形式模試を主たる評価データとして,各科目の解答システムのエラーを分析し,高得点へ向けた今後の課題を明らかにするとともに,分野としての言語処理全体における現在の課題を探る.
著者
東中 竜一郎 杉山 弘晃 成松 宏美 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 大和 淳司
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

「ロボットは東大に入れるか」プロジェクトにおける英語科目の到達点と今後の課題について説明する.現状,短文問題については高精度に正解しつつも,複数文からなる問題(複数文問題)については深層学習などの手法を適用しても精度が伸び悩んでいる.本稿では,短文問題における成績向上のポイント,そして,複数文問題の難しさについて触れ,複数文問題・長文問題の解決に向けた今後の方向性を示す.
著者
藤田 早苗 平 博順 小林 哲生 田中 貴秋
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.515-539, 2014-06-16 (Released:2014-09-16)
参考文献数
21
被引用文献数
3

これまで,主に新聞などのテキストを対象とした解析では,形態素解析器を始めとして高い解析精度が達成されている.しかし分野の異なるテキストに対しては,既存の解析モデルで,必ずしも高い解析精度を得られるわけではない.そこで本稿では,既存の言語資源を対象分野の特徴にあわせて自動的に変換する手法を提案する.本稿では,絵本を解析対象とし,既存の言語資源を絵本の特徴にあわせて自動的に変換し,学習に用いることで相当な精度向上が可能であることを示す.学習には既存の形態素解析器の学習機能を用いる.さらに,絵本自体にアノテーションしたデータを学習に用いる実験を行い,提案手法で得られる効果は,絵本自体への約 11,000 行,90,000 形態素のアノテーションと同程度であることを示す.また,同じ絵本の一部を学習データに追加する場合と,それ以外の場合について,学習曲線や誤り内容の変化を調査し,効果的なアノテーション方法を示す.考察では,絵本の対象年齢と解析精度の関係や,解析精度が向上しにくい語の分析を行い,更なる改良案を示す.また,絵本以外への適用可能性についても考察する.
著者
的場 成紀 古賀 雅樹 大塚 基広 小林 一郎 平 博順
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回 (2019)
巻号頁・発行日
pp.1N4J904, 2019 (Released:2019-06-01)

日本の自動車免許試験のためのソルバーを開発します。 このテストは、交通ルール、運転方法、自動車の構造、自動車に関連する物理法則に関する約100の真偽の質問で構成されています。 合格点は90%ですが、これまでのアプローチでの最高点は約65%です。 このアプローチは、テスト文と最も類似した文との間の文の類似性と、ソルバーのデータベースにあるゴールドスタンダードの回答に基づいています。 テストに合格するシステムに向けて、テストの語彙と文章スタイルを分析しました。 分析の結果、語彙は比較的少なく、100個の問題に対して約300語であり、文にはゼロ代名詞が多く含まれているため、ソルバーの精度が低くなります。 さらに、我々は以前の照応解析システムを使用して前件を解決しようとしました。 各問題は一文のみで構成され、代名詞を解決する手がかりは非常に少なく、標準的な記事よりも解決するのが難しいため、結果はシステムがテストで照応を解決できないことを示しました。 分析の結果、高性能システムでは、ドメイン固有の知識に基づいた照応解析が必要であることが明らかになりました。
著者
平 博順 向内 隆文 春野 雅彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.173-180, 1998-11-05
参考文献数
19
被引用文献数
11

本稿では、Support Vector Machine (SVM)を用いたテキスト分類法を提案する。テキスト分類問題に対して学習手法を適用する場合、出現頻度の小さい単語まで考慮して学習を行なわいと、分類精度が落ちることが知られている。このため高い分類精度を実現するためには、高次元の単語ベクトルを用いなければならないが、過学習により分類精度が落ちてしまう危険性が生じる。SVMはKernel開数により非線形学習も可能であり、高次元の入力ベクトルを用いても過学習なしに最適解が得られる。SVMをテキスト分類に適用し、1.異なる次元の単語ベクトル、2.異なるKernel関数、3.異なる目的関数、の3点について比較実験を行なった。その結果、SVMがテキスト分類問題に対して有効であることが確認された。This paper describes a text categorization method that uses Support Vector Machines (SVMs). The accuracies of learning-based text categorization systems depend not only on frequent words but also on infrequent ones. However, high dimensionality of the data sometimes causes overfitting that harms the overall performance of the system. SVMs avoid the curse of dimensionality by using a quadratic optimization method. In addition, SVMs can also learn Non-linearity by introducing Kernel functions. We tested method from the following three perspectives: 1. word vectors of different dimensions, 2. different Kernel functions and 3. extended cost function. The results clearly show the effectiveness of SVMs for the text categorization task.
著者
平 博順 春野 雅彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.6, pp.1843-1851, 2002-06-15
参考文献数
24
被引用文献数
5

本論文では,トランスダクティブ・ブースティング法によるテキスト分類手法を提案する.テキスト分類器の学習に使用する大規模な訓練データの作成にはコストや時間がかかる.そのため訓練データが少ない場合にも高い分類精度が得られる学習法が求められている.トランスダクティブ法は学習の際に訓練データだけでなく,分類クラスの付与されていないテストデータの分布も考慮に入れることにより分類精度を上げる方法である.本論文ではこれをブースティングに対し適用し,実験を行った.その結果,従来のブースティングによる学習に比べて高精度のテキスト分類器を学習できた.特に少数の訓練データしかない場合にも高い精度が得られた.This paper describes a new text categorization method using transductiveboosting. It is time-consuming and expensive to assemble a large corpus of categorized textfor use with learning-based classification methods.Therefore, we require learning methods that are able to learn classifiersextremely accurately from a small quantity of training data.The transductive method takes account of bothtraining data and test data distribution and provides a highly accurate classifier.We adopt a transductive method in a boosting algorithm for text categorization. The categorization performance was better than that of the original boosting.Specifically the performance wasimproved significantly for small quantities of training data.
著者
藤田 早苗 平 博順 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.223-250, 2013-06-14 (Released:2013-09-14)
参考文献数
26
被引用文献数
1

既存のテキストのみからなる辞書に対し,インターネット上にある膨大な画像を関連付けることができれば,文字列情報からだけでは得られない,視覚的な情報を利用できるようになり,用途が広がると期待できる.そのため,本稿では,辞書の出来る限り広い語義に対して画像を付与することを考える.作成・維持コストを考えれば,なるべく自動的に画像を付与することが望ましいが,大量の辞書エントリに対して,高い精度で画像を付与することは容易ではない.また,そもそもどういった語義には画像を付与できるのか,あるいはできないのかといった調査が大規模になされた例はなく,画像が付与できる語義を自動的に判別することも困難である.そこで本稿では,まず語義別に画像が付与された辞書を人手で構築することを第一の目標とする.その上で,画像が付与できる語義とできない語義について,品詞や意味クラスとの関連性に着目して分析する.具体的には,名詞,動詞,形容詞,形容動詞,副詞を含む 25,481 語,39,251 語義を対象に画像付与実験と分析を行ない,その結果,全語義の 94.0% は画像付与が可能であること,品詞や意味クラスに応じて画像付与の可否が変わることを示す.また,幅広い語義に適切な画像を付与するため,インターネットから画像検索によって画像を獲得する.検索時に重要となるのが検索語である.本稿の第二の目標は,語義毎に適切な画像を得るための検索語を調査することである.本稿では,複数の検索語の組合せ(以下,検索語セット)の中から最も適切な画像を得られる検索語セットを作業者に選択してもらい,適切な検索語セットがない場合には修正してもらう.こうして最終的に利用された検索語セットを分析し,提案手法の改良点を探る.さらに,検索語セットの優先順位の決定方法も提案,その妥当性を示すことを本稿の第三の目標とする.新しい辞書への適用等を考えると,人手による画像付与ができない場合でも,優先順位の高い検索語セットによる検索結果が利用できれば,有用だと考えられるからである.提案手法では,対象語義がメジャーな語義かどうかで優先順位を変化させる.実験では,2 種類の評価方法を通してその妥当性を示す.
著者
大塚 基広 平 博順 真貝 寿明
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

本研究では,解答解説機能付き微積分ソルバの開発を行った.開発した自動解答ソルバは,主に大学生1年生レベルの微積分学について,教育目的として開発された.今まで,数式処理ソフトは多数開発されてきたが,解説を付与するものは少なく,答えのみを返すものが多かった.そこで本研究では,計算結果を出力するだけではなく,導出過程も出力し,加えて,グラフ描画や,接線を求める機能,Taylor展開や偏微分といった問題にも対応できるソルバの開発を行った.本ソルバでは,本学部1年生の講義「微積分学I」の期末試験の過去問について,70%の精度で解答として通用するものを作成できた.また現在,ソルバで解けない問題に対しても,ヒントを提示するようにして,対処している.
著者
藤田 早苗 Kevin Duh 藤野 昭典 平 博順 進藤 裕之
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.3, pp.273-291, 2011 (Released:2011-10-04)
参考文献数
26
被引用文献数
1

本稿では,訓練データの自動拡張による語義曖昧性解消の精度向上方法について述べる.評価対象として,SemEval-2010 日本語語義曖昧性解消タスクを利用した.本稿では,まず,配布された訓練データのみを利用して学習した場合の結果を紹介する.更に,辞書の例文,配布データ以外のセンスバンク,ラベルなしコーパスなど,さまざまなコーパスを利用して,訓練データの自動拡張を試みた結果を紹介する.本稿では,訓練データの自動獲得により 79.5% の精度を得ることができた.更に,対象語の難易度に基づき,追加する訓練データの上限を制御したところ,最高 80.0% の精度を得ることができた.
著者
佐々木 裕 磯崎 秀樹 平 博順 廣田 啓一 賀沢 秀人 平尾 努 中島 浩之 加藤 恒昭
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.100, no.401, pp.17-24, 2000-10-20
被引用文献数
16

本稿では, いくつかの質問応答システムを独立に作成し, 50問の質問文に対する性能評価を行なった結果を報告する.質問応答システムは1999年のTREC-8のQAタスクの開催以降注目を集めており, 次のような点で従来の情報検索や情報抽出と異なっている.従来の情報検索では, 質問に対する答えを文書の単位で列挙していたが, 質問応答システムは質問の答えを記述した部分を返す.また, 従来の情報抽出は対象分野と抽出項目があらかじめ限定されていたが, 質問応答では, 抽出する項目が質問文により自由に決まる点で異なっている.本稿は, 今後の質問応答システム研究の参考とするため, 日本語QAシステムの性能のベースラインを探るとともに, 日本語QAシステムの比較・評価法を紹介するものである.