著者
松崎 拓也 横野 光 宮尾 祐介 川添 愛 狩野 芳伸 加納 隼人 佐藤 理史 東中 竜一郎 杉山 弘晃 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 新井 紀子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.119-159, 2016-01-25 (Released:2016-04-25)
参考文献数
35

「ロボットは東大に入れるか」は,大学入試試験問題を計算機で解くという挑戦を通じ,言語処理を含む AI 諸技術の再統合と,知的情報処理の新たな課題の発見を目指すプロジェクトである.知的能力の測定を第一目的として設計された入試問題は,AI 技術の恰好のベンチマークであるとともに,人間の受験者と機械のエラー傾向を直接比較することが可能である.本稿では,大手予備校主催のセンター試験形式模試を主たる評価データとして,各科目の解答システムのエラーを分析し,高得点へ向けた今後の課題を明らかにするとともに,分野としての言語処理全体における現在の課題を探る.
著者
藤沼祥成 横野光 PascualMartinez-gomez 相澤彰子
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014-SLP-101, no.3, pp.1-8, 2014-05-15

あるイベントの盛り上がりに対して,それに関するツイートにも変化が現れその変化に着目することで盛り上がりを検出することが可能であると考えられる.本研究ではこの盛り上がり時間帯中のツイートに用いられている表現の特性を解析することを試みる.はじめに各時間帯のツイート集合とツイートより構築した言語モデルの関係をクロスエントロピーで算出した.実験結果より複数のハッシュタグ間における一部の盛り上がり時間帯のツイートはツイートより構築した n-gram 言語モデルに従うことを示す.また,盛り上がっている時間帯とそうでない時間帯において,クロスエントロピーにおいて統計的に有意差があることを示した (p<0.02).また,n-gram 言語モデルでは捉えられない素性も検討するため,Support Vector Machine (SVM) と Random Forest により各ツイートを盛り上がり時間帯の二値分類を行い,盛り上がり時間帯の特徴として漢字数が少ないことが明らかになった.
著者
藤沼祥成 横野光 PascualMartinez-gomez 相澤彰子
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.3, pp.1-8, 2014-05-15

あるイベントの盛り上がりに対して,それに関するツイートにも変化が現れその変化に着目することで盛り上がりを検出することが可能であると考えられる.本研究ではこの盛り上がり時間帯中のツイートに用いられている表現の特性を解析することを試みる.はじめに各時間帯のツイート集合とツイートより構築した言語モデルの関係をクロスエントロピーで算出した.実験結果より複数のハッシュタグ間における一部の盛り上がり時間帯のツイートはツイートより構築した n-gram 言語モデルに従うことを示す.また,盛り上がっている時間帯とそうでない時間帯において,クロスエントロピーにおいて統計的に有意差があることを示した (p<0.02).また,n-gram 言語モデルでは捉えられない素性も検討するため,Support Vector Machine (SVM) と Random Forest により各ツイートを盛り上がり時間帯の二値分類を行い,盛り上がり時間帯の特徴として漢字数が少ないことが明らかになった.
著者
藤沼 祥成 横野 光 相澤 彰子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

近年 Twitterの発展により正式な表記でないもの、いわゆる崩れた表記が増加した。崩れた表記には話者の感情等の情報が含まれており、正式な表記に直すとそれらの情報が失われると考えられる。本論文ではそのような情報を抽出の最初の段階として「おはよう」に注目し、崩された「おはよう」を抽出した。また、その崩された「おはよう」がどのようなルールにて正式な表記から崩れた表記に変化するかについて分析を行う。
著者
藤沼 祥成 横野 光 Pascual Martinez-Gomez 相澤 彰子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.112, no.367, pp.35-40, 2012-12-12

近年 Twitter を始めとする Consumer Generated Media (CGM) の発展により、正式な表記でないもの、いわゆる崩れた表記が増加してきた。特に日本語を処理する時に前処理として分かち書きを必要とするが、このような崩れた表記に対しては現在の自然言語処理ツールは対応できていない。本論文においては一つの単語、「おはようございます」に注目し、Conditional Random Field (CRF) を用いて崩された「おはようございます」を抽出した。また、「おはよう」がどのようなルールにて正式な表記から崩れた表記に変化するかを追究した。実験では「おはよう」に相当する部分の抽出と「おはようございます」に相当する全体の抽出を行った。実験の結果、共に 0.91 を超える F1 値で抽出できた。また「おはよう」に相当する部分に対しては「おはよう」からどのように変換されたかのルール抽出を行い、JUMAN7.0 にないルールを抽出できた。
著者
松崎 拓也 横野 光 宮尾 祐介
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.34-35, 2015-12-15

「ロボットは東大に入れるか」(以下,東ロボ)は国立情報学研究所を中心とする研究プロジェクトである.「東ロボ」では,大学入試試験問題を自動的に解くソフトウェアの開発を行っている.その狙いは,言語処理および人工知能関連技術を総ざらえし,統合的な知的処理課題をベンチマークとして今後10年の言語処理・AI関連技術の伸びしろと限界を見極めることにある.プロジェクトの公式目標は2016年度にセンター試験で高得点を獲得し,2021年度に東大合格レベルに到達することである.本稿では,物理および歴史の解答システムの結果を中心に,代々木ゼミナール主催のセンター模試を用いた解答システムの評価結果とその分析を紹介する.
著者
横野 光 稲邑 哲也
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

大学入学試験の物理の問題には与えられた状況において特定の物理現象が発生したときの物理量の値を求める形式のものがある.本研究はこのような問題を対象として,物理シミュレータによってその状況を再現し,得られた結果から問われている物理現象を示す箇所を抽出することで解答するシステムの構築を目指す.本論文ではそのシステムに必要となる要素技術について議論する.
著者
川添 愛 宮尾 祐介 松崎 拓也 横野 光 新井 紀子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

コンピュータによる世界史問題への解答、特に自然言語文の選択肢の真偽を判断する問題への解答を支援する世界史オントロジーを紹介する。このオントロジーでは、イベントの成立に関わる諸条件を記述することにより、、高校レベルの世界史の知識と常識的な判断能力を持つ人間ならば必ず「ありえない」と判断するようなイベントを記述した偽文を、コンピュータが「偽」と判定できるようにすることを目指す。
著者
川添 愛 宮尾 祐介 松崎 拓也 横野 光 新井 紀子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

国立情報学研究所が推進する「人工頭脳プロジェクト―ロボットは東大に入れるか」について概説し,世界史問題の解答のためのオントロジーの利用について論じる。オントロジーの利用が必要な問題の具体例を示しつつ、言語処理タスクにおいて有効であるだけでなく、歴史オントロジー一般に求められる動的な変化、事物の生成と消滅、因果関係などの適切な記述も実現できるオントロジーの設計を、既存の研究との関連を交えて検討する。
著者
久保田 敦 横野 光 高村 大也 奥村 学
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

本研究ではジャンル毎の特徴を用いた日本語テキストの文書校正手法を提案する。 提案手法では,既存手法で使用される文脈情報の特徴以外に,内容語に情報を付加 することで難易度や文体を考慮した校正を行う。 その結果,文脈情報のみでは解決できない訓練データに未出現の語に対する問題等に対して,付加した情報を用いて解決できることを示す。