著者
浅原 正幸 金山 博 宮尾 祐介 田中 貴秋 大村 舞 村脇 有吾 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.1, pp.3-36, 2019-03-15 (Released:2019-06-15)
参考文献数
40
被引用文献数
2 3

Universal Dependencies (UD) は,共通のアノテーション方式で多言語の構文構造コーパスを言語横断的に開発するプロジェクトである. 2018 年 6 月現在,約 60 の言語で 100 以上のコーパスが開発・公開されており,多言語構文解析器の開発,言語横断的な構文モデルの学習,言語間の類型論的比較などさまざまな研究で利用されている. 本稿では UD の日本語適応について述べる.日本語コーパスを開発する際の問題点として品詞情報・格のラベル・句と節の区別について議論する.また,依存構造木では表現が難しい,並列構造の問題についても議論する.最後に現在までに開発した UD 準拠の日本語コーパスの現状を報告する.
著者
石垣 達也 トピチ ゴラン 濵園 侑美 能地 宏 小林 一郎 宮尾 祐介 高村 大也
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-250, no.8, pp.1-11, 2021-09-21

本稿では,新たな言語生成タスクとして,レーシングゲーム実況テキスト生成を提案する.このタスクでは,視覚情報としてレーシングゲームの録画映像,言語データとして実況発話,構造化データとして速度,ハンドル角度といった数値データを入力として扱い,視聴者が映像を視聴しながら,レースをより理解し,楽しむための実況テキストを生成する.既存の言語生成研究においては,データセットの欠如が一因となり映像,言語,構造化データの複数モダリティを同時に考慮する言語生成研究を行うことは困難であった.また,言語生成の中でも,特に実況生成においては「どのタイミングで発話するか」「何を発話するか」を最低限決定する必要があるが,例えば野球を対象とした既存研究においてはイニング間に実況を行うなど,発話タイミングがあらかじめ与えられる設定が扱われ,後者にのみ着目されてきた.本研究ではまず,映像,構造化データとそれらに対応する実況テキストが対になった大規模データセットを作成し,レース実況の特徴について分析する.分析より,実況テキストはその言語的な特徴が,時間および実況者の視点の影響を受け,変化することが分かった.さらに,実況生成タスクをタイミング同定と発話生成の 2 つのサブタスクに分割し,これらについてベースライン手法を提案する.実験より,構造化データの活用は有益である一方,視覚情報については最先端の画像エンコーダを用いたとしても,本タスクにおいて効果が限定的であり,実況生成タスクが挑戦的な課題であることが分かった.マルチモーダルな言語生成タスクのためのデータセットとして,本研究で作成したデータセットは公開する.
著者
松崎 拓也 横野 光 宮尾 祐介 川添 愛 狩野 芳伸 加納 隼人 佐藤 理史 東中 竜一郎 杉山 弘晃 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 新井 紀子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.119-159, 2016-01-25 (Released:2016-04-25)
参考文献数
35

「ロボットは東大に入れるか」は,大学入試試験問題を計算機で解くという挑戦を通じ,言語処理を含む AI 諸技術の再統合と,知的情報処理の新たな課題の発見を目指すプロジェクトである.知的能力の測定を第一目的として設計された入試問題は,AI 技術の恰好のベンチマークであるとともに,人間の受験者と機械のエラー傾向を直接比較することが可能である.本稿では,大手予備校主催のセンター試験形式模試を主たる評価データとして,各科目の解答システムのエラーを分析し,高得点へ向けた今後の課題を明らかにするとともに,分野としての言語処理全体における現在の課題を探る.
著者
佐藤 健 市瀬 龍太郎 宮尾 祐介 狩野 芳伸
出版者
国立情報学研究所
雑誌
基盤研究(B)
巻号頁・発行日
2014-04-01

計画の当初において、手動によってPROLEGにより短答式問題を解けることを確認した。しかし、そこで作った、自然言語文から得られる述語とPROLEGの述語をつなぐ橋渡しルールについては、問題適用範囲が狭く、新しい問題に対応できないことが分かった。そこで、橋渡しルールとは別の手法を検討したが、うまくいかなかったため、自然言語で書かれた短答式問題に対して、述語の質問を行い、その述語の変数に対応する値を答えるという質問応答システムを使うことを考案し、初期的な実験を行った結果、ある程度の値の代入を得られることが分かったが実用性にはまだ検討が必要であることがわかった。
著者
植松 すみれ 松崎 拓也 花岡 洋輝 宮尾 祐介 美馬 秀樹
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

語彙化文法に基づいた日本語の構文・意味解析器を実現するために、コーパスを基に大規模な日本語文法を開発する手法を示す。日本語の構文情報付きコーパスは係り受け形式が多くそのまま語彙化文法開発には適用できないが、本手法では京大コーパス並びに関連するコーパスの情報を統合、再解釈して語彙化文法に基づく構文コーパスを構成し、日本語文法を獲得する。また実際に獲得した文法を解析に用いた際の精度により評価を行う。
著者
原 忠義 トピチ ゴラン 宮尾 祐介 相澤 彰子
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-217, no.3, pp.1-9, 2014-06-26

自然言語処理 (NLP) ツールの多くが入力として平文テキストを前提とする一方で,実文書中のテキストは多様なレイアウト,文構造,埋め込みのオブジェクトなどによって,より表現豊かに表示されている.このようなテキストを NLP ツールで解析する際には,ツールの利用者が対象テキストをツールに合った入力形式に変換しなければならない.また,利用者の不慣れな変換作業によって得られた入力を用いたところで,そのツールが本来持つとされる性能を発揮することは困難となるであろう.本研究の目的は,平文テキストでは表し切れないテキスト構成がタグを用いて表現されるような XML 文書の解析を題材として,この問題への意識喚起を促すことにある.我々は,XML でタグ付けされたテキストと,NLP ツールの入出力となる平文テキストとの間の一般的な変換枠組を提案し,本枠組を用いて獲得されるテキスト列が,単純にタグを除去して得られるテキストよりも構文解析器で高被覆かつ高効率に処理できることを示し,実文書を NLP 技術と適切に繋ぐ技術を開発することの重要性を浮き彫りにする.
著者
金子 貴美 戸次 大介 宮尾 祐介
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

含意関係を計算機に正しく認識させるためには、より基本的な含意関係の連鎖として書き下したデータとその構築手法が必要であるが、そのような日本語評価データとその構築手法が存在しないという問題がある。その問題点を踏まえ、本論文では日本語評価データの構築手法を提案する。また、既存研究と比較することにより、本手法の妥当性を考察する。
著者
松崎 拓也 横野 光 宮尾 祐介
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.34-35, 2015-12-15

「ロボットは東大に入れるか」(以下,東ロボ)は国立情報学研究所を中心とする研究プロジェクトである.「東ロボ」では,大学入試試験問題を自動的に解くソフトウェアの開発を行っている.その狙いは,言語処理および人工知能関連技術を総ざらえし,統合的な知的処理課題をベンチマークとして今後10年の言語処理・AI関連技術の伸びしろと限界を見極めることにある.プロジェクトの公式目標は2016年度にセンター試験で高得点を獲得し,2021年度に東大合格レベルに到達することである.本稿では,物理および歴史の解答システムの結果を中心に,代々木ゼミナール主催のセンター模試を用いた解答システムの評価結果とその分析を紹介する.
著者
坂地 泰紀 ベネット ジェイスン 宮尾 祐介 和泉 潔
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2018, pp.1C2OS8a03, 2018

<p>本研究では,ロイターニュース記事からの因果関係抽出手法の開発を試みる. まず,我々は,ニュース記事に含まれる因果関係と,それを示す手がかりとなる表現の調査を行った. その後,特定の手がかりに着目し,因果関係抽出手法を試みた.</p>
著者
村上 聡一朗 渡邉 亮彦 宮澤 彬 五島 圭一 柳瀬 利彦 高村 大也 宮尾 祐介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.2, pp.299-328, 2020-06-15 (Released:2020-09-15)
参考文献数
54

本稿では,日経平均株価の市況コメントを生成するタスクを例として,時系列数値データの多様な特徴を抽出してテキスト化する手法を提案する.日経平均株価の市況コメントでは価格の変動の特徴だけが表出されるわけではなく,価格の履歴を参照する表現,時系列データの変化を示す表現,テキストが書かれる時間帯に依存する表現が見られる.また,数値に言及する場合は,価格が直接言及されることもあれば,前日からの増減幅や それらを切り上げ・切り捨てした値などが用いられることもある.本研究では,エンコーダ・デコーダモデルをベースラインとし,上記のような多様な特徴を自動抽出してテキスト化するためのエンコード/デコード手法を探求する.まず,株価の短期的・長期的な変化を捉えるために,エンコーダへの入力として短期的および長期的な時系列株価データを与える.デコード時には,テキストが書かれる時間帯に依存する表現を生成するために,時間帯情報を導入する.また,デコーダが数値に言及する際,数値の演算操作を推定して計算することで株価の数値表現を生成する.実験では,自動評価および情報性・流暢性に関する人手評価を行い, 提案手法によって上記の特徴を捉えた質の高い株価の市況コメントの生成が可能になることを示した.
著者
坂地 泰紀 ベネット ジェイスン 宮尾 祐介 和泉 潔
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.1C2OS8a03, 2018 (Released:2018-07-30)

本研究では,ロイターニュース記事からの因果関係抽出手法の開発を試みる. まず,我々は,ニュース記事に含まれる因果関係と,それを示す手がかりとなる表現の調査を行った. その後,特定の手がかりに着目し,因果関係抽出手法を試みた.
著者
原田 仁 宮尾 祐介 金治 新悟 掛地 吉弘
出版者
神戸大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2016-04-01

本研究の目的は,手術動画を自動で文章化するプログラムの開発,および映像データと言語データが相互に検索可能な新しい手術記録データベースの構築である。手術動画内の解剖,器具,動作,事象を言語で意味付けし,機械学習によりパターン化させることで,手術動画から手術記録を自動作成するプログラムを開発する。また,映像と言語が互いに関連付けられた手術記録データベースを構築することで,膨大な手術データが客観性の高い均質化された手術記録として保存管理し,データベースから必要な映像データを言語で検索することを可能とする。具体的には,手術映像から選別した特定の場面を用いて,解剖,手術器具,動作,事象を認識しテキスト化する手術認識アルゴリズムを作成し,手術認識アルゴリズムを基に手術動画を自動で文章化するプログラムを開発するとともに,映像とテキストをリンクさせ相互に検索可能な新しい手術記録データベースの構築を目指す。手術認識アルゴリズムの作成においては,解析用コンピューターにインストールした専用ツールを用いて,手術動画内に登場する臓器・血管などの解剖,鉗子類などの手術器具,把持・切離などの手術操作,出血・血管の拍動などの体腔内の事象などに対し,名称や動作の属性を付与する。これにより言語で意味付けされた動画を保存,蓄積し,映像からテキストデータへの変換を,機械学習によりパターン化させる。機械学習のデータとしては,手術手技として規則性があることが望ましいと考えられる。そのため,手技が定型化された約100症例の腹腔鏡下胃切除の動画をサンプルデータとして使用する。
著者
松崎 拓也 横野 光 宮尾 祐介
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.34-35, 2015-12-15

「ロボットは東大に入れるか」(以下,東ロボ)は国立情報学研究所を中心とする研究プロジェクトである.「東ロボ」では,大学入試試験問題を自動的に解くソフトウェアの開発を行っている.その狙いは,言語処理および人工知能関連技術を総ざらえし,統合的な知的処理課題をベンチマークとして今後10年の言語処理・AI関連技術の伸びしろと限界を見極めることにある.プロジェクトの公式目標は2016年度にセンター試験で高得点を獲得し,2021年度に東大合格レベルに到達することである.本稿では,物理および歴史の解答システムの結果を中心に,代々木ゼミナール主催のセンター模試を用いた解答システムの評価結果とその分析を紹介する.
著者
川添 愛 宮尾 祐介 松崎 拓也 横野 光 新井 紀子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

コンピュータによる世界史問題への解答、特に自然言語文の選択肢の真偽を判断する問題への解答を支援する世界史オントロジーを紹介する。このオントロジーでは、イベントの成立に関わる諸条件を記述することにより、、高校レベルの世界史の知識と常識的な判断能力を持つ人間ならば必ず「ありえない」と判断するようなイベントを記述した偽文を、コンピュータが「偽」と判定できるようにすることを目指す。
著者
辻井 潤一 米澤 明憲 田浦 健次朗 宮尾 祐介 松崎 拓也 狩野 芳伸 大田 朋子 SAETRE Rune 柴田 剛志 三輪 誠 PYYSALO SAMPO Mikael 金 進東 SAGAE Kenji SAGAE T. Alicia 王 向莉 綱川 隆司 原 忠義
出版者
東京大学
雑誌
特別推進研究
巻号頁・発行日
2006

本研究は、文解析研究で成功してきた手法、すなわち、巨大な文書集合を使った機械学習技術と記号処理アルゴリズムとを融合する手法を、意味・文脈・知識処理に適用することで、言語処理技術にブレークスルーをもたらすことを目標として研究を遂行した。この結果、(1)言語理論に基づく深い文解析の高速で高耐性なシステムの開発、(2)意味・知識処理のための大規模付記コーパス(GENIAコーパス)の構築と公開、(3)深い文解析の結果を用いた固有名、事象認識などの意味・知識処理手法の開発、(4)大規模なテキスト集合の意味・知識処理を行うためのクラウド処理用ソフトウェアシステムの開発、において世界水準の成果を上げた。(2)で構築されたGENIAコーパスは、生命科学分野でのテキストマイニング研究のための標準データ(Gold Standard)として、国際コンペティション(BioNLP09、BioNLP11)の訓練・テスト用のデータとして、採用された。また、(1)の研究成果と機械学習とを組み合わせた(3)の成果は、これらのコンペティションで高い成績を収めている。また、(1)と(4)の成果により、Medlineの論文抄録データベース(2千万件、2億超の文)からの事象認識と固有名認識を数日で完了できることを実証した。その成果は、意味処理に基づく知的な文献検索システム(MEDIE)として公開されている。