著者
原 忠義 トピチ ゴラン 宮尾 祐介 相澤 彰子
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-217, no.3, pp.1-9, 2014-06-26

自然言語処理 (NLP) ツールの多くが入力として平文テキストを前提とする一方で,実文書中のテキストは多様なレイアウト,文構造,埋め込みのオブジェクトなどによって,より表現豊かに表示されている.このようなテキストを NLP ツールで解析する際には,ツールの利用者が対象テキストをツールに合った入力形式に変換しなければならない.また,利用者の不慣れな変換作業によって得られた入力を用いたところで,そのツールが本来持つとされる性能を発揮することは困難となるであろう.本研究の目的は,平文テキストでは表し切れないテキスト構成がタグを用いて表現されるような XML 文書の解析を題材として,この問題への意識喚起を促すことにある.我々は,XML でタグ付けされたテキストと,NLP ツールの入出力となる平文テキストとの間の一般的な変換枠組を提案し,本枠組を用いて獲得されるテキスト列が,単純にタグを除去して得られるテキストよりも構文解析器で高被覆かつ高効率に処理できることを示し,実文書を NLP 技術と適切に繋ぐ技術を開発することの重要性を浮き彫りにする.
著者
上子 優香 榊 剛史 原 忠義 森 純一郎 坂田 一郎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第29回 (2015)
巻号頁・発行日
pp.4I13, 2015 (Released:2018-07-30)

これまでニュース記事の一読者に過ぎなかった人々が、ソーシャルメディアを通じて意見を発信することで社会的影響力を持つようになってきた。本研究ではYahoo!ニュース内のコメントとTwitterでのコメントを対象として、ニュース記事のもつ言語的特徴が、ニュース記事の読者がソーシャルメディア上で発信するコメントの数や感情度に与える影響と、プラットフォームによるコメントの性質の違いを明らかにした。
著者
辻井 潤一 米澤 明憲 田浦 健次朗 宮尾 祐介 松崎 拓也 狩野 芳伸 大田 朋子 SAETRE Rune 柴田 剛志 三輪 誠 PYYSALO SAMPO Mikael 金 進東 SAGAE Kenji SAGAE T. Alicia 王 向莉 綱川 隆司 原 忠義
出版者
東京大学
雑誌
特別推進研究
巻号頁・発行日
2006

本研究は、文解析研究で成功してきた手法、すなわち、巨大な文書集合を使った機械学習技術と記号処理アルゴリズムとを融合する手法を、意味・文脈・知識処理に適用することで、言語処理技術にブレークスルーをもたらすことを目標として研究を遂行した。この結果、(1)言語理論に基づく深い文解析の高速で高耐性なシステムの開発、(2)意味・知識処理のための大規模付記コーパス(GENIAコーパス)の構築と公開、(3)深い文解析の結果を用いた固有名、事象認識などの意味・知識処理手法の開発、(4)大規模なテキスト集合の意味・知識処理を行うためのクラウド処理用ソフトウェアシステムの開発、において世界水準の成果を上げた。(2)で構築されたGENIAコーパスは、生命科学分野でのテキストマイニング研究のための標準データ(Gold Standard)として、国際コンペティション(BioNLP09、BioNLP11)の訓練・テスト用のデータとして、採用された。また、(1)の研究成果と機械学習とを組み合わせた(3)の成果は、これらのコンペティションで高い成績を収めている。また、(1)と(4)の成果により、Medlineの論文抄録データベース(2千万件、2億超の文)からの事象認識と固有名認識を数日で完了できることを実証した。その成果は、意味処理に基づく知的な文献検索システム(MEDIE)として公開されている。