著者
津々見 誠 村上 浩司 梅田 卓志
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

データの構造化は自然言語処理における重要なテーマの1つである.我々はeコマースにおけるデータ構造化の一環として,楽天市場の商品のメーカー名と,知識ベース上の企業との自動マッピングのタスクに取り組んだ.テキスト中で何らかの実体を指示する用語を知識ベースに対応付けるエンティティリンキングにおいて,語の多義性やエンティティの曖昧性,リンクの存在の不確定性等,解決すべき課題は多い.我々は役割の異なるDoc2Vecモデルを多段に重ねて複数の観点からリンキングの正当性を検証する手法を提案する.評価実験において本手法はテキストマッチングによる手法を31.0ポイント上回る83.5%のマッピング精度を達成した.本手法は用語の多義性をはじめとする課題の解決に対して有効である他,辞書や教師データの作成等人手を要する工程を必要とせず,コスト面での優位性が高いことを示した.
著者
橋本 泰一 村上 浩司 乾 孝司 内海 和夫 石川 正道
出版者
社会技術研究会
雑誌
社会技術研究論文集 (ISSN:13490184)
巻号頁・発行日
vol.5, pp.216-226, 2008 (Released:2009-07-15)
参考文献数
18
被引用文献数
2 3

自然言語処理技術を応用し,分析対象となる新聞記事を取得して,記事を自動的に分類し,トピックとなる社会事象を抽出,さらにはトピックを構造化して課題の発見に至る手続きを可能とする手法を開発した.この手法によれば,多数のトピックを含む文書集合に対して階層的クラスタリングを施し,クラスタ間の語彙使用の類似性に基づく構造化を行い,個々のクラスタについてこれを要約するキーワードおよび関係する主体(組織名)を自動抽出することによって内容を効率的かつ経済的に俯瞰できることを示した.本論文では,産業活動に伴う事故・災害に関する社会の課題発見を事例として,これらのテキストマイニング技術を統合した社会変化の定量的分析手法の有効性について検証した.
著者
水野 淳太 渡邉 陽太郎 エリックニコルズ 村上 浩司 乾 健太郎 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3408-3422, 2011-12-15

情報検索技術の発展により,あるトピックに関連する多様な情報を容易に入手できるようになった.しかしながら,これらの文書に記述されている情報には,不正確な記述,偏りのある意見などが多数混在している.そのため,個々の情報や意見の信憑性を判断するためには,多様な情報源からの意見との整合性を調べる必要がある.しかし,限られた時間で数多くの情報源を調べることは難しいため,ユーザが持っている先入観が正常な判断を妨げてしまう場合がある.我々は,そのような状態を避けるために,言論マップ生成課題に取り組んでいる.これは,検索された文について,まず,トピックに対する賛成意見であるのか,それとも反対意見であるのかを分類し,次に,賛成および反対する根拠を含むかどうかを認識し,それらを俯瞰的に示すというものである.本課題において最も重要な問題は,1組の文対が与えられたときに,その間の意味的関係を分類する文間関係認識である.これは近年さかんに研究されている含意関係認識と重なる部分が多い.しかしながら,ウェブ上の実文に対して既存の含意関係認識を適用しても,その分類性能は限定的であるという報告がある.そこで,我々は,評価用データセットとその分析に基づく文間関係認識モデルを構築した.本論文では,検索された文において,クエリの内容に対応する部分を正しく同定することが,最も重要な技術的課題であること,また,いくつかの制約を変化させることで,関係分類の精度と再現率を制御できることを示す.
著者
乾 孝司 村上 浩司 橋本 泰一 内海 和夫 石川 正道
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.469-479, 2009 (Released:2009-08-07)
参考文献数
28
被引用文献数
1

This paper presents a method for boosting the performance of the organization name recognition, which is a part of named entity recognition (NER). Although gazetteers (lists of the NEs) have been known as one of the effective features for supervised machine learning approaches on the NER task, the previous methods which have applied the gazetteers to the NER were very simple. The gazetteers have been used just for searching the exact matches between input text and NEs included in them. The proposed method generates regular expression rules from gazetteers, and, with these rules, it can realize a high-coverage searches based on looser matches between input text and NEs. To generate these rules, we focus on the two well-known characteristics of NE expressions; 1) most of NE expressions can be divided into two parts, class-reference part and instance-reference part, 2) for most of NE expressions the class-reference parts are located at the suffix position of them. A pattern mining algorithm runs on the set of NEs in the gazetteers, and some frequent word sequences from which NEs are constructed are found. Then, we employ only word sequences which have the class-reference part at the suffix position as suffix rules. Experimental results showed that our proposed method improved the performance of the organization name recognition, and achieved the 84.58 F-value for evaluation data.