著者
佐藤 敏紀 橋本 泰一 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-229, no.15, pp.1-14, 2016-12-14

SNS やニュース記事で発見される新語や未知語の継続的な採録は,分かち書き用の辞書を作成して更新する際の課題のひとつである.我々は,固有名詞や複合語に対する高い網羅性と分かち書き精度を実現し続ける際に,コーパスではなく辞書として言語資源を追加することを選択した.そして,形態素より長い固有名詞や複合語を単一の見出し語として分かち書きし,品詞情報や読み仮名などを付与できる辞書を生成するためのシステムを構築した.さらに辞書生成システムを運用して短い周期での更新を長期間継続した.我々は,形態素より長い固有名詞や複合語を一語として分かち書きすること,及び,辞書生成システムを運用して短い周期で更新することの各効果を,ニュース記事を複数のカテゴリに分類する実験を通じて確認した.
著者
荒牧 英治 橋本 泰一
出版者
情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.53, no.3, pp.236-240, 2012-02-15

近年のマイクロブログの普及とともに,そこから有益な情報を抽出する需要が高まっている.ここでは,マイクロブログの先駆者的なサービスであるTwitterを例にして,インフルエンザや花粉症といった疾患病の患者数を予測する情報抽出システムと東日本大震災により被災した文化財の情報抽出について解説する.両システムともに,特定のキーワードを含むツイートの数を数え上げるだけでなく,機械学習による文書分類器を活用することにより,日常的な文章からより正確な情報抽出に取り組んでいる.
著者
橋本 泰一 村上 浩司 乾 孝司 内海 和夫 石川 正道
出版者
社会技術研究会
雑誌
社会技術研究論文集 (ISSN:13490184)
巻号頁・発行日
vol.5, pp.216-226, 2008 (Released:2009-07-15)
参考文献数
18
被引用文献数
2 3

自然言語処理技術を応用し,分析対象となる新聞記事を取得して,記事を自動的に分類し,トピックとなる社会事象を抽出,さらにはトピックを構造化して課題の発見に至る手続きを可能とする手法を開発した.この手法によれば,多数のトピックを含む文書集合に対して階層的クラスタリングを施し,クラスタ間の語彙使用の類似性に基づく構造化を行い,個々のクラスタについてこれを要約するキーワードおよび関係する主体(組織名)を自動抽出することによって内容を効率的かつ経済的に俯瞰できることを示した.本論文では,産業活動に伴う事故・災害に関する社会の課題発見を事例として,これらのテキストマイニング技術を統合した社会変化の定量的分析手法の有効性について検証した.
著者
難波 英嗣 藤井 敦 岩山 真 橋本 泰一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.52, no.6, pp.334-342, 2009 (Released:2009-09-01)
参考文献数
6

本稿では,第7回および第8回NTCIRワークショップにおいて実施された特許マイニングタスクと,このタスクで構築されたテストコレクション(評価用ベンチマーク)について述べる。特許マイニングタスクの最終目標は,ある分野の論文と特許から,技術動向マップを自動的に作成することである。本稿では,特許マイニングタスクで実施された2つのサブタスク:(1)学術論文分類と(2)技術動向マップ作成について説明する。また,国際的に利用されている特許分類体系のひとつである国際特許分類(IPC)に,学術論文を自動分類するシステムを紹介する。
著者
乾 孝司 村上 浩司 橋本 泰一 内海 和夫 石川 正道
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.469-479, 2009 (Released:2009-08-07)
参考文献数
28
被引用文献数
1

This paper presents a method for boosting the performance of the organization name recognition, which is a part of named entity recognition (NER). Although gazetteers (lists of the NEs) have been known as one of the effective features for supervised machine learning approaches on the NER task, the previous methods which have applied the gazetteers to the NER were very simple. The gazetteers have been used just for searching the exact matches between input text and NEs included in them. The proposed method generates regular expression rules from gazetteers, and, with these rules, it can realize a high-coverage searches based on looser matches between input text and NEs. To generate these rules, we focus on the two well-known characteristics of NE expressions; 1) most of NE expressions can be divided into two parts, class-reference part and instance-reference part, 2) for most of NE expressions the class-reference parts are located at the suffix position of them. A pattern mining algorithm runs on the set of NEs in the gazetteers, and some frequent word sequences from which NEs are constructed are found. Then, we employ only word sequences which have the class-reference part at the suffix position as suffix rules. Experimental results showed that our proposed method improved the performance of the organization name recognition, and achieved the 84.58 F-value for evaluation data.