著者
難波 英嗣
出版者
一般社団法人 情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.66, no.6, pp.277-281, 2016-06-01 (Released:2016-06-01)

近年,人工知能はコンピュータ囲碁や将棋,自動車の自動運転など,様々な分野で目覚ましい発展を遂げており,その成果をインターネット,新聞,テレビなどで目にする機会も少なくない。自然言語処理(NLP)は人工知能の一分野であり,人間が日常的に使っている言葉(自然言語)をコンピュータに処理させる技術のことを指す。人間が文書を分類する作業を,コンピュータで自動化することは,自然言語処理における代表的な研究課題のひとつである。本稿では,コンピュータによる文書分類に焦点を当て,様々な研究事例やその仕組みを紹介する。
著者
福田 悟志 難波 英嗣 庄司 裕子
出版者
Japan Society for Fuzzy Theory and Intelligent Informatics
雑誌
知能と情報 (ISSN:13477986)
巻号頁・発行日
vol.34, no.3, pp.592-600, 2022-08-15 (Released:2022-08-15)
参考文献数
23
被引用文献数
1

新型コロナウイルスワクチンの開発会社や政府は,人々にワクチン接種への安心感を与えるために,ワクチンの効果や接種状況といった情報を日々発信している.しかし,ワクチンに対する関心やワクチンの接種状況は国や地域によって様々であるため,必ずしも人々に安心を感じてもらえないことがある.本稿では,Twitter上に投稿されたツイートを解析し,人々が新型コロナウイルスワクチンに対して持つ感情とその感情が表れる要因を分析した.日本,米国,英国,カナダ,オーストラリア,インドの6カ国を対象とし,プルチックの感情の輪で定義されている8種類の感情に基づいた機械学習による感情分類,および係り受け解析とバースト検知手法によるテキスト解析アプローチを適用した.感情分類の結果において,人々が持つ一般的な感情として,日本では恐れ,米国,英国,カナダ,オーストラリアでは怒りと嫌悪,インドでは喜びが表れていた.また,感情の時系列的変化において,バースト検出された係り受け関係に基づいて,特定の感情が盛り上がった期間におけるツイートを分析したところ,多くのユーザによりワクチン関連のニュースが投稿されたこと,1人のユーザにより同一内容のツイートが大量に投稿されたこと,ワクチンに関する同一の出来事でも個人の状況に応じて異なる感情が盛り上がる場合があるといったいくつかの特徴を発見した.
著者
平尾 努 奥村 学 福島 孝博 難波 英嗣 野畑 周 磯崎 秀樹
出版者
社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.14, pp.60-68, 2007-09-15
参考文献数
17
被引用文献数
1

複数文書要約の対象となる文書群には,ある文に対して,意味的に似通った文やまったく同じ文が含まれていることが多い.こうした傾向は,要約のための文書群を複数の情報源から得た場合に特に顕著である.しかし,従来のコーパスには,このようなよく似た文,あるいは同一の文の間に注釈付けが存在しない.これは,抜粋を評価するための指標を定義するうえで致命的な問題となる.本稿では,こうした冗長性を考慮したコーパスへの注釈付けの枠組みを提案し,それに基づき,抜粋の情報量を測る指標である被覆率,抜粋に含まれる重要文の冗長度を測る指標である重要文冗長率を提案する.これらの指標による抜粋の順位付けと被験者による順位付けとの間の順位相関係数は,ともに0.7以上であり,人間の順位付けとの間に高い相関があることが分かった.In multiple document summarization, input documents have many similar (or even identical)sentences. However, conventional corpora for multiple document summarization do not include links between similar sentences. This is a critical problem with regard to the definition of evaluation measures for sentence extraction. In this paper, we propose both annotation scheme for corpus and evaluation measures, "coverage" and "redundancy." "Coverage" measures the content information of the system extract and "redundancy" measures the redundancy of the important sentences contained in system extract. We evaluate "coverage" and "redundancy" by comparing their ranking correlation coefficients with subjective human rankings. The results show that both measure attained enough high correlation coefficients, which were more than 0.7 correlation coefficients.
著者
羽山 徹彩 難波 英嗣 國藤 進
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J92-D, no.9, pp.1483-1494, 2009-09-01

近年の電子化プレゼンテーションの普及により,講義や会議などの多くの場面で電子的なプレゼンテーション資料(スライド)が利用され,蓄積されてきた.蓄積されたスライドデータは知識資源として膨大となりつつあるため,その高い利活用性が求められている.その有用な方法のひとつとして,レイアウトや視覚的効果など人間の理解を促すための有意な構造情報を利用することが挙げられる.しかしながら,そのような構造情報は,スライドデータの中で明確に定義されていないため,計算機で直接的に扱うことが困難である.そこで,本研究ではスライドに含まれる情報からその構造を抽出する手法を提案する.提案手法は,まずスライド上のオブジェクトを“タイトル”,“図”,“表”,“本文”,“装飾”といった機能的な属性の纏まりに組織化し,それら纏まりをトップダウン的に木構造へ組み上げる構造化を行う.評価実験では人手で作成した正解データをもとに,標準的な手法と比較することで,提案手法の有効性を確認した.
著者
花井俊介 灘本明代 難波英嗣
出版者
一般社団法人情報処理学会
雑誌
研究報告システムソフトウェアとオペレーティング・システム(OS)
巻号頁・発行日
vol.2014, no.26, pp.1-7, 2014-11-11

近年,「クックパッド」 や 「楽天レシピ」 に代表されるようにユーザ投稿型レシピサイトが普及している.これらユーザ投稿型レシピサイトには,非常に酷似したレシピや,特殊な器具を用いているレシピ,説明がほとんどなされていないレシピ等,一般のユーザにとってあまり有用でないと思われるレシピが多数存在しており,ユーザのレシピ検索の妨げとなっている.本研究ではこのようなレシピをスパムレシピと呼び,これらスパムレシピの内,酷似したレシピを自動抽出する手法の提案を行う.本論文では,酷似レシピを抽出するはじめの一歩として,ユーザ実験を行い酷似レシピの特徴を抽出しユーザはどのようなレシピを酷似レシピと思うかの分析を行う.さらにその結果を考慮してユーザ投稿型レシピサイト中のレシピをクラスタリングする手法の提案を行う.
著者
難波 英嗣 藤井 敦 岩山 真 橋本 泰一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.52, no.6, pp.334-342, 2009 (Released:2009-09-01)
参考文献数
6

本稿では,第7回および第8回NTCIRワークショップにおいて実施された特許マイニングタスクと,このタスクで構築されたテストコレクション(評価用ベンチマーク)について述べる。特許マイニングタスクの最終目標は,ある分野の論文と特許から,技術動向マップを自動的に作成することである。本稿では,特許マイニングタスクで実施された2つのサブタスク:(1)学術論文分類と(2)技術動向マップ作成について説明する。また,国際的に利用されている特許分類体系のひとつである国際特許分類(IPC)に,学術論文を自動分類するシステムを紹介する。
著者
難波 英嗣 福田 悟志
出版者
日本感性工学会
雑誌
感性工学 (ISSN:18828930)
巻号頁・発行日
vol.19, no.4, pp.163-170, 2021 (Released:2021-12-31)
参考文献数
29
著者
難波 英嗣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回全国大会(2020)
巻号頁・発行日
pp.4Q3GS902, 2020 (Released:2020-06-19)

特許庁は、市場創出に関する技術分野、国の制作として推進すべき技術分野を中心に、今後の進展が予想される技術テーマを選定し、特許出願技術調査を実施している。現在までに250テーマ以上の技術テーマについて、報告書および報告書作成に使われた論文と特許のリストが公開されている。しかし、この報告書は、一定期間は最新の技術動向を含んだ内容であっても、時間経過と共にその内容が次第に古くなっていくという問題がある。そこで、我々は、特許出願技術調査方向書の自動更新に関する研究に取り組んでいる。その第一歩として、本稿では、報告書作成に使われた特許リストの自動更新手法を提案する。実験の結果、提案手法の有効性が確認された。
著者
篠田 広人 仲榮眞 一朗 難波 英嗣 竹澤 寿幸
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.3G104, 2018 (Released:2018-07-30)

近年,研究者数の増加および学問分野の専門分化と共に学術情報量が爆発的に増加している.研究者が入手できる学術論文の量が増える一方で,そのすべてに目を通すことが困難である.そこで論文の内容を効率的に把握するための読解支援システムが求められている.これまでに,様々な観点から論文読解を支持するシステムが提案されてきたが,本研究では, 論文内の図表に着目したシステムを構築する.図表は,論文中の説明文の要点を表したものと捉えることができ,被験者に説明文だけを提示するよりも,図表とともに説明文を提示したほうが,内容の理解に有用である.本研究では,論文中の図表と,個々の図表に対応する文を自動的に対応付け,ユーザに表示することで論文読解の支援を行う.提案手法の有効性を調べるため,実験を行った.実験の結果,精度0.65,再現率0.13が得られ,提案手法の有効性が確認できた.
著者
篠田 広人 仲榮眞 一朗 難波 英嗣 竹澤 寿幸
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

近年,研究者数の増加および学問分野の専門分化と共に学術情報量が爆発的に増加している.研究者が入手できる学術論文の量が増える一方で,そのすべてに目を通すことが困難である.そこで論文の内容を効率的に把握するための読解支援システムが求められている.これまでに,様々な観点から論文読解を支持するシステムが提案されてきたが,本研究では, 論文内の図表に着目したシステムを構築する.図表は,論文中の説明文の要点を表したものと捉えることができ,被験者に説明文だけを提示するよりも,図表とともに説明文を提示したほうが,内容の理解に有用である.本研究では,論文中の図表と,個々の図表に対応する文を自動的に対応付け,ユーザに表示することで論文読解の支援を行う.提案手法の有効性を調べるため,実験を行った.実験の結果,精度0.65,再現率0.13が得られ,提案手法の有効性が確認できた.
著者
石野 亜耶 難波 英嗣 竹澤 寿幸
出版者
日本知能情報ファジィ学会
雑誌
知能と情報 (ISSN:13477986)
巻号頁・発行日
vol.22, no.6, pp.667-679, 2010-12-15 (Released:2011-03-11)
参考文献数
17
被引用文献数
3

本研究では,自動的に観光情報を収集するための手法を提案する.我々は観光情報を収集するため,ブロガーが日記形式で綴った旅行記である旅行ブログエントリに焦点を当てた.多くのブロガーが旅行記をこの形で記述するため,旅行ブログエントリは観光情報を得るための有益な情報源であると考えられる.まず本研究では,ブログデータベースから旅行ブログエントリを検出した.その中から観光情報として土産物情報と観光名所情報を抽出する手法を提案した.更に,旅行ブログエントリからリンクを抽出することで,観光情報リンク集の構築を行った.また実験により提案手法の有効性を示した.旅行ブログエントリの検出に関しては,再現率 38.1%,精度 86.7%を得た.また,旅行ブログエントリからの観光情報の抽出においては,抽出された上位 100 件の土産物において精度 74.0%,観光名所において精度 71.0%を得ることができたため,旅行ブログエントリは観光情報の有益な情報源であるといえる.旅行ブログエントリからの観光情報リンク集の自動構築においても,高い精度・再現率を得られており,提案手法の有効性を示すことができたと言える.
著者
難波 英嗣 国政 美伸 福島 志穂 相沢 輝昭 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.73, pp.67-74, 2005-07-22
被引用文献数
9

「日経平均株価」や「内閣支持率」のように数値が時間とともに常に変動するような情報のことを動向情報と呼ぶ。本稿では、動向情報の抽出を一種の複数文書要約であると考え、複数文書要約技術を用いて、あるトピックに関する複数の文書から動向情報を自動的に抽出し、グラフ化する手法について述べる。複数文書からの要約の作成は、様々な要素技術を組み合わせることで実現できる。こうした技術のひとつとして、我々は文書横断文間関係理論(CST)に着目する。CSTとは、Radevらが提唱している理論で、文書中の書く分の機能を特定し、文間の依存関係を特定する修辞構造理論(RST)を、文書間関係に拡張したものである。本研究では、CSTの一部を計算機上で実現し、それを用いてグラフ化に必要な数値情報と時間情報の抽出を行う。Trend information is defined as information obtained by synthesis and organization of temporal information such as cabinet approval ratings and stock movements. In this paper,we describe a method for visualizing trend information extracted from multiple documents. We focus on cross-dokument structure theory (CST) which Radev et al. proposed. The theory expands the notion of Rhetorical Structure Theory (RST) to the relationships between sentences in the different documents. We implement this theory partially,use it to extract trend information,and visualize it as a graph.
著者
難波 英嗣 神門 典子 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.11, pp.2640-2649, 2001-11-15
被引用文献数
13

本稿では,論文間の参照・被参照関係,および参照の理由を考慮し,関連論文を 組織化する手法について述べる.これまで,引用分析研究の分野で,論文間の 参照・被参照関係に着目した関連論文を組織化する手法がいくつか提案されて きた.これらの手法はすべての参照を等価に扱っているが,実際には様々な参 照の理由が存在するため,既存の手法では必ずしも論文間の類似度を適切に評 価できない.そこで,本研究では2論文間で同一論文をともに参照しており,かつ それらの参照の理由が一致している結合のみを数えるという方法で,2論文間の 類似度を測る.この手法により,ノイズとなる結合を削減でき,また,従来の 引用分析手法と比べ,精度の向上が期待できる.提案手法の有効性を調べるた めに,実験を行った.実験では,提案手法,引用分析の代表的な手法である書 誌結合,語の共出現を用いたより一般的な組織化の手法(ベクトル空間型モデル) を,精度,フォールアウト,計算コストという3つの側面から比較した.その 結果,提案手法が精度,フォールアウトによる評価で最も優れ,また,計算コ ストの面でも十分に速い速度で論文を組織化できることが分かった.In this paper, we propose a method for classification of research papers using citation links and citation types that indicate the reasons for citations. Several methods has been proposed for classification of papers using citation links in citation analysis. However, most of them treats all citations equally. We therefore refine citation analysis by taking account of citation types. Our method measures similarity between papers by counting the couplings of the same citation types. We compared our method with bibliographic coupling that is a kind of citation analysis and some word-based approaches (vector space model) using precision, fallout, and computational cost. The results of our experiments showed that our method is more effective than other methods.
著者
難波 英嗣 国政 美伸 福島 志穂 相沢 輝昭 奥村 学
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.105, no.203, pp.67-74, 2005-07-15

「日経平均株価」や「内閣支持率」のように数値が時間とともに常に変動するような情報のことを動向情報と呼ぶ.本稿では, 動向情報の抽出を一種の複数文書要約であると考え, 複数文書要約技術を用いて, あるトピックに関する複数の文書から動向情報を自動的に抽出し, グラフ化する手法について述べる.複数文書からの要約の作成は, 様々な要素技術を組み合わせることで実現できる.こうした技術のひとつとして, 我々は文書横断文間関係理論(CST)に着目する.CSTとは, Radevらが提唱している理論で, 文書中の各文の機能を特定し, 文間の依存関係を特定する修辞構造理論(RST)を, 文書間関係に拡張したものである.本研究では, CSTの一部を計算機上で実現し, それを用いてグラフ化に必要な数値情報と時間情報の抽出を行う.