著者
宮本 雅人 酒井 浩之 増山 繁
出版者
日本知能情報ファジィ学会
雑誌
知能と情報 : 日本知能情報ファジィ学会誌 : journal of Japan Society for Fuzzy Theory and Intelligent Informatics (ISSN:13477986)
巻号頁・発行日
vol.18, no.5, pp.752-760, 2006-10-15
被引用文献数
1 2

研究のプレゼンテーションでは,限られた時間の中で,聴衆に研究成果をよく理解してもらうために,プレゼンテーションスライドの作成が必要不可欠である.しかし,スライドの作成には多くの時間と手間を要する.そのため,多くの研究者がスライド作成の効率化を望んでいる.本研究では,研究者の負担軽減を目的として,論文LATEX原稿からスライドを自動生成する手法を提案する.本手法では,LATEXファイルの解析,スライドへの内容の割り当て,接続詞を利用した箇条書き生成を行なう.LATEXファイルの解析では,スライド生成に必要な情報は残し,不要な情報の削除を行なう.LATEXファイルの定型的な構造を利用すれば,必要な情報を特定することが可能である.スライド割り当てにおいては,論文中での名詞の出現頻度,エントロピー,idf値に基づいて名詞の重要度を計算する.その重要度に基づいて,各セクションに対して,スライド枚数の割り当て,重要文の抽出を行なう.接続詞を利用した箇条書き生成においては,並列関係を表す接続詞を利用する.なぜなら,並列関係を表す接続詞を含む文には,その文と対になる文が存在する場合が多いからである.評価の結果,本手法は論文に忠実なスライド生成に有効であることがわかった.
著者
坂地 泰紀 酒井 浩之 増山 繁
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

本論文では,決算短信PDFから因果関係を抽出し,それを用いて過去の因果関係を表示させるシステムを提案する. 例えば,企業名をシステムに入力すると,その企業に関連する過去の因果関係を表示する.原因として「猛暑」,結果として「冷房需要の盛り上がり」という因果関係が表示されたとすると,現在,「猛暑」であれば,この銘柄に投資するためのポジティブな判断材料として役立つことができる.
著者
酒井 浩之 増山 繁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.207-231, 2005-10-10 (Released:2011-03-01)
参考文献数
17

略語とその略語に対する元の語 (原型語と定義) との対応関係を, コーパスから自動的に獲得する手法を提案する.本手法は, 同一の再現率においてより高い精度を達成できるように, 我々の既提案手法 (酒井, 増山2002) を改良したものである.このような知識は, 情報検索や文書要約などにおいて有用である.本手法は, まず, 略語候補とそれに対応した原型語の候補を, それらを構成している文字情報から獲得する.そして, 略語候補と原型語の候補の名詞問類似度を計算することで, 略語とその原型語との対応関係を取得する.例えば, 略語「原発」に対して, 原型語「原子力発電所」のような対応関係を取得できる.なお, 本手法はコーパスに出現する各名詞が略語か原型語であるかどうかの情報が与えられていることを前提としていない.評価の結果, 名詞間類似度の閾値を0.4に設定した場合, 精度73.4%の結果を得た.本手法と既提案手法とを比較した結果, 同一の再現率においてより高い精度を達成し, 既提案手法よりも有効な手法であることを確認した.
著者
山本 悠二 増山 繁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.113, pp.15-22, 2007-11-19
被引用文献数
1 2

本稿では,係り先候補の相対的な距離を反映した統計的日本語係り受け解析手法を提案する.統計的係り受け解析手法は,文節間の係りやすさを訓練データから推定する.その際,従来手法では,文節間の距離はいくつかのカテゴリに分けられ,推定に用いられる素性として明示的に与えられる.しかし,複数の文節間候補が同一の距離カテゴリに属する場合,距離による弁別ができないため,最尤の係り先を決定することが困難である場合が多い.そこで提案モデルでは,文節候補集合中の二つの文節候補を逐次的に取り出し,どちらが係り元に近いかを明示させて係りやすさの推定を行う.京都大学コーパスを用いて実験を行った結果,係り受け正解率 91.60 %,文正解率 56.33 % となり,ベースライン手法と比べて有意に改善していることが確認された.We propose a novel method for statistical Japanese dependency analysis, which reflects relative distances among modifee candidates. Statistical Japanese dependency analizers estimate a dependency likelihood between a pair of bunsetsu chunks from training dataset. In conventional approaches, distances between pairs of bunsetsu chunks are divided into some feature categories, and the categories are embedded into training feature set explicitly. However, modifee candidates that belong to the same distance category, are possibly hard to be selected the most likely one, since they can not be distinguished by their distance categories. The proposed method selects two modifee candidates from all candidates sequentially. Each of the two modifee candidates and its modifier estimate the dependency likelihood after the modifee candidate appends extra information whether it is nearer from its modifier. The experimental results using Kyoto University Corpus achieved a dependency accuracy of 91.60% and a sentence accuracy of 56.33% respectively. We confirmed that the proposed method improved both dependency and sentence accuracy significantly, compared with the base-line method.
著者
石〓 友子 片岡 明 増山 繁 山本 和英 中川 聖一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.7, no.4, pp.119-142, 2000-10-10
被引用文献数
2

字幕生成のためのニュース文要約のような報知的要約では, 原文の情報を落とさないことが望まれる. 本論文では, このような原文の情報を極力落とさない要約手法の一っとして, 重複部削除による要約手法について議論する. テキスト内に, 同一の事象を表す部分が再度出現したならば, その部分を削除することによって冗長度を減少させ, 情報欠落を可能な限り回避した要約を行う. 事象の重複を認定するために, 係り受け関係のある2語が一つの事象を表していると仮定し, 2語の係り受け関係の重複を事象の重複と認定する. また, 2語の係り受け関係を用いて重複部を削除するだけでは, 読みやすく, かつ, 自然な要約文を生成することができない. そのために考慮すべきいくつかの情報について議論する. 以上の方法のうち, 実装可能な部分を計算機上に実装し, 評価実験を行った. 人間による削除箇所と本手法による削除箇所とを比較したところ, 再現率81.0%, 適合率85.1%の結果を得た.
著者
坂地 泰紀 増山 繁
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.8, pp.1496-1506, 2011-08-01

本論文では,新聞記事から因果関係を含む文を自動的に抽出する手法を提案する.現在,ウェブページや新聞記事を含む大規模な機械可読文書が入手可能であり,その中には実アプリケーションに役立つ様々な情報が存在し,テキストマイニング技術を用いることで獲得することが可能である.そのような情報の一つに因果関係があり,本研究では因果関係の存在を示す手掛りとなる表現に基づいた因果関係を含む文の抽出を行った.その結果,人手により作られた辞書やパターンを用いず,自動的に因果関係を含む文を抽出することができた.本手法は,素性として構文的な素性と,意味的な素性を用いた.また,追加学習データを自動的に獲得することができる.その結果,性能が向上し,F値0.797を達成した.
著者
小林 暁雄 増山 繁 関根 聡
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.12, pp.2597-2609, 2010-12-01

日本語語彙大系や日本語WordNetといったシソーラスは,自然言語処理の分野における様々な研究に利用可能なように構築されている.これらのシソーラスはその精度を保持するために,人手により,よく吟味されて構築されている.このため,新たな語を追加する際にも,よく検討する必要があり,容易に更新することはできない.一方,Wikipediaはだれでも参加・閲覧できるオンラインの百科事典構築プロジェクトであり,日々更新が行われている.日本語版のWikipediaでは,現在100万本以上の項目が収録されており,非常に大規模な百科事典となっている.このWikipediaのもつ膨大な語彙を,既存のシソーラスの名詞意味体系に分類することができれば,非常に大規模な言語オントロジーを構築することができると期待できる.そこで,本研究では,Wikipediaを構成する構造の一つであるカテゴリーを,Wikipediaの記事の冒頭文を使用し,既存の言語オントロジーの意味クラスの分類階層と連結することで,大規模な言語オントロジーを構築する手法を提案する.
著者
小林 暁雄 増山 繁
出版者
自動制御連合講演会
雑誌
自動制御連合講演会講演論文集 第54回自動制御連合講演会
巻号頁・発行日
pp.125, 2011 (Released:2012-03-09)

ウィキペディアは,多くの固有名詞を記事として収録しており,自然言語処理の多くの応用タスクに利用されている.これらの固有名詞を,既存の人手で作成されたシソーラスの意味体系に正しく配置することができれば,自然言語処理の分野において,非常に有用であると考えられる.そこで,我々は既存のシソーラスにウィキペディアの知識を結合することで,より大規模なシソーラスへと拡張する手法を提案する.
著者
山本 和英 増山 繁 内藤 昭三
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.1, pp.39-55, 1995-01-10 (Released:2011-03-01)
参考文献数
8
被引用文献数
1 2

日本語文章要約システムGREENについて報告する. 一般に, 質の良い文章要約を行うためには, ある一つの言語現象だけをとらえた談話解析だけでは不十分である. なぜなら, 談話に関わる言語現象は相互に関連しているからである. 本研究ではこの観点から, 日本語での様々な表層的特徴をできるだけ多く利用して, 日本語文章の要約を試みる. 本稿では実際に計算機上で試作した論説文要約システムGREENに関して, これで用いられている論説文要約の手法の紹介と, これによって出力された文章の評価を行う.
著者
坂地 泰紀 野中 尋史 酒井 浩之 増山 繁
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2009-NL-192, no.14, pp.1-8, 2009-07-15

特許文書から直接的なユーザの便益に相当する表現と,技術上の解決課題を示す表現を自動的に抽出するアルゴリズム 「Cross-Bootstrapping」 を提案する.抽出した直接的なユーザの便益に相当する表現と,技術上の解決課題を示す表現はパテントマップを生成するために役立つ.本手法は,二つの手がかりと統計情報を用いて,ブートストラップ的に表現対を抽出する.また,辞書や人手により作成したパターンを用いず,自動的に表現を抽出することができる.最後に本手法の評価実験を行い,パテントマップを自動生成するために,十分な性能を達成したことを確認した.
著者
山本 和英 増山 繁 内藤 昭三
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.11, pp.1968-1972, 1996-11-25
参考文献数
8
被引用文献数
4

複数のテキストに対する要約について述べる.日本語新聞記事を対象として,単一のテキストの要約にはない,重複部分の把握,およびその除去という固有の問題に対して,連体修飾語,類似節,名詞句の言換えを利用した要約手法とその実験結果について述べる.
著者
新井 優太 小林 暁雄 増山 繁
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.114, no.211, pp.37-40, 2014-09-04

現在,インターネット上には膨大な情報が存在しており,家電製品などでトラブルが発生した際,消費者はインターネット上にある同様のトラブル事例を検索し,問題解決にあたることが多い.しかしながら,そういった情報が議論されている掲示板などでは問題が複雑になるにつれて一つの話題あたりの記述量が増え,結果として求める情報を獲得するのが困難になる.そこで,その掲示板内から必要な情報を抽出するための足がかりとして,本稿では掲示板スレッドの構造化を考える.スレッド内の個々の投稿に含まれるアンカーや投稿者名の呼びかけを用いて投稿間のつながりを表した擬似ネットワークを生成した.
著者
池田 晃人 小林 暁雄 坂地 泰紀 増山 繁
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.114, no.211, pp.47-52, 2014-09-04

日本の動画共有サイトであるニコニコ動画の最大の特徴は投稿コメントである.この投稿コメントは,再生中の動画上の任意の時間,場所に重ねて表示することができ,それがニコニコ動画の動画をより一層ユーザにとって楽しいもの,価値のあるものにしている.ニコニコ動画のコメントは,その動画の1つの特徴であるといえる.動画の特徴であるコメントの情報を用いることで,動画推薦や動画検索などの様々な応用が考えられる.本研究では,ニコニコ動画のコメントから情報を得ることを容易にするために,コメントにアノテーションを行う.ここでは,アノテーションを行うのための分類を行う.
著者
野中 尋史 小林 暁雄 坂地 泰紀 鈴木 佑輔 酒井 浩之 増山 繁
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.24, 2010

特許文書中に出現する効果に相当する語(効果語)と技術要素に相当する語(技術語)を軸としてマッピングした「効果ー技術型パテントマップ」は、知財戦略や研究戦略の策定等で重要な役割を果たす。本研究では、効果語と技術語を特許文書中から自動的に抽出し、さらに、重複した意味を持つ語を統合した上で、「効果ー技術型パテントマップ」を作成する手法を提案する。
著者
山本 悠二 増山 繁
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.7, pp.1-8, 2010-09-09

日本語係り受け解析の手法は大きく分けて,1. 決定的な解析方法と,2. 係り先候補の確信度に基づく解析方法がある.前者は係り先候補間の比較が行えないことから,特に長距離依存の係り先を同定するときに誤りを生じやすいという傾向がある.また,後者は係り先候補集合のすべての要素を探索するため,計算時間の点で問題がある.提案手法では,係り先候補の確信度に基づく解析方法での解析時間を減らすために,決定的な解析が容易な文節について先に係り先を定めた後に,相対的な比較による係り先の同定する方法を示す.京都テキストコーパス 4.0 を用いて提案手法を評価したところ,係り先候補の確信度に基づく解析方法の 1 つである相対モデルと比較してほぼ同等の解析性能を持ち,かつ,実行時間が 2.4 倍程度高速であることが確認された.Japanese dependency parsers fall into two main methods, 1) deterministic parsing and 2) parsing based on dependency certainties among modifee candidates. The former methods tend to make errors especially for identifying long-distance dependencies because these methods do not opt the candidate by comparing candidates. On the other hand, the latter methods have difficulty with their parsing speed due to searching the most preferable candidate from all modifee candidates. The proposed method identifies easily-analyzable dependencies by deterministic parsing and identifies the rest dependencies by parsing based on dependency certainties among modifee candidates later. Experiments using the Kyoto Text Corpus show that the proposed method runs 2.4 times faster than the relative-model parser while the dependency accuracy of the proposed method is nearly comparable with the relative-model's.
著者
金山 知俊 増山 繁
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.355-356, 1996-03-06

近年のコンピュータグラフィック(以下CG)技術の発展はめざましいものがあり,映画やコマーシャルで見かける映像の中には一見してCGとは分からないようなものも増えてきた.また,建築設計やドライビングシミュレータなどで3次元CGを目にすることも多くなってきた.自然物のCGシミュレーションをこれらの分野へ応用する場合,形状のみならず,動きの再現も重要である.CGによる樹木の画像生成の研究は様々な研究者によってなされてきたが,それらの多くは樹形を生成する生長モデルや,テクスチャの生成に関するものが大部分であり,風などの外力による樹木の揺れの表現については数件の報告が見られるのみである.本研究では,樹木を質量を持った節点とそれらの隣接関係で近似する方法を改良し,節点の動きのシミュレーションを行なうことで樹木の揺れのアニメーションを実現している.
著者
松田 耕史 山本 悠二 酒井 浩之 増山 繁
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.105, no.595, pp.13-18, 2006-01-27

Web上の情報量の増加とWeblogなどの簡易な情報発信手段の普及によって、Web上のリンクを単に「リンク先ページへの信頼」と解釈することはできなくなってきた。Web上のリンクに込められた感情を知ることによって、より密に連携したWebコミュニティを発見することが可能になると考えられる。そこで本研究では、Weblog内のリンクに対して、教師付き学習によって感情スコアを推定することを試みた。肯定的文書、否定的文書間の表現の偏りや、Weblog特有の文書構造を考慮した結果、ピアソンの相関係数で0.45程度と、かなりの相関をもって推測可能であることがわかった。
著者
小林 暁雄 増山 繁
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J95-D, no.6, pp.1356-1368, 2012-06-01

日本語WordNetは,独立行政法人情報通信研究機構により開発された,Princeton WordNetの日本語版であり,誰でも利用可能な大規模なシソーラスである.しかしながら,収録された語彙の多くは一般語であり,一部の著名人や国名などといった有名な固有名詞以外の固有名詞や新語はほとんど収録されていない.このため,自然言語処理の応用研究に利用する上で,これらの名詞の不足が問題になる可能性がある.一方,ウィキペディアは,誰でも参加・閲覧できるオンラインの百科事典構築プロジェクトであり,多くの名詞を記事として収録しているとともに,日々記事の追加・更新が行われている.このため,固有名詞や新語の解析を必要とする研究において,知識源として頻繁に利用されている.しかしながら,ウィキペディアには,日本語WordNetのような整理された語彙の分類体系が存在しないため,日本語WordNetのようにシソーラスとして用いるのは困難である.そこで,我々は,ウィキペディアのもつ,記事をまとめ上げるための機能の一つであるカテゴリーに着目し,これを新たな概念とし,その階層を用いることによって,日本語WordNetを拡張する手法を提案する.
著者
酒井 浩之 増山 繁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.94, pp.43-50, 2006-09-12

新聞やインターネットなどで1日に配信される個々の企業に関する記事は膨大な数になるが,人間にとって重要な記事とは企業業績に影響を与えるほどのインパクトのある記事である.そのため,本研究では,経済新聞記事を対象とし,新聞に掲載される個々の企業の記事の内容を解析し,企業業績に影響を与えるほどのインパクトのある記事(以下,インパクト記事)であるかどうかを判定し,そのような記事を抽出する.また,インパクト記事の内容が企業業績にとってポジティブな影響を与えるか,ネガティブな影響を与えるかを自動的に判定する.さらに,本手法で抽出対象としている企業業績発表の記事の内容を解析し,その主要因(好調な事業,もしくは,不振の事業)が記載されている文を抽出する.本手法を評価したところ,インパクト記事抽出の精度は85.8%,再現率は66.8%であり,主要因(好調な事業,不振な事業)の記述のある文抽出の精度は82.2%,再現率は26.3%であった.Many articles about each company are distributed on the newspaper or Internet in a day.However,an important article for human is an article containing a story that influences the corporate performance.In this research,we propose a method for identifying an article containing a story that influences the corporate performance and extracting such articles from a newspaper corpus.Our method judges whether the story contained in the extracted article is positive or negative to the corporate performance.Moreover,we target the articles of the announcement on the corporate performance,we propose a method for extracting sentences containing its key factor(good business or bad business).Experimental results showed that our method for extracting articles containing a story that influences the corporate performance attained 85.8% precision and 66.8% recall and our method for extracting sentences containing the key factor attained 82.2% precision and 26.3% recall.