著者
横井 祥 持橋 大地 高橋 諒 岡崎 直観 乾 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

コーパスから関係知識を取り出す際,元の文のどの単語までを知識に含めるかが問題となる.本研究では,文ペアの集合を入力として知識に含めるべき単語を教師なしで推定する問題を提案し,この形式の問題が人工知能の諸分野に存在することを指摘する.提案手法では,カーネル法ベースの独立性尺度を目的関数に用いて乱択アルゴリズムで最適化する.人工データと実データを用いた実験でその有用性を示す.
著者
平田 圭二 塚本 昌彦 乾 健太郎
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.56, no.1, pp.86-91, 2014-12-15

情報処理学会が編集発行している雑誌は常に時代の先を見据えてさまざまな企画を実施し記事を掲載してきた.ジャーナル論文誌編集長の乾健太郎(東北大),学会誌編集長の塚本昌彦 (神戸大),ディジタルプラクティス編集長の平田圭二 (公立はこだて未来大学) の3人が集まり,学会出版物の役割や相互の関係,学会出版物の今後などについて,アイディアや意見を交換し,将来の雑誌相互の発展に資する鼎談を行う.
著者
中川 哲治 乾 健太郎 黒橋 禎夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.108, no.408, pp.25-30, 2009-01-19

本稿では,自動獲得されたラベル付きデータを利用して,統計的な分類器に基づく評価極性分類の精度を改善させる方法について述べる.正解ラベルの付与された訓練データは機械学習に基づく自然言語処理を行う上で非常に重要であり,これまでにラベル付きデータを自動的に収集する方法がいくつか提案されている.しかしながらそのようなデータは誤りを含んでいる可能性があるため,訓練データとして直接利用するには適さない可能性がある.そこでこの問題に対処するために,ラベルの確信度により事例の重み付けを行う方法を提案する.実験の結果,提案手法を用いて自動獲得されたラベル付きデータを利用することにより,評価極性分類の精度を向上させることができた.
著者
立石 健二 福島 俊一 小林 のぞみ 高橋 哲朗 藤田 篤 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.93, pp.1-8, 2004-09-16
被引用文献数
14

本稿では、Web文書から意見を抽出し、それらをレーダーチャートの形式で要約/視覚化する意見抽出分類システムを提案する。Webの意見は、商品購入の際の情報収集、市場調査等のマーケティング、企業のリスク管理等、さまざまな目的での利用が考えられる。Webの意見の収集/分析に関する研究には2つの課題がある、対象とするWeb文書から意見に該当する箇所を抽出すること、抽出した意見を要約/視覚化することである。本システムは、この2つの課題を3つ組{対象物 属性 評価}のモデルと情報抽出の手法を用いて解決する。本システムを車に関するレビューサイトの100記事を対象として評価したところ抽出精度が適合率82% 再現率52%であり、システムが出力したレーダーチャートと人手で作成したレーダーチャートが類似することを確認した。This paper proposes an opinion extraction and classification system, which extracts people's opinions from Web documents and summarize/visualizes them in the form of "radar charts". People's opinions on the Internet are available for many purposes such as surveys before purchasing products, market research and risk management for enterprises. There are two issues on this area. One is to locate opinion sentences from Web documents, and the other is to summarize/visualize the extracted opinions. The proposed system solves them by employing an opinion model {object name, attribute expression, evaluative expression} and information extraction techniques. The experimental result conducted with 100 articles on the car domain showed that the system performed 82% on precision and 52% on recall, and that both radar charts created by the system and by the hand are similar to each other.
著者
佐々木 彬 水野 淳太 岡崎 直観 乾 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

近年、Twitterなどのマイクロブログが爆発的に普及し、それを対象とした自然言語処理関連の研究が増加している。しかしながら、マイクロブログ上のテキストには口語表現やインターネットスラングの類が入り混じり、自然言語処理を行うに当たって不便な点が多い。本研究では機械学習により、マイクロブログ上のテキストから自然言語処理に適したテキストへの正規化を図る。
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.77-84, 2003-03-06
被引用文献数
26

近年,Web上に多数存在する掲示板などの文書から,意見情報を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には,評価を表す表現が重要な手がかりとなるが,評価表現には「コクがある」「液晶がきれい」といった領域依存の表現が多数存在するため,人手で書き尽くすことは困難である.そこで,我々は,テキストマイニングの技術を応用し,評価対象表現,属性表現,評価表現の共起パタンを利用して,これら領域依存表現を効率的に収集することを試みた.本稿では,共起パタンに基づく属性・評価表現の半自動的収集方法を提案し,「コンピュータ」と「ビール」の2つの領域を対象に行った経験的評価を報告する.It has been receiving increasing interest how to extract opinions from tremendous piles of Web documents. To automate the process of opinion extraction, a collection of evaluative expressions like "the monitor is fine" would be useful. However, it can be prohibitively costly to manually create an exhaustive list of evaluative expressions for each domain since they tend to be domain-dependent. Motivated by this background, we have been exploring how to accelerate the process of collecting evaluative expressions by applying a text mining technique. This paper proposes a semi-automatic method where we use particular patterns of cooccurrences between an evaluated subject, focused attribute and orientation expression, and reports the results of our empirical evaluation on the computer and beer domains.
著者
飯田 龍 小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.1, pp.21-28, 2005-01-11
被引用文献数
12

本稿では,文章に記述されている意見を抽出するタスクについて述べる.我々は,意見を<対象,属性,評価値>の3つ組として定義し,文章からその3つ組を抽出する手法を提案する.具体的には,意見抽出の問題を,(a)辞書に存在する属性候補集合と評価値候補集合から評価値候補と対となる属性を同定する問題と,(b)同定した対が意見性を持つか否かを判定する問題の2つの問題に分解し,それぞれ機械学習に基づく手法を用いて解析することにより,属性-評価値対を同定する.提案手法を用いて評価実験を行った結果を報告するとともに,今後の展望についても議論する.This paper addresses the task of extracting opinions described in a given document collection. Assuming that an opinion can be represented as a tuple < Subject, Attribute, Value>, we propose a computational method to extract such tuples from texts. In this method, the major task is decomposed into (a) the process of extracting Attribute-Value pairs from given texts and (b) the process of judging whether each extracted pair is expressed as an opinion of the author, to both of which we apply machine-learning techniques. We also report on the present results of our experiments discussing future directions.
著者
飯田 龍 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.45-52, 2008-09-17
被引用文献数
4

ゼロ照応解析の問題を結束性と首尾一貫性の観点から検討する.結束性の観点からは,Walker [21] のキャッシュモデルの実現方法を検討し,統計的機械学習に基づく実装を提案する.このキャッシュモデルを用いて文間ゼロ照応の先行詞候補削減を試み,評価実験を通じて先行詞同定時に解析対象とする先行詞候補を激減できたことを報告する.また,首尾一貫性の観点からは,含意関係認識で利用される推論知識獲得の手法を照応解析の手がかりとすることで解析精度にどのように影響するかについて調査する.新聞記事を対象に先行詞同定の実験を行い,導入した推論規則が解析に有効に働くことを示す.This paper approaches zero-anaphora resolution in the perspectives of cohesion and coherence.From the perspective of cohesion, we examine how to use the cache model addressed by Walker [21], and propose a machine learning-based approach for implementing the cache model. Empirical evaluation is conducted in order to reduce the number of antecedent candidates by the proposed cache model, and this results show that the number of the antecedent candidates of each zero-pronoun is dramatically reduced on the task of antecedent identification. From the perspective of coherence, on the other hand, we investigate whether or not the clues introduced in the area of the automatic inference rules acquisition on entailment recognition improve the performance of anaphora resolution. Through the experiments of the antecedent identification task, we demonstrate the impact of incorporating the inference rules into zero-anaphora resolution.
著者
乾 健太郎 岡崎 直観 楠見 孝 渡邉 陽太郎
出版者
東北大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

(i) Web上の様々な医療・健康情報の間に潜在的に存在する同意、対立、根拠等の隠れた論理的関係を同定する言論間関係認識技術を研究開発した。(ii) (i)の要素技術として、大規模言語データからの知識獲得、述語項構造解析の洗練、仮説推論の高速化と機械学習に関する研究に取り組んだ。(iii) (i)(ii)の技術をソーシャルメディア上の情報に対する信頼性分析に応用し、ソーシャルメディア分析のケーススタディを行った。(iv) ネット調査を行い、批判的思考態度や教育歴がヘルスリテラシーを高め、適切なネット上の医療・健康、食品安全性に関する情報の利活用を促進していることを明らかにした。
著者
乾 健太郎
出版者
奈良先端科学技術大学院大学
雑誌
特定領域研究
巻号頁・発行日
2007

商品やサービスなど, 指定されたトピックに関連する個人の経験の記述をWeb文書集合から収集し, 述語項構造に基づく表現形式に構造化するとともに, 事態タイプ(ポジティブ/ネガティブな出来事・状態, 入手・利用等の行為など)や事実性情報(当該事態の時間情報とそれに対する話者態度)といった意味情報を解析する経験マイニングを開発した. 20年度の具体的成果は次の4点である.(1)評価極性知識獲得の大規模実験 : 事態タイプのうち, とくに「遅刻する, 炎症が治まる, 錆が出る」など, 評価極性を持つ出来事に関する知識の獲得に注力し, 大規模なWeb文書コーパスからこれを獲得する実験を行った. その結果, コーパスのサイズを大きくすると, 獲得できる知識の精度, カバレッジともに劇的に向上に, 最終的に1.6億文のコーパスから75以上のカバレッジを85以上の精度で獲得できることが確かめられた.(2)事実性解析モデルの洗練 : 事実性解析については, 2007年度の成果をベースに, 事実性タグ体系の見直しと訓練データの拡張を行った. また, 文中で隣接する事態表現の事実性の間に依存関係があることに着目し, これをFactorial CRFでモデル化することによって解析精度を向上させることができた.(3)公開デモサイト「みんなの経験」の開発 : 以上の成果を利用し, 文書集合から実際に経験情報を抽出し, データペース化するシステムを開発するとともに, これを最近1年半分のプログ記事(約1億5千万記事)に適用し, 約5千万件の経験情報からなる経験データベースを構築した. このデータベースは, 今年度新たに開発した公開デモサイト「みんなの経験」で検索できるようになっている. 同サイトは, プログデータの利用契約の締結に時間を要したが, 2008年12月上旬に無制限一般公開できる運びになっている.(4)民間への技術移転 : 大手Webポータルサイト「@nifty」を運営するニフティ株式会社と連携し, 同社のサービス業務に経験マイニングの技術を導入する準備を進めた.
著者
宮森 恒 赤峯享 加藤 義清 兼 岩憲 角 薫 乾 健太郎 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.103-108, 2007-07-25
被引用文献数
2

本稿では、情報の信頼性を自然言語処理に基づいて分析する際に必要となる評価用データおよびプロトタイプシステム WISDOM について述べる。われわれは、ウェブ上のテキストを主な対象として、情報信頼性を分析することを目指したプロジェクトを 2006年 4月より進めている。本プロジェクトでは、ウェブ上の情報の信頼性を、情報内容、情報発信者、情報外観、社会的評価といった4つの基準で捉えることを提案しており、これらを述語項構造を単位とする自然言語処理によって論理的に分析・組織化することを目指している。本稿で述べる評価用データは、これら種々の分析処理の学習・検証用データとして構築されたものであり、時事問題、医療問題等の 20 トピックを選定し、各 100 ウェブページを収集して、各評価尺度のデータを人手で付与したものである。また、情報信頼性を多角的に評価するプロトタイプシステム WISDOM を開発した。本システムを用いて上記評価尺度で条件を様々に変化させて情報閲覧することにより、興味のトピックについて、信頼できる情報をより確実に見極めることができるようになる。Evaluation data and a prototype system named WISDOM used for analyzing information credibility based on natural language processing are described. Our group started the Information Credibility Criteria project in April, 2006, mainly to analyze the credibility of information (text) on the Web. The project proposes to capture information credibility based on four criteria (content, sender, appearance, and social valuation) and aims to analyze and organize them logically using natural language processing based on predicate argument structure. The evaluation data were developed as learning and verifying data for these various analysis modules, and were composed of manually-annotated data based on each evaluation criteria about pre-selected 20 topics such as current events and medical issues with 100 pages per topic being collected from the Web . The prototype system WISDOM was developed to provide information credibility from different perspectives. Users will be able to find credible information more reliably by browsing information using different evaluation criteria and conditions provided by the system.
著者
宮森 恒 赤峯 享 加藤 義清 兼岩 憲 角 薫 乾 健太郎 黒橋 禎夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.158, pp.103-108, 2007-07-17

本稿では,情報の信頼性を自然言語処理に基づいて分析する際に必要となる評価用データおよびプロトタイプシステムWISDOMについて述べる.われわれは,ウェブ上のテキストを主な対象として,情報信頼性を分析することを目指したプロジェクトを2006年4月より進めている.本プロジェクトでは,ウェブ上の情報の信頼性を,情報内容,情報発信者,情報外観,社会的評価といった4つの基準で捉えることを提案しており,これらを述語項構造を単位とする自然言語処理によって論理的に分析・組織化することを目指している.本稿で述べる評価用データは,これら種々の分析処理の学習・検証用データとして構築されたものであり,時事問題,医療問題等の20トピックを選定し,各100ウェブページを収集して,各評価尺度のデータを人手で付与したものである.また,情報信頼性を多角的に評価するプロトタイプシステムWISDOMを開発した.本システムを用いて上記評価尺度で条件を様々に変化させて情報閲覧することにより,興味のトピックについて,信頼できる情報をより確実に見極めることができるようになる.
著者
乾 健太郎 脇川 浩和
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.62, pp.87-94, 1999-07-22
被引用文献数
2

近年,信頼性の高い品詞・構文タグつきコーパスに対する需要の増大にともなって,コーパスを共有・再利用することの重要性がますます大きくなっている.しかし,既存のタグつきコーパスでは基礎とする品詞体系が統一されておらず,そのことが共有・再利用の障害となっている.このような背景から本稿では,既存のコーパスの品詞・構文タグを別の品詞体系に基づく品詞・構文タグに変換するアルゴリズムについて論じる.本稿で提案する手法では,ターゲット側品詞体系に基づく文法・辞書でコーパスを形態素・構文解析することによって半自動的にタグ付けを行う.このとき生じる曖昧性は,ソース側タグ情報を最大限に利用することによって高い精度で解消することができる.The problems in reusing the POS-tag information of an existing corpus are in the gap between different tag sets; corpora are annotated in terms of different tag sets. While the recent efforts for standardizing tags are important, we still need to explore techniques for the (semi-)automatic conversion between different tag sets in order to maximally reuse the existing tagged corpora. This paper presents an NLP-based method for the conversion between Japanese POS-tag sets, and reports the results of our preliminary experiment.
著者
乾 健太郎 脇川 浩和
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.99, no.228, pp.31-38, 1999-07-23

近年, 信頼性の高い品詞・構文タグつきコーパスに対する需要の増大にともなって, コーパスを共有・再利用することの重要性がますます大きくなっている. しかし, 既存のタグつきコーパスでは基礎とする品詞体系が統一されておらず, そのことが共有・再利用の障害となっている. このような背景から本稿では, 既存のコーパスの品詞・構文タグを別の品詞体系に基づく品詞・構文タブに変換するアルゴリズムについて論じる. 本稿で提案する手法では, ターゲット側品詞体系に基づく文法・辞書でコーパスを形態素・構文解析することによって半自動的にタグ付けを行う. このとき生じる曖昧性は, ソース側タグ情報を最大限に利用することによって高い精度で解消することができる.
著者
徳久 良子 徳久 雅人 乾 健太郎 岡田 直之
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.99, no.237, pp.13-20, 1999-07-26
被引用文献数
7

対話中に変化する相手 (ユーザ) の情緒を推定し, システムの応答プランニングに利用する技術の研究開発は, ヒューマンフレンドリな対話システムを構築するための有効なアプローチの一つと考えられる. このようなアプローチについてはすでに萌芽的な研究がいくつか見られるものの, ユーザの情緒の推定に必要な機構や情緒推定と応答プランニングの相互作用についてはまだほとんど明らかになっていない. そこで我々は, これらの問題を解明する手段の一つとして, 情緒タグつき対話コーパスの構築を検討している. 本稿では, 情緒タグつき対話コーパスを構築することの現実性について, 我々がこれまでに行った予備調査の結果を報告し, その中で明らかになった問題点について議論する.