著者
奥村 学
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.111, no.427, pp.19-24, 2012-01-26
被引用文献数
1

Yahoo!知恵袋などのcQAサイト,口コミ(レビュー)サイト,ブログTwitterに代表されるマイクロブログなど,今やCGM (Consumer Generated Media)あるいはソーシャルメディアと称されるメディアは,WWW上に多種多様に存在する.本稿では,その中でも特に,近年爆発的な普及を遂げているマイクロブログを分析する技術を,ブログ分析技術と対照しながら,解説する.
著者
森田 一 高村 大也 奥村 学
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.111, no.119, pp.89-93, 2011-06-30

本研究はblog等のWeb上のテキストから.製品等についての評価表現を対象語,属性語,評価語の三つ組として抽出することを目的としている。この三つ組抽出を,文に対する系列タギング問題の一種として解くことで,一語に限らない多様な表現の抽出を行う。評価表現では対象語とその属性語が評価語と強く関連しているため.対象・属性語と評価語の結びつきの強さを含めて学習を行う枠組みを提案する。このため,本研究では構造学習の枠組みを用いて文に対するラベル系列を学習する.文とラベルに対して素性ベクトルを定義し,文とラベルをモデルで評価したスコアを最大化するように,Viterbiアルゴリズムを元にしたアルゴリズムでラベルを探索する.学習にはオンライン学習アルゴリズムのPassive Aggressive Algorithmを用い,正しいラベル系列が探索空間中でスコアが高くなるよう,モデルを更新することで行う.Web文書に対して評価表現の三つ組がタグ付けされたコーパスを用いて,提案手法の実験を行った結果を元に,手法の問題点とその解決策についての考察を行う.
著者
荻窪 哲也 日高 宗明 奥村 学 藤田 健一 山崎 啓之 浅生 将英 岩切 智美 佐々木 裕美 児玉 裕文 有森 和彦
出版者
日本医療薬学会
雑誌
医療薬学 (ISSN:1346342X)
巻号頁・発行日
vol.32, no.5, pp.392-399, 2006-05-10
被引用文献数
2 2

In view of the lack of information on the extent to which tea beverages inhibit the activity of human cytochrome P 450 3A (CYP 3A), we investigated their effect on the midazolam 1' -hydroxylation activity of CYP 3A contained in human liver microsomes. "Grapefruit (white)" was used as a positive control, and "Valencia Orange", as a negative control. All the tea beverages tested significantly inhibited the midazolam 1' -hydroxylation activity of CYP 3A in a concentration-dependent manner and inhibition was particularly marked for Katekin 600^[○!R] and Banso-reicha^[○!R] (5.0%, v/v). The potency of the inhibitory effects was similar to that of grapefruit. The inhibitory effects on the activity of CYP 3A were enhanced by preincubation of tea samples (2.5%, v/v) with microsomal fractions for 5 to 30min in a preincubation period-dependent manner. These results suggest that Katekin 600^[○!R] and Banso-reicha^[○!R] contain mechanism-based inhibiting agents. Further, the inhibitory effects on CYP 3A of green tea beverages seemed to be enhanced by catechins with the enhancement depending on the catechin concentration indicated on the label. In conclusion, we found that there were ingredients that inhibited CYP 3A activity in all of the tea beverages, and they were probably catechins.
著者
望月 源 岩山 真 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.82, pp.39-46, 1998-09-17

計算機上の文書データの増大に伴い,膨大なデータの中からユーザの求める文書を効率よく索き出す文書検索の重要性が高まっている.最近の文書検索では,ユーザの入力したクエリーと関連の高い文書の一部分を取り出して類似度を計算するパッセージレベルの検索が注目されている.パッセージ検索におけるパッセージとは,文書中でクエリーの内容と強く関連する内容を持つ連続した一部分のことを言う.パッセージ検索では,このパッセージをどのように決定するかが問題となる.良いパッセージを決定するためには,パッセージ自体が意味的なまとまりを形成し,パッセージの位置やサイズがクエリーや文書に応じて柔軟に設定される必要があると考えられる.本稿では,文書中の文脈情報である語彙的連鎖を利用し,クエリーと文書の適切な類似度を計算できるパッセージ決定手法について述べる.また,このパッセージを使用し,検索精度を向上させる検索手法について述べる.The importance of document retrieval systems which can retrieve relevant documents for user's needs is now increasing with the growing availability of full-text documents. The passage-level document retrieval has been received much attentions in the recent document retrieval task. The definition of a passage is considered as a sequent part of document which contain a relating content to a content of a query. In the passage retrieval, it is a problem how to decide the passages. It is considered that the passages which form meaning coherent units are effective in the improvement of the accuracy. Furthermore, it is also effective that the size and location of each passage is calculated flexibly with each query and document. In this paper we describe a definition of a passage calculation which can be able to calculate a similarity between each content of user's query and each part of document, using lexical chains which denote local document contexts. We also present a passage-level document retrieval method which improve the accuracy.
著者
村山 紀文 南野 朋之 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.41-47, 2004-07-15
参考文献数
9
被引用文献数
2

位置情報はWeb上の情報の組織化において有用な情報と考えられるが,現状では,陽に位置情報が明記されていないため,位置情報を利用できない場合が多い.しかし,店名などの固有名はそれ自体は位置情報を直接的に示すものではないが,位置情報と関連した固有名と考えることができる. これらの固有名に対し,位置情報をメタデータとして付与することが出来れば,その位置情報を利用することが出来る. 本研究では,そのようなメタデータ付与のために必要な,固有名と対応する位置情報のデータベースを,Web上の文書から自動的に作成する手法を示す. 本稿では特に,その最初のステップとして,固有名・住所・電話番号の三つ組をWeb上の文書から自動的に抽出する手法を示す.Location information in web pages is very useful to organize information in them. However, many web pages do not include apparent location information in themselves. Though named entities, such as names of stores, are not location information, we think those named entities are related to location information. If we can annotate location information to such named entities, we can use these pages with location information. Therefore, our goal is to extract meta data base for such named entities, that include their location information, telephone number and other information. In this paper, we present a method to automatically constract triples (named entity, its telephone number, its address) from the WWW as a first step of meta data base construction.
著者
高橋 和子 高村 大也 奥村 学
出版者
数理社会学会
雑誌
理論と方法 (ISSN:09131442)
巻号頁・発行日
vol.19, no.2, pp.177-195, 2004-09-30 (Released:2008-12-22)
参考文献数
31
被引用文献数
1

社会調査において基本的な属性である職業は、通常、調査票に選択肢として職業コードを提示せず、自由回答法を含む複数の質問により収集したものを分析者が総合的に判断しコードを付ける。これは職業コーディングとよばれ、データを統計処理するためには必須の作業である。しかし、判断の中心となるデータが自由回答であることや職業のカテゴリ数が多い(約200)ことなどから、自由回答の分類と同様に多大な労力と時間を要するという問題が存在する。また、コーディングの結果に一貫性が欠けやすいという問題がある点も同様である。これらの問題を解決するために、自然言語処理技術の適用により職業の定義を格フレームの形式によるルールとして記述し、自動的に職業コードを決定するシステムが開発された。ルールに基づくこのシステムは、ルールにマッチしない回答をうまく処理することができないという欠点をもつが、職業コーディングで用いられる知識のすべてをルールにするのは困難である。また、ルールセットやシソーラスの継続的なメンテナンスも手間がかかる。そこで、ルールを必要としない機械学習に注目し、特に文書分類の分野で最も分類性能が高いとされるサポートベクターマシン(SVM)を職業コーディングに適用した。JGSS(日本版General Social Surveys)データを用いた実験の結果、SVMによる方法はルールベース手法より正解率が高かった。本稿の目的は、職業コーディングの自動化に対して、ルールベース手法を適用する方法およびSVMを適用する方法を提案し、その有効性を示すことである。これら2つの方法は、職業データと類似する性質をもつ自由回答の分類にも拡張が可能である。
著者
久保田 敦 横野 光 高村 大也 奥村 学
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

本研究ではジャンル毎の特徴を用いた日本語テキストの文書校正手法を提案する。 提案手法では,既存手法で使用される文脈情報の特徴以外に,内容語に情報を付加 することで難易度や文体を考慮した校正を行う。 その結果,文脈情報のみでは解決できない訓練データに未出現の語に対する問題等に対して,付加した情報を用いて解決できることを示す。
著者
望月 源 本田 岳夫 奥村 学
雑誌
全国大会講演論文集
巻号頁・発行日
vol.51, pp.37-38, 1995-09-20
被引用文献数
2

語義曖昧性解消などに使用される代表的な機械可読の日本語シソーラスには、国立国語研究所の分類語彙表[4](以下、[分類])と、角川書店の角川類語新辞典[5](以下、[角川])が挙げられる。これらは人手により、異なる語彙分類基準で構築されている。本稿では我々の語彙的結束性[1]に基づいた語義曖昧性解消アルゴリズム[3]を両シソーラスそれぞれを用いて実装し、実際のテキストで曖昧性解消の実験を行なう。その結果から、語彙的結束性に基づく語義曖昧性解消の観点からシソーラスの比較を行なう。
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.22, pp.79-86, 2005-03-11
参考文献数
14
被引用文献数
1

単語の感情極性(望ましいか否か)を判定する方法を提案する。提案手法では、単語の感情極性をスピンの方向とみなし、語釈文によって構築された語彙ネットワークをスピン系でモデル化する。平均場近似を利用してスピン系の状態を近似的に求めることにより、単語の感情極性を判定する。また、系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する。英語と日本語で実験を行い、数語から十数語という少数の単語を種として、高い正解率で単語の感情極性判定が実現できることを示した。We propose a method for extracting semantic orientations of words:desirable or undersirable. Regarding semantic orientations as spins of electrons,we use the mean field approximation to compute the approximate probability function of the system instead of the intractable actual probability function. We also propose a criterion for parameter selection on the basis of magnetization. Given only a small number of seed words,the proposed method extracts semantic orientations with high accuracy in the experiments on English lexicon and Japanese lexicon. The result is comparable to the best value ever reported.
著者
難波 英嗣 国政 美伸 福島 志穂 相沢 輝昭 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.73, pp.67-74, 2005-07-22
被引用文献数
9

「日経平均株価」や「内閣支持率」のように数値が時間とともに常に変動するような情報のことを動向情報と呼ぶ。本稿では、動向情報の抽出を一種の複数文書要約であると考え、複数文書要約技術を用いて、あるトピックに関する複数の文書から動向情報を自動的に抽出し、グラフ化する手法について述べる。複数文書からの要約の作成は、様々な要素技術を組み合わせることで実現できる。こうした技術のひとつとして、我々は文書横断文間関係理論(CST)に着目する。CSTとは、Radevらが提唱している理論で、文書中の書く分の機能を特定し、文間の依存関係を特定する修辞構造理論(RST)を、文書間関係に拡張したものである。本研究では、CSTの一部を計算機上で実現し、それを用いてグラフ化に必要な数値情報と時間情報の抽出を行う。Trend information is defined as information obtained by synthesis and organization of temporal information such as cabinet approval ratings and stock movements. In this paper,we describe a method for visualizing trend information extracted from multiple documents. We focus on cross-dokument structure theory (CST) which Radev et al. proposed. The theory expands the notion of Rhetorical Structure Theory (RST) to the relationships between sentences in the different documents. We implement this theory partially,use it to extract trend information,and visualize it as a graph.
著者
奥村 敦史 齋藤豪 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.63-70, 2003-03-06
被引用文献数
5

感性を表す言語であるオノマトペ(擬音語・擬態語)は新語・造語が多く,既存の辞書には語彙が不足している.また,既存の自然言語処理用コーパスにもオノマトペはあまり出現しない.そこで本研究では,自動生成したオノマトペ候補語をクエリとしてWeb上のテキストを検索し,候補語を含む用例を取得することでこれをコーパスとみなす.次に得られたコーパスを解析し,候補語がオノマトペかどうかの判定を行う.オノマトペと判断された語については,係り受け解析結果の頻度情報などを利用し,その語義や用法を得る.最後に,複数の候補語の語義を照らし合わせて,語義間の距離を定義したオノマトペ概念辞書を構築する.Onomatopoeias which express sensibility include many new words and coined words, and the existing dictionaries are insufficient of their vocabularies. Furthermore, onomatopoeias seldom appear in the existing corpus for natural language processing. In this work, we generate candidate words of onomatopoeias automatically and search the text on the Web with a search engine using the candidates as a query. Therefore we can acquire a corpus containing examples of the candidates. Then, we process the corpus and judge whether each candidate is onomatopoeia or not. If a candidate is judged to be an onomatopoeia, we give its sense and usage from results of syntactic analysis, and construct a concept dictionary of onomatopoeias.
著者
富田 紘平 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.13-20, 2009-01-15
被引用文献数
2

重要文抽出と文圧縮を同時に行う新しい抽出的要約モデルを提案する.本手法は,重要文抽出に比べて表現能力が高いため,重要文抽出より適切な要約を出力することが期待できる.定式化には整数計画法を用いる.重要文抽出における過去の最も良い要約システムを,ROUGE-1 において大きく上回ることを確認した.We propose a novel extractive summarization model which performs sentence selection and compression at the same time. Because of its high expression ability, our model is expected to generate more appropriate summaries. Our model uses integer linear programming. Our model outperforms the previous best system on the ROUGE-1 metric.
著者
難波 英嗣 神門 典子 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.11, pp.2640-2649, 2001-11-15
被引用文献数
13

本稿では,論文間の参照・被参照関係,および参照の理由を考慮し,関連論文を 組織化する手法について述べる.これまで,引用分析研究の分野で,論文間の 参照・被参照関係に着目した関連論文を組織化する手法がいくつか提案されて きた.これらの手法はすべての参照を等価に扱っているが,実際には様々な参 照の理由が存在するため,既存の手法では必ずしも論文間の類似度を適切に評 価できない.そこで,本研究では2論文間で同一論文をともに参照しており,かつ それらの参照の理由が一致している結合のみを数えるという方法で,2論文間の 類似度を測る.この手法により,ノイズとなる結合を削減でき,また,従来の 引用分析手法と比べ,精度の向上が期待できる.提案手法の有効性を調べるた めに,実験を行った.実験では,提案手法,引用分析の代表的な手法である書 誌結合,語の共出現を用いたより一般的な組織化の手法(ベクトル空間型モデル) を,精度,フォールアウト,計算コストという3つの側面から比較した.その 結果,提案手法が精度,フォールアウトによる評価で最も優れ,また,計算コ ストの面でも十分に速い速度で論文を組織化できることが分かった.In this paper, we propose a method for classification of research papers using citation links and citation types that indicate the reasons for citations. Several methods has been proposed for classification of papers using citation links in citation analysis. However, most of them treats all citations equally. We therefore refine citation analysis by taking account of citation types. Our method measures similarity between papers by counting the couplings of the same citation types. We compared our method with bibliographic coupling that is a kind of citation analysis and some word-based approaches (vector space model) using precision, fallout, and computational cost. The results of our experiments showed that our method is more effective than other methods.
著者
徳田 昌晃 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.39, no.3, pp.542-550, 1998-03-15
被引用文献数
6

聴覚障害者が使う言葉である「手話」は日本語とは違う体系を持つ言語であり,日本語と手話間の機械翻訳システムは有用であると考える.しかし,日本語と手話間の機械翻訳を実現するためには手話の計算機上での扱いと手話の言語的な資源の貧弱さが問題となる.前者は手話が視覚的な言語であるために起こる問題であり,後者は十分な語彙数を持つ機械可読手話単語辞書が現在しないために起こる問題である.本研究では手話を文字列として表現する「手話表記法」を提案する.次に手話単語辞書の語彙の少なさを補うために,日本語辞書を利用して類似語を獲得し,不足している手話単語を補う手法を提案する.これらの手法をもとに日本語から手話への機械翻訳システムを試作し,有効性を検討した.その結果,日本語ニュース文を入力した場合に約83%の形態素が手話単語に変換できることが分かった.While Sign Language is widely used in the community of deafs,it is noted that the syntax and expression of Sign Language and Japanese are so different and then the Sign Language-Japanese machine translation(MT)is in demand.However,there are two main problems in realizing the Sign Language-Japanese MT.One is how to represent Sign Language which is not a literary style language.The other problem is there are very few entries in current Sign Language dictionaries.To solve these problems,we propose a Sign Language description method and a complement method to deal with input words which do not exist in a Sign Language dictionary.The system finds a similar word from a Japanese dictionary and converts it to a similar Sign Language word.Finally,we implement a prototype MT system based on this method and evaluate it using Jananese News sentences.The experiment result shows that the system succeeds in translation with the rate of nearly 83% for Japanese news sentences.
著者
難波 英嗣 国政 美伸 福島 志穂 相沢 輝昭 奥村 学
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.105, no.203, pp.67-74, 2005-07-15

「日経平均株価」や「内閣支持率」のように数値が時間とともに常に変動するような情報のことを動向情報と呼ぶ.本稿では, 動向情報の抽出を一種の複数文書要約であると考え, 複数文書要約技術を用いて, あるトピックに関する複数の文書から動向情報を自動的に抽出し, グラフ化する手法について述べる.複数文書からの要約の作成は, 様々な要素技術を組み合わせることで実現できる.こうした技術のひとつとして, 我々は文書横断文間関係理論(CST)に着目する.CSTとは, Radevらが提唱している理論で, 文書中の各文の機能を特定し, 文間の依存関係を特定する修辞構造理論(RST)を, 文書間関係に拡張したものである.本研究では, CSTの一部を計算機上で実現し, それを用いてグラフ化に必要な数値情報と時間情報の抽出を行う.
著者
望月 源 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.86, pp.17-24, 2000-09-21
被引用文献数
4

本研究では,genericでinformativeな要約の作成を目指し,「指定された要約率の範囲で,元のテキストの情報をできる限り含めること」と「作成された要約が文章として自然で読みやすいこと」の実現のための重要個所抽出による要約作成を行なう.本稿では,重要個所抽出の際に,構文情報と語彙的結束性の情報を考慮して,同じ内容を表わす語の繰り返しによる冗長性を抑える手法,文としての意味を維持するために必要な他の部分を補完する手法,内容的に一貫性のある読みやすい要約を作成する手法について述べる.また,指定された要約率の範囲で内容がどの程度保持できているかを人間による重要個所抽出型要約との比較で評価する.In this research, we aim to develop a summarization system which is capable of making an informative and generic summary. We require the system to have two abilities; to include as much information as possible on the original text in the summary of the specified rate, and to produce natural sentences with higher readability which can be exchanged for the original text. We adopted the method of extracting important parts of sentences for our first summarization system. Since important parts are smaller than important sentences, it can be considered that a fine-grained summary can be produced by using these parts. In this paper, we describe an automatic summarization method of extracting important parts which result in an improvement of readability and an exclusion of redundancy. We also make a content-based summary comparison by measuring the similarities between the summaries extracted by some automatic summarization methods and those extracted by human subjects.