著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.2, pp.627-637, 2006-02-15
参考文献数
26
被引用文献数
16

単語の感情極性(望ましいか否か)を判定する方法を提案する.提案手法では,単語の感情極性を電子のスピンの方向と見なし,語釈文,シソーラス,コーパスによって構築された語彙ネットワークをスピン系でモデル化する.平均場近似を利用してスピン系の状態を近似的に求めることにより,単語の感情極性を判定する.また,系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する.提案手法を用いてWordNet に収録されている語彙に対して実験を行い,14 語という少数の単語を種とした場合は約80%の正解率で,3 000We propose a method for extracting semantic orientations of words: desirable or undesirable. We construct a lexical network out of glosses in a dictionary, a thesaurus and a corpus. Regarding semantic orientations of words on the network as spins of elect
著者
吉田 光男 乾 孝司 山本 幹雄
巻号頁・発行日
2010-02

Web 2.0 はWeb 上における情報の双方向性を強化し,新たなWeb サービスを生み出した.そのWeb サービスの一種としてTwitter をはじめとするマイクロブロギング・サービスが挙げられる.マイクロブロギング・サービスはオンライン・ソーシャル・ネットワーキング・サービスの一種であり,個人の情報プラットフォームとして機能する.本論文では,代表的なマイクロブロギング・サービスであるTwitter のリンクを含むつぶやきに着目し,その特徴を調査した.その結果,人間による投稿とボットによる投稿では投稿文字列長に顕著な差があること,ユニークユーザ数の多いニュースサイトがTwitter ではあまり注目されていないことなどが明らかになった.
著者
乾 孝司 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.3, pp.201-241, 2006-07-10 (Released:2011-03-01)
参考文献数
122
被引用文献数
13 28

インターネットが普及し, 一般の個人が手軽に情報発信できる環境が整ってきている. この個人の発信する情報には, ある対象に関するその人の評価等, 個人の意見が多く記述される.これらの評価情報を抽出し, 整理し, 提示することは, 対象の提供者である企業や, 対象を利用する立場の一般の人々双方にとって利点となる.このため, 自然言語処理の分野では, 近年急速に評価情報を扱う研究が活発化している.本論文では, このような現状の中, テキストから評価情報を発見, 抽出および整理, 集約する技術について, その基盤となる研究から最近の研究までを概説する.
著者
高村 大也 乾 孝司 奥村 学
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.2, pp.627-637, 2006-02-15

単語の感情極性(望ましいか否か)を判定する方法を提案する.提案手法では,単語の感情極性を電子のスピンの方向と見なし,語釈文,シソーラス,コーパスによって構築された語彙ネットワークをスピン系でモデル化する.平均場近似を利用してスピン系の状態を近似的に求めることにより,単語の感情極性を判定する.また,系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する.提案手法を用いてWordNet に収録されている語彙に対して実験を行い,14 語という少数の単語を種とした場合は約80%の正解率で,3 000
著者
乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.1, pp.1-2, 2014-03-14 (Released:2014-06-14)
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.11, pp.3021-3031, 2006-11-15
参考文献数
23
被引用文献数
5

複数語から成る評価表現のモデルおよびそれに基づいた分類手法を提案する.複数語から成る評価表現の感情極性は,その構成語の感情極性を単純に足し合わせるだけでは算出できないことが多い.極性の出現や反転が頻繁に起こる.そのような複数語表現の特性に対応するために,我々はモデルに隠れ変数を導入する.実験により,提案した隠れ変数モデルは複数語から成る評価表現分類において,約82%という高い分類正解率を得ることに成功した.We propose models for semantic orientations of phrases as well as classification methods based on the models. Although each phrase consists of multiple words, the semantic orientation of the phrase is not a mere sum of the orientations of the component words. Some words can invert the orientation. In order to capture the property of such phrases, we introduce latent variables into the models. Through experiments, we show that the proposed latent variable models work well in the classification of semantic orientations of phrases and achieved nearly 82% classification accuracy.
著者
吉田 光男 乾 孝司 山本 幹雄
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:03875806)
巻号頁・発行日
vol.54, no.12, pp.2502-2512, 2013-12

ブログページには,Web検索エンジンなど機械的にページを処理するシステムにおいてノイズになる部分が含まれる.そのため,ブログのコンテンツを利用するためには,コンテンツの抽出処理が必要になる.さらに,ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読み手によるコンテンツに二分できる.ポストとコメントの存在はブログの特性の1つであり,ブログの特性を活用するシステムや研究では,ポストおよびコメントを別々に抽出できていることが望ましい.本論文では,ブログページ集合を用いることにより,ポストとコメントを自動的に分離抽出する手法を提案する.複数のブログ記事ページを含むあるブログサイトにおいて,ポストはすべての記事ページに出現するが,コメントはいずれかの記事ページにしか出現しないという点に着目し考案した.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を検証し,コンテンツをポストおよびコメントに分離できることを確認した.Content extraction is necessary to use blogs as data for Web search engines, because blog pages are excessively added noisy parts such as menus, advertisements and copyright notices. Most of the blog contents are texts, and those can be divided in two parts, posts and comments. A post is a content written by the blog owner and a comment is piece of text written by readers in response to the owner's post. In this paper, we propose a simple method to extract the posts and comments separately from series of blog pages, whose posts are all written by the same owner. The proposed method is based on the assumption that although posts appear in all blog pages, comments do not. We describe experimental results to show good performance of the proposed method using real Web pages of the blog sites in Japanese.
著者
橋本 泰一 村上 浩司 乾 孝司 内海 和夫 石川 正道
出版者
社会技術研究会
雑誌
社会技術研究論文集 (ISSN:13490184)
巻号頁・発行日
vol.5, pp.216-226, 2008 (Released:2009-07-15)
参考文献数
18
被引用文献数
2 3

自然言語処理技術を応用し,分析対象となる新聞記事を取得して,記事を自動的に分類し,トピックとなる社会事象を抽出,さらにはトピックを構造化して課題の発見に至る手続きを可能とする手法を開発した.この手法によれば,多数のトピックを含む文書集合に対して階層的クラスタリングを施し,クラスタ間の語彙使用の類似性に基づく構造化を行い,個々のクラスタについてこれを要約するキーワードおよび関係する主体(組織名)を自動抽出することによって内容を効率的かつ経済的に俯瞰できることを示した.本論文では,産業活動に伴う事故・災害に関する社会の課題発見を事例として,これらのテキストマイニング技術を統合した社会変化の定量的分析手法の有効性について検証した.
著者
野呂 太一 乾 孝司 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.10, pp.3405-3414, 2007-10-15
参考文献数
14
被引用文献数
2

本論文では,ブログテキスト中に記述されたイベントが,実世界において朝,昼,夕,夜のどの時間帯で生起したかを自動判定するアルゴリズムを提案する.生起時間帯を判定する直接的な情報として,「午後3 時に~した」等の明示的な時間表現が考えられるが,ブログテキストでは,明示的な時間表現が現れにくい.そこで,本研究では,明示的な時間表現の代わりに,イベントの生起時間帯を連想させる語(「出勤」,「花火」等)の情報を利用する.イベントの生起時間帯を連想させる語集合を人手のみで収集することは表現の多さから現実的にほぼ不可能な作業である.そのため,提案手法では,ブートストラップ的に,イベントの生起時間帯の学習と並行して同時に,イベントの生起時間帯を連想させる語を自動獲得する.We propose a machine learning-based method for identifying when each event in weblog texts occurs: morning, daytime, evening, or night. Earlier study analyzed only explicit temporal expressions for events and mapped them on time-line in newswire texts. However, other texts such as weblogs contain few explicit temporal expressions. We therefore use various implicit temporal expressions extracted automatically. Specifically, we adopt naive bayes classifiers backed up with the EM algorithm, and support vector machines.
著者
浦澤 合 関根 裕人 乾 孝司 岩倉 友哉
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1N4J903, 2019 (Released:2019-06-01)

本論文は化学化合物抽出におけるサブワード系列の有効性を調査する.5種類のサブワード分割方法(SYMBOL,SP,BPE,BPE-DICT,BPE-PMI)を用いて調査を行った.この内,BPE-DICTとBPE-PMIは今回新たに提案する手法であり,BPE-DICTとは辞書制約付きのBPE,BPE-PMIとは通常のBPEが語の出現頻度を用いる箇所をPointwise Mutual Information(PMI)に置き換えたBPEである.実験結果よりサブワード系列が抽出性能を向上させることを示した.本論文で行った全ての実験結果ではBPE-DICTのF値86.74が最も良い結果となった.
著者
新納 浩幸 村田 真樹 白井 清昭 福本 文代 藤田 早苗 佐々木 稔 古宮 嘉那子 乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.319-362, 2015

語義曖昧性解消の誤り分析を行う場合,まずどのような原因からその誤りが生じているかを調べ,誤りの原因を分類しておくことが一般的である.この分類のために,分析対象データに対して分析者 7 人が独自に設定した誤り原因のタイプを付与したが,各自の分析結果はかなり異なり,それらを議論によって統合することは負荷の高い作業であった.そこでクラスタリングを利用してある程度機械的にそれらを統合することを試み,最終的に 9 種類の誤り原因として統合した.この 9 種類の中の主要な 3 つの誤り原因により,語義曖昧性解消の誤りの 9 割が生じていることが判明した.またタイプ分類間の類似度を定義することで,統合した誤り原因のタイプ分類が,各自の分析結果を代表していることを示した.また統合した誤り原因のタイプ分類と各自の誤り原因のタイプ分類を比較し,ここで得られた誤り原因のタイプ分類が標準的であることも示した.
著者
吉田 光男 乾 孝司 山本 幹雄
雑誌
楽天研究開発シンポジウム論文集
巻号頁・発行日
vol.2009, pp.7-10, 2009-11

近年のWeb ページの増加により,Web ページのコンテンツを利用するサービスや研究が盛んになってきている.本論文では,Web ページ集合を用いる事により,CSS セレクタで表現されたコンテンツ抽出ルールを自動的に獲得する手法を提案する.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対して適切な抽出ルールが獲得できた事を示す.
著者
藤井 敦 乾 孝司
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.30-31, 2015-12-15

ソーシャルメディア時代のいま,誰もが物事に対する自分の評価や意見を容易に発信でき,インターネット上には大量のレビューが日々蓄積されるようになった.これに伴い,レビューを自動解析するための自然言語処理技術の開発も進んでいる.本稿では,自然言語処理技術のエラー分析プロジェクト「Project Next NLP」でのレビュー解析班の活動紹介を通して,レビュー解析タスクの概要および現状の問題点について述べる.
著者
吉田 光男 乾 孝司 山本 幹雄
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.12, pp.2502-2512, 2013-12-15

ブログページには,Web検索エンジンなど機械的にページを処理するシステムにおいてノイズになる部分が含まれる.そのため,ブログのコンテンツを利用するためには,コンテンツの抽出処理が必要になる.さらに,ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読み手によるコンテンツに二分できる.ポストとコメントの存在はブログの特性の1つであり,ブログの特性を活用するシステムや研究では,ポストおよびコメントを別々に抽出できていることが望ましい.本論文では,ブログページ集合を用いることにより,ポストとコメントを自動的に分離抽出する手法を提案する.複数のブログ記事ページを含むあるブログサイトにおいて,ポストはすべての記事ページに出現するが,コメントはいずれかの記事ページにしか出現しないという点に着目し考案した.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を検証し,コンテンツをポストおよびコメントに分離できることを確認した.
著者
吉田 光男 乾 孝司 山本 幹雄
出版者
情報処理学会
雑誌
情報処理学会研究報告. データベース・システム研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2009-DBS-149, no.20, pp.1-8, 2009-11

近年のブログの普及により,ブログのコンテンツを利用するサービスや研究が盛んになってきている.ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読者によるコンテンツに大分する事ができる.ブログのコンテンツを利用する場合は,それらが別々に抽出できている事が望ましい.本論文では,ブログ記事集合を用いる事により,ポストとコメントを自動的に分離抽出する手法を提案する.本手法は,ポストはブログ記事集合全てのブログ記事に出現するが,コメントはいずれかのブログ記事にしか出現しないというアイデアが基になっている.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を示す.
著者
吉田 光男 乾 孝司 山本 幹雄
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2009-DBS-149, no.20, pp.1-8, 2009-11-13

近年のブログの普及により,ブログのコンテンツを利用するサービスや研究が盛んになってきている.ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読者によるコンテンツに大分する事ができる.ブログのコンテンツを利用する場合は,それらが別々に抽出できている事が望ましい.本論文では,ブログ記事集合を用いる事により,ポストとコメントを自動的に分離抽出する手法を提案する.本手法は,ポストはブログ記事集合全てのブログ記事に出現するが,コメントはいずれかのブログ記事にしか出現しないというアイデアが基になっている.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を示す.
著者
渡辺 尚吾 乾 孝司 山本 幹雄
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

我々は,一般のオープンなウェブ空間,特にブログ空間内のデータから, レビューサイトと同様な内容,すなわち商品ごとに構造化されたレビュー情報を自動抽出する研究を行っている.今回は,ブログ記事と商品を紐付けするために,言語処理技術によって,ブログ記事から商品を表す表現を自動抽出する手法を提案する.提案手法では,商品のカテゴリ情報を利用することで,機械学習に必要な教師データを自動収集し,学習に用いる.
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.22, pp.79-86, 2005-03-11
参考文献数
14
被引用文献数
1

単語の感情極性(望ましいか否か)を判定する方法を提案する。提案手法では、単語の感情極性をスピンの方向とみなし、語釈文によって構築された語彙ネットワークをスピン系でモデル化する。平均場近似を利用してスピン系の状態を近似的に求めることにより、単語の感情極性を判定する。また、系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する。英語と日本語で実験を行い、数語から十数語という少数の単語を種として、高い正解率で単語の感情極性判定が実現できることを示した。We propose a method for extracting semantic orientations of words:desirable or undersirable. Regarding semantic orientations as spins of electrons,we use the mean field approximation to compute the approximate probability function of the system instead of the intractable actual probability function. We also propose a criterion for parameter selection on the basis of magnetization. Given only a small number of seed words,the proposed method extracts semantic orientations with high accuracy in the experiments on English lexicon and Japanese lexicon. The result is comparable to the best value ever reported.
著者
乾 孝司 村上 浩司 橋本 泰一 内海 和夫 石川 正道
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.469-479, 2009 (Released:2009-08-07)
参考文献数
28
被引用文献数
1

This paper presents a method for boosting the performance of the organization name recognition, which is a part of named entity recognition (NER). Although gazetteers (lists of the NEs) have been known as one of the effective features for supervised machine learning approaches on the NER task, the previous methods which have applied the gazetteers to the NER were very simple. The gazetteers have been used just for searching the exact matches between input text and NEs included in them. The proposed method generates regular expression rules from gazetteers, and, with these rules, it can realize a high-coverage searches based on looser matches between input text and NEs. To generate these rules, we focus on the two well-known characteristics of NE expressions; 1) most of NE expressions can be divided into two parts, class-reference part and instance-reference part, 2) for most of NE expressions the class-reference parts are located at the suffix position of them. A pattern mining algorithm runs on the set of NEs in the gazetteers, and some frequent word sequences from which NEs are constructed are found. Then, we employ only word sequences which have the class-reference part at the suffix position as suffix rules. Experimental results showed that our proposed method improved the performance of the organization name recognition, and achieved the 84.58 F-value for evaluation data.