著者
隅田 飛鳥 吉永 直樹 鳥澤 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_3-3_24, 2009 (Released:2011-09-01)
参考文献数
21
被引用文献数
2 6 12

本稿では,Wikipedia の記事構造を知識源として,高精度で大量の上位下位関係を自動獲得する手法について述べる.上位下位関係は情報検索や Web ディレクトリなど,膨大な Web 文書へのアクセスを容易にする様々な技術への応用が期待されており,これまでにも様々な上位下位関係の抽出手法が開発されてきた.本稿では,Wikipedia の記事構造に含まれる節や箇条書きの見出しから,大量の上位下位関係候補を抽出し,機械学習を用いてフィルタリングすることで高精度の上位下位関係を獲得する手法を開発した.実験では,2007 年 3 月の日本語版 Wikipedia 2.2 GB から,約 77 万語を含む約 135 万対の上位下位関係を精度 90% で獲得することができた.
著者
長谷川 貴之 鍜治 伸裕 吉永 直樹 豊田 正史
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.29, no.1, pp.90-99, 2014
被引用文献数
1

While there have been many attempts to estimate the emotion of a speaker from her/his utterance, few studies have explored how her/his utterance affects the emotion of the listener. This has motivated us to investigate two novel tasks: predicting the emotion of the listener and generating a response that evokes a specific emotion in the listeners mind. We target Japanese Twitter posts as a source of dialogue data and automatically build training data for learning the predictors and generators. The feasibility of our approaches is assessed by using 1099 utterance-response pairs that are built by five human workers.
著者
村本 英明 鍜治 伸裕 吉永 直樹 喜連川 優
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3338-3348, 2011-12-15

近年のWeb上のCGM拡大により,社会分析やマーケティングの対象としてWebテキストに大きな注目が集まっている.そうしたテキストから有用な情報を抽出するためには,多義語の意味を正確に区別する処理(語義曖昧性解消)が非常に重要となる.しかし,訓練事例や辞書といった,語義曖昧性解消に必要な言語資源の構築には大きな作業コストが発生することから,高い精度で語義曖昧性解消を行うことは依然として実現困難となっている.特に,Webテキストのように多様な話題を含んだテキストを対象とする場合,この問題はいっそう深刻なものとなる.この問題の解決を図るため,本論文では,既存のWeb資源を活用することによって,語義曖昧性解消に必要な言語資源を半自動的に構築するための方法を提案する.実験においては,WikipediaとWebテキストに対して提案手法を適用することによって,実際に大規模な言語知識が構築可能であることを確認した.また,それらの言語資源をもとに語義曖昧性解消システムを構築し,その性能についても調査を行った.With the recent advent of consumer generated media (CGM) on the Web, the textual data on the Web has been given much attention as a target of social analysis or marketing. To extract useful information from such texts, it is crucial to precisely distinguish meanings of polysemous words (i.e., word sense disambiguation or WSD). However, due to the tremendous labor required to build a large amount of linguistic resources for WSD (e.g., training examples or dictionaries), it is still hard to perform WSD with enough accuracy. This is especially problematic in dealing with Web texts, which contains much more diverse topics than conventional news articles. To overcome this, we present a semi-automatic approach to building those linguistic resources from existing Web data. Our experiments confirmed that the proposed method is indeed able to build much larger linguistic resources than existenting ones. We also investigated the performance of WSD systems learned from those linguistic resources.