著者
Akisato KIMURA Kevin DUH Tsutomu HIRAO Katsuhiko ISHIGURO Tomoharu IWATA Albert AU YEUNG
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
IEICE TRANSACTIONS on Information and Systems (ISSN:09168532)
巻号頁・発行日
vol.E97-D, no.6, pp.1557-1566, 2014-06-01

Social media such as microblogs have become so pervasive such that it is now possible to use them as sensors for real-world events and memes. While much recent research has focused on developing automatic methods for filtering and summarizing these data streams, we explore a different trend called social curation. In contrast to automatic methods, social curation is characterized as a human-in-the-loop and sometimes crowd-sourced mechanism for exploiting social media as sensors. Although social curation web services like Togetter, Naver Matome and Storify are gaining popularity, little academic research has studied the phenomenon. In this paper, our goal is to investigate the phenomenon and potential of this new field of social curation. First, we perform an in-depth analysis of a large corpus of curated microblog data. We seek to understand why and how people participate in this laborious curation process. We then explore new ways in which information retrieval and machine learning technologies can be used to assist curators. In particular, we propose a novel method based on a learning-to-rank framework that increases the curator's productivity and breadth of perspective by suggesting which novel microblogs should be added to the curated content.
著者
林 克彦 塚田 元 須藤 克仁 Kevin Duh 山本 誠一
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2010-NL-196, no.1, pp.1-7, 2010-05-20

階層句機械翻訳では言語間の大局的な単語並び換わりを同期文脈自由文法によって表現することができるが,日英のような文法の大きく異なる言語間の翻訳ではその単語並び換わりを評価するためのモデルが充分であるとは言えない.本稿では階層句機械翻訳におけるこの問題を解決するために単語並び換えモデルを特徴量に導入することを提案する.提案手法では同期文脈自由文法の各ルールに並び換えされた原言語の文字列を追加することで,探索中の単語並び換えモデルの計算を効率良く行っている.日英旅行会話データを用いた実験では従来手法に比べ,提案手法の方がより適切な単語並びの翻訳結果を選択することができ,より高い翻訳精度を達成することができた.
著者
藤田 早苗 Kevin Duh 藤野 昭典 平 博順 進藤 裕之
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.3, pp.273-291, 2011 (Released:2011-10-04)
参考文献数
26
被引用文献数
1

本稿では,訓練データの自動拡張による語義曖昧性解消の精度向上方法について述べる.評価対象として,SemEval-2010 日本語語義曖昧性解消タスクを利用した.本稿では,まず,配布された訓練データのみを利用して学習した場合の結果を紹介する.更に,辞書の例文,配布データ以外のセンスバンク,ラベルなしコーパスなど,さまざまなコーパスを利用して,訓練データの自動拡張を試みた結果を紹介する.本稿では,訓練データの自動獲得により 79.5% の精度を得ることができた.更に,対象語の難易度に基づき,追加する訓練データの上限を制御したところ,最高 80.0% の精度を得ることができた.