著者
佐藤 敏紀 橋本 泰一 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-229, no.15, pp.1-14, 2016-12-14

SNS やニュース記事で発見される新語や未知語の継続的な採録は,分かち書き用の辞書を作成して更新する際の課題のひとつである.我々は,固有名詞や複合語に対する高い網羅性と分かち書き精度を実現し続ける際に,コーパスではなく辞書として言語資源を追加することを選択した.そして,形態素より長い固有名詞や複合語を単一の見出し語として分かち書きし,品詞情報や読み仮名などを付与できる辞書を生成するためのシステムを構築した.さらに辞書生成システムを運用して短い周期での更新を長期間継続した.我々は,形態素より長い固有名詞や複合語を一語として分かち書きすること,及び,辞書生成システムを運用して短い周期で更新することの各効果を,ニュース記事を複数のカテゴリに分類する実験を通じて確認した.
著者
佐藤 敏紀 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.7-14, 2007-09-25
被引用文献数
7

本稿では日本語の比較表現に対する知見から得られたルールと 構文情報とセンタリング理論を用いることで blog 記事中に含まれる比較表現から比較関係を抽出する手法を提案する.比較関係は〈対象 基準 属性 評価〉の4つ組 または属性が非明示な〈対象 基準 評価〉の3つ組で構成される.提案手法では4つ組と3つ組の両者の抽出を試みる.提案手法ではこれらの組を抽出する.比較関係は構成する要素が全て単文中に存在する場合と複数文にまたがって存在する場合がある.提案手法は両方の場合に対応する.実験により提案手法は blog 記事中の単文または複数文にまたがる比較表現から比較関係の4つ組を高い精度で抽出できることがわかった.In this paper, we propose a new method for extracting comparative relations from comparative expressions in Japanese Weblogs. A comparative relation is expressed with <object, criteria, attribute, evaluation>, or <object, criteria, evaluation> when the attribute is not explicitly shown. Our proposed method extracts relations of both types. We can observe the fact that all elements of a comparative relation are in a simple sentence or range over multiple sentences. Our proposed method can apply to both cases. Experimental results show that our proposed method can extract the comparative relation with high precision.