著者
乾 健太郎 脇川 浩和
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.62, pp.87-94, 1999-07-22
被引用文献数
2

近年,信頼性の高い品詞・構文タグつきコーパスに対する需要の増大にともなって,コーパスを共有・再利用することの重要性がますます大きくなっている.しかし,既存のタグつきコーパスでは基礎とする品詞体系が統一されておらず,そのことが共有・再利用の障害となっている.このような背景から本稿では,既存のコーパスの品詞・構文タグを別の品詞体系に基づく品詞・構文タグに変換するアルゴリズムについて論じる.本稿で提案する手法では,ターゲット側品詞体系に基づく文法・辞書でコーパスを形態素・構文解析することによって半自動的にタグ付けを行う.このとき生じる曖昧性は,ソース側タグ情報を最大限に利用することによって高い精度で解消することができる.The problems in reusing the POS-tag information of an existing corpus are in the gap between different tag sets; corpora are annotated in terms of different tag sets. While the recent efforts for standardizing tags are important, we still need to explore techniques for the (semi-)automatic conversion between different tag sets in order to maximally reuse the existing tagged corpora. This paper presents an NLP-based method for the conversion between Japanese POS-tag sets, and reports the results of our preliminary experiment.
著者
乾 健太郎 脇川 浩和
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.99, no.228, pp.31-38, 1999-07-23

近年, 信頼性の高い品詞・構文タグつきコーパスに対する需要の増大にともなって, コーパスを共有・再利用することの重要性がますます大きくなっている. しかし, 既存のタグつきコーパスでは基礎とする品詞体系が統一されておらず, そのことが共有・再利用の障害となっている. このような背景から本稿では, 既存のコーパスの品詞・構文タグを別の品詞体系に基づく品詞・構文タブに変換するアルゴリズムについて論じる. 本稿で提案する手法では, ターゲット側品詞体系に基づく文法・辞書でコーパスを形態素・構文解析することによって半自動的にタグ付けを行う. このとき生じる曖昧性は, ソース側タグ情報を最大限に利用することによって高い精度で解消することができる.