著者
松本 裕治 浅原 正幸 岩立 将和 森田 敏生
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.18, pp.1-6, 2010-11-11
被引用文献数
1

科研費領域研究研究 「日本語コーパス」 の一環として開発してきたコーパス管理ツール 「茶器」 の機能と現状について報告する.茶器は,形態素解析 (品詞情報),係り受け解析のアノテーション (注釈) が付与されたコーパスを格納し,様々な検索,検索結果や統計情報の表示,注釈誤りの修正などの機能をもつツールであり,注釈付きコーパスの格納,検索,作成,修正のための環境を提供する.主な機能は,文字列,形態素列,文節係り受け構造などを指定したコーパスの検索と,検索結果の KWIC 表示と係り受け木の表示,種々の統計情報の表示,注釈付けエラーの修正などである.現在は,茶筌/ MeCab による形態素解析,南瓜による係り受け解析結果をデータベースに取り込む機能を提供するが,特に言語には依存せず,任意の言語の品詞/依存構造注釈付きコーパスを扱うことができる.This paper introduces a annotated corpus management system ChaKi that has been developed under the auspices of the Japanese Corpus Project (Grantin-Aid for Scientific Research in Priority Areas). The system handles morphologican and dependency structure annotated corpora and facilitates various functions such as storing, retrieving, creating and error-correcting annotated corpora. String, word and dependency structure based corpus retrievals are possible, and the results are shown as KWIC format or as dependency trees. While the current system transfers corpora with the ChaSen/MeCab or CaboCha output format into databases, it is language independent and can be applied flexibly to any POS/dependency structure annotated corpora.