- 著者
-
小木曽 智信
中村 壮範
- 出版者
- 一般社団法人 言語処理学会
- 雑誌
- 自然言語処理 (ISSN:13407619)
- 巻号頁・発行日
- vol.21, no.2, pp.301-332, 2014-04-18 (Released:2014-07-17)
- 参考文献数
- 12
『現代日本語書き言葉均衡コーパス』は1億語を超える大規模なコーパスであり,17 万ファイル以上の XML 文書に短単位・長単位の形態論情報アノテーションが施されている.このコーパスの構築を目的としてアノテーションのためのシステムが開発された.このシステムは,辞書見出しデータベースと,タグ付けされたコーパスとを関連付けて,整合性を保ちつつ多くの作業者が編集していくことを可能にするものである.このシステムは,関係データベースで構築されたサーバ「形態論情報データベース」と,辞書を参照しながらコーパスの修正作業を可能にするコーパス修正用のクライアントツール「大納言」,形態素解析辞書 UniDic の見出し語の管理ツール「UniDic Explorer」から成る.本稿はこのデータベースシステムの設計・実装・運用について論ずる.