著者
小木曽 智信
雑誌
じんもんこん2012論文集
巻号頁・発行日
vol.2012, no.7, pp.25-32, 2012-11-10

旧仮名遣いで書かれた口語文のテキストを形態素解析する場合、既存の形態素解析辞書では不十分な点があった。発表者は既存の形態素解析辞書UniDicをベースに見出し語の追加やコストの再学習を行い、旧仮名遣いの口語文を解析するのに適した新しいUniDicを開発した。本稿では、この旧仮名遣いの口語文を対象とした形態素解析辞書の作成方法とその解析精度について述べる。
著者
小木曽 智信
出版者
日本語学会
雑誌
日本語の研究 (ISSN:13495119)
巻号頁・発行日
vol.9, no.4, pp.49-62, 2013-10-01

古典語研究の精密化・高度化のためには単語の情報が付いたコーパスが必要とされる。そうしたコーパスの構築のためにはコンピューターによる古典語の形態素解析(自動品詞分解)が必要だが,従来,古典語の形態素解析は困難であるとされていた。こうした中で,筆者らは,既存の解析器と組み合わせて実用的な解析を可能にする電子辞書「中古和文UniDic」を新たに開発した。この辞書は,統計的機械学習の手法に基づき,電子化辞書UniDicの見出し語を拡充し,手本となる単語情報つきの古典語コーパスを作成することで開発された。これにより,平安時代の仮名文学作品について約97%(辞書への未登録語が存在する場合は約96%)の精度で正しく解析することが可能になった。この辞書による解析結果を用いることで,従来は不可能だった用例検索や統計的手法にもとづく新しい古典語研究が可能になった。UniDicは短単位という揺れの少ない斉一な単位を採用しているため,作品や時代を超えて解析結果を比較することができる。中古和文UniDicは無償で一般公開されており,国語研究所の「日本語歴史コーパス 平安時代編」の構築に利用されている。
著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.Raw historical texts often include mark-lacking characters, which lack compulsory voiced consonant mark. Since mark-lacking characters degrade readability and retrievability, voiced consonant marks are annotated when creating historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical texts. In this paper, we propose an approach to automatic labeling of voiced consonant marks for mark-lacking characters. We formulate the task into a character-based classification problem. Since our method uses as its feature set only surface information about the surrounding characters, we do not require corpus annotated with word boundaries and POS-tags for training. We exploited large data sets and achieved 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo.
著者
片山 久留美 小木曽 智信 中村 壮範
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.89-96, 2018-11-24

国立国語研究所で構築中の『日本語歴史コーパス』に『室町時代編Ⅱキリシタン資料』として『天草版平家物語』『天草版伊曽保物語』の2作品が追加された.これらの資料は原本がポルトガル式ローマ字により表記されており,当時の発音を知ることができる資料として日本語研究上重要な位置を占める.コーパス化にあたっては,ローマ字テキストと和文テキストを用意し両者をアラインメントにより対応付けることで二つのテキストを同時に参照可能にした.その際,仮の和文テキストを作成して形態素解析を行い,付与された形態論情報を利用することによって,均質性の高い独自の和文テキストを自動で出力したほか,ローマ字テキストと和文テキストのアラインメント作業も効率よく行うことが可能となった.
著者
小木曽 智信 中村 壮範
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.301-332, 2014-04-18 (Released:2014-07-17)
参考文献数
12

『現代日本語書き言葉均衡コーパス』は1億語を超える大規模なコーパスであり,17 万ファイル以上の XML 文書に短単位・長単位の形態論情報アノテーションが施されている.このコーパスの構築を目的としてアノテーションのためのシステムが開発された.このシステムは,辞書見出しデータベースと,タグ付けされたコーパスとを関連付けて,整合性を保ちつつ多くの作業者が編集していくことを可能にするものである.このシステムは,関係データベースで構築されたサーバ「形態論情報データベース」と,辞書を参照しながらコーパスの修正作業を可能にするコーパス修正用のクライアントツール「大納言」,形態素解析辞書 UniDic の見出し語の管理ツール「UniDic Explorer」から成る.本稿はこのデータベースシステムの設計・実装・運用について論ずる.
著者
堤 智昭 小木曽 智信
雑誌
じんもんこん2015論文集
巻号頁・発行日
vol.2015, pp.179-184, 2015-12-12

近代文語 UniDic や中古和文 UniDic の登場により,近代以前の歴史的な日本語資料に対しても形態 素解析が可能となった.しかし,近代以前の現存する日本語資料は時代幅があり,ジャンルも多岐に わたる.そのため,資料ごとに文法・単語が適した辞書を用いて形態素解析を行う必要がある.日本 語研究者が形態素解析技術を用いた研究に取り掛かるには,煩雑な形態素解析実行環境の用意と辞書 を切り替えた解析作業が必要となり,その難易度が研究推進の妨げとなっている.そこで本研究では, 形態素解析を用いた言語研究の支援を目的とし,煩雑な計算機における形態素解析実行環境の用意を 必要とせず,容易に複数の辞書を切り替えて形態素解析が可能な形態素解析サポートソフトウェア, Web 茶まめの開発を行った.
著者
小木曽 智信 小椋 秀樹 田中 牧郎 近藤 明日子 伝 康晴
出版者
情報処理学会
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.4, pp.1-8, 2010-01-30

現在開発を行っている「中古和文UniDic」を紹介する.これは平安時代の仮名文学作品を典型とする和文系の資料を対象とする形態素解析辞書であり,すでに公開中の「近代文語UniDic」同様,日本語の歴史的資料の形態素解析を可能にするものである.In this paper, we present "Chuko-Wabun UniDic", which is an electrical dictionary for morphological analysis of classical Japanese. The dictionary is especially designed for the analysis of literary texts in the Heian period, and is an effective means for examining historical texts, like "Kindai-Bungo UniDic" for modern Japanese.
著者
小木曽 智信
雑誌
研究報告 人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2011, no.6, pp.1-4, 2011-10-01

国立国語研究所で計画している 「通時コーパス」 の構築には,様々な時代・文体のテキストに対する形態素解析を実現することが必要となる.本発表ではその基礎となる各種の歴史的資料を対象とした UniDic について報告する.National Institute for Japanese Language and Linguistics is planning to construct the Diachronic Corpus of Japanese. In order to compile the diachronic corpus, it is necessary to implement morphological analysis of various texts in different times and writing styles. In this paper, I report the UniDic dictionaries for various historical Japanese texts.
著者
市村 太郎 河瀬 彰宏 小木曽 智信
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2012, no.1, pp.1-8, 2012-10-05

本稿では,国立国語研究所 「通時コーパス」 プロジェクトの一環として検討されている, 『洒落本大成』 『虎明本狂言』 の電子化について,構造化仕様・文書型定義を示し,割書や発話表示等,資料特有の形式の扱いや,それに伴う課題等について論ずる.This paper describes the specification and Document Type definition(DTD) for digitized documents of "Sharebon" and "Toraakira's Kyogen", as part of NINJAL Diachronic Corpus Project, and discusses its characteristic properties, styles and issues.
著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.
著者
市村 太郎 河瀬 彰宏 小木曽 智信
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2012-CH-96, no.1, pp.1-8, 2012-10-05

本稿では,国立国語研究所 「通時コーパス」 プロジェクトの一環として検討されている, 『洒落本大成』 『虎明本狂言』 の電子化について,構造化仕様・文書型定義を示し,割書や発話表示等,資料特有の形式の扱いや,それに伴う課題等について論ずる.
著者
前川 喜久雄 浅原 正幸 小木曽 智信 小磯 花絵 木部 暢子 迫田 久美子 Kikuo MAEKAWA Masayuki ASAHARA Toshinobu OGISO Hanae KOISO Nobuko KIBE Kumiko SAKODA
出版者
国立国語研究所
雑誌
言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop
巻号頁・発行日
no.1, pp.170-179, 2017

会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター国立国語研究所コーパス開発センターでは,従来個別に開発・提供されてきた各種日本語コーパスの検索環境を統合し,複数のコーパスを横断的に検索可能な包括的検索環境を整備する計画を進めている。既に公開済みのコーパス群だけでなく,第3期中期計画期間に種々の研究プロジェクトで開発ないし拡張を予定しているコーパス群の一部も検索対象に含める。本発表では,検索対象となる予定のコーパスを紹介した後に包括的検索環境の実現に向けてどのような問題があるかを検討し,解決の方向性を探る。
著者
小木曽 智信
出版者
日本語学会
雑誌
日本語の研究 (ISSN:13495119)
巻号頁・発行日
vol.9, no.4, pp.49-62, 2013-10-01 (Released:2017-07-28)

古典語研究の精密化・高度化のためには単語の情報が付いたコーパスが必要とされる。そうしたコーパスの構築のためにはコンピューターによる古典語の形態素解析(自動品詞分解)が必要だが,従来,古典語の形態素解析は困難であるとされていた。こうした中で,筆者らは,既存の解析器と組み合わせて実用的な解析を可能にする電子辞書「中古和文UniDic」を新たに開発した。この辞書は,統計的機械学習の手法に基づき,電子化辞書UniDicの見出し語を拡充し,手本となる単語情報つきの古典語コーパスを作成することで開発された。これにより,平安時代の仮名文学作品について約97%(辞書への未登録語が存在する場合は約96%)の精度で正しく解析することが可能になった。この辞書による解析結果を用いることで,従来は不可能だった用例検索や統計的手法にもとづく新しい古典語研究が可能になった。UniDicは短単位という揺れの少ない斉一な単位を採用しているため,作品や時代を超えて解析結果を比較することができる。中古和文UniDicは無償で一般公開されており,国語研究所の「日本語歴史コーパス 平安時代編」の構築に利用されている。
著者
小木曽 智信
雑誌
研究報告 人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2011-CH-92, no.6, pp.1-4, 2011-10-01

国立国語研究所で計画している 「通時コーパス」 の構築には,様々な時代・文体のテキストに対する形態素解析を実現することが必要となる.本発表ではその基礎となる各種の歴史的資料を対象とした UniDic について報告する.
著者
間淵 洋子 小木曽 智信
雑誌
じんもんこん2015論文集
巻号頁・発行日
vol.2015, pp.125-130, 2015-12-12

国立国語研究所では現在,形態論情報を付与した『太陽コーパス』を構築している.文語から口語への文体移行期に刊行された総合雑誌『太陽』には,文語と口語という性質の大きく異なる複数の文体が混在する文章が多く含まれるため,文語文用解析辞書と旧仮名遣いの口語文用解析辞書のいずれかを指定して用いる従来の形態素解析手法では,精度を保つことが困難である.そこで,本コーパスの構築にあたっては,テキストが有する文体情報を利用し,複数の辞書を切り替えて,部分ごとに適応する辞書によって解析する手法を試みた.この手法の有用性を確認するため,評価用のデータを作成し,従来手法との解析精度を比較した結果,提案する複数辞書切り替え手法によって,解析精度が向上することを確認できた.