著者
小木曽 智信
雑誌
じんもんこん2012論文集
巻号頁・発行日
vol.2012, no.7, pp.25-32, 2012-11-10

旧仮名遣いで書かれた口語文のテキストを形態素解析する場合、既存の形態素解析辞書では不十分な点があった。発表者は既存の形態素解析辞書UniDicをベースに見出し語の追加やコストの再学習を行い、旧仮名遣いの口語文を解析するのに適した新しいUniDicを開発した。本稿では、この旧仮名遣いの口語文を対象とした形態素解析辞書の作成方法とその解析精度について述べる。
著者
小木曽 智信
出版者
日本語学会
雑誌
日本語の研究 (ISSN:13495119)
巻号頁・発行日
vol.9, no.4, pp.49-62, 2013-10-01

古典語研究の精密化・高度化のためには単語の情報が付いたコーパスが必要とされる。そうしたコーパスの構築のためにはコンピューターによる古典語の形態素解析(自動品詞分解)が必要だが,従来,古典語の形態素解析は困難であるとされていた。こうした中で,筆者らは,既存の解析器と組み合わせて実用的な解析を可能にする電子辞書「中古和文UniDic」を新たに開発した。この辞書は,統計的機械学習の手法に基づき,電子化辞書UniDicの見出し語を拡充し,手本となる単語情報つきの古典語コーパスを作成することで開発された。これにより,平安時代の仮名文学作品について約97%(辞書への未登録語が存在する場合は約96%)の精度で正しく解析することが可能になった。この辞書による解析結果を用いることで,従来は不可能だった用例検索や統計的手法にもとづく新しい古典語研究が可能になった。UniDicは短単位という揺れの少ない斉一な単位を採用しているため,作品や時代を超えて解析結果を比較することができる。中古和文UniDicは無償で一般公開されており,国語研究所の「日本語歴史コーパス 平安時代編」の構築に利用されている。
著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.Raw historical texts often include mark-lacking characters, which lack compulsory voiced consonant mark. Since mark-lacking characters degrade readability and retrievability, voiced consonant marks are annotated when creating historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical texts. In this paper, we propose an approach to automatic labeling of voiced consonant marks for mark-lacking characters. We formulate the task into a character-based classification problem. Since our method uses as its feature set only surface information about the surrounding characters, we do not require corpus annotated with word boundaries and POS-tags for training. We exploited large data sets and achieved 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo.
著者
堤 智昭 小木曽 智信
雑誌
じんもんこん2015論文集
巻号頁・発行日
vol.2015, pp.179-184, 2015-12-12

近代文語 UniDic や中古和文 UniDic の登場により,近代以前の歴史的な日本語資料に対しても形態 素解析が可能となった.しかし,近代以前の現存する日本語資料は時代幅があり,ジャンルも多岐に わたる.そのため,資料ごとに文法・単語が適した辞書を用いて形態素解析を行う必要がある.日本 語研究者が形態素解析技術を用いた研究に取り掛かるには,煩雑な形態素解析実行環境の用意と辞書 を切り替えた解析作業が必要となり,その難易度が研究推進の妨げとなっている.そこで本研究では, 形態素解析を用いた言語研究の支援を目的とし,煩雑な計算機における形態素解析実行環境の用意を 必要とせず,容易に複数の辞書を切り替えて形態素解析が可能な形態素解析サポートソフトウェア, Web 茶まめの開発を行った.
著者
小木曽 智信 小椋 秀樹 田中 牧郎 近藤 明日子 伝 康晴
出版者
情報処理学会
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.4, pp.1-8, 2010-01-30

現在開発を行っている「中古和文UniDic」を紹介する.これは平安時代の仮名文学作品を典型とする和文系の資料を対象とする形態素解析辞書であり,すでに公開中の「近代文語UniDic」同様,日本語の歴史的資料の形態素解析を可能にするものである.In this paper, we present "Chuko-Wabun UniDic", which is an electrical dictionary for morphological analysis of classical Japanese. The dictionary is especially designed for the analysis of literary texts in the Heian period, and is an effective means for examining historical texts, like "Kindai-Bungo UniDic" for modern Japanese.
著者
小木曽 智信
雑誌
研究報告 人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2011, no.6, pp.1-4, 2011-10-01

国立国語研究所で計画している 「通時コーパス」 の構築には,様々な時代・文体のテキストに対する形態素解析を実現することが必要となる.本発表ではその基礎となる各種の歴史的資料を対象とした UniDic について報告する.National Institute for Japanese Language and Linguistics is planning to construct the Diachronic Corpus of Japanese. In order to compile the diachronic corpus, it is necessary to implement morphological analysis of various texts in different times and writing styles. In this paper, I report the UniDic dictionaries for various historical Japanese texts.
著者
小木曽 智信 中村 壮範
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.301-332, 2014-04-18 (Released:2014-07-17)
参考文献数
12

『現代日本語書き言葉均衡コーパス』は1億語を超える大規模なコーパスであり,17 万ファイル以上の XML 文書に短単位・長単位の形態論情報アノテーションが施されている.このコーパスの構築を目的としてアノテーションのためのシステムが開発された.このシステムは,辞書見出しデータベースと,タグ付けされたコーパスとを関連付けて,整合性を保ちつつ多くの作業者が編集していくことを可能にするものである.このシステムは,関係データベースで構築されたサーバ「形態論情報データベース」と,辞書を参照しながらコーパスの修正作業を可能にするコーパス修正用のクライアントツール「大納言」,形態素解析辞書 UniDic の見出し語の管理ツール「UniDic Explorer」から成る.本稿はこのデータベースシステムの設計・実装・運用について論ずる.
著者
市村 太郎 河瀬 彰宏 小木曽 智信
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2012, no.1, pp.1-8, 2012-10-05

本稿では,国立国語研究所 「通時コーパス」 プロジェクトの一環として検討されている, 『洒落本大成』 『虎明本狂言』 の電子化について,構造化仕様・文書型定義を示し,割書や発話表示等,資料特有の形式の扱いや,それに伴う課題等について論ずる.This paper describes the specification and Document Type definition(DTD) for digitized documents of "Sharebon" and "Toraakira's Kyogen", as part of NINJAL Diachronic Corpus Project, and discusses its characteristic properties, styles and issues.
著者
市村 太郎 河瀬 彰宏 小木曽 智信
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2012-CH-96, no.1, pp.1-8, 2012-10-05

本稿では,国立国語研究所 「通時コーパス」 プロジェクトの一環として検討されている, 『洒落本大成』 『虎明本狂言』 の電子化について,構造化仕様・文書型定義を示し,割書や発話表示等,資料特有の形式の扱いや,それに伴う課題等について論ずる.
著者
前川 喜久雄 浅原 正幸 小木曽 智信 小磯 花絵 木部 暢子 迫田 久美子 Kikuo MAEKAWA Masayuki ASAHARA Toshinobu OGISO Hanae KOISO Nobuko KIBE Kumiko SAKODA
出版者
国立国語研究所
雑誌
言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop
巻号頁・発行日
no.1, pp.170-179, 2017

会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター国立国語研究所コーパス開発センターでは,従来個別に開発・提供されてきた各種日本語コーパスの検索環境を統合し,複数のコーパスを横断的に検索可能な包括的検索環境を整備する計画を進めている。既に公開済みのコーパス群だけでなく,第3期中期計画期間に種々の研究プロジェクトで開発ないし拡張を予定しているコーパス群の一部も検索対象に含める。本発表では,検索対象となる予定のコーパスを紹介した後に包括的検索環境の実現に向けてどのような問題があるかを検討し,解決の方向性を探る。
著者
小木曽 智信
出版者
日本語学会
雑誌
日本語の研究 (ISSN:13495119)
巻号頁・発行日
vol.9, no.4, pp.49-62, 2013-10-01 (Released:2017-07-28)

古典語研究の精密化・高度化のためには単語の情報が付いたコーパスが必要とされる。そうしたコーパスの構築のためにはコンピューターによる古典語の形態素解析(自動品詞分解)が必要だが,従来,古典語の形態素解析は困難であるとされていた。こうした中で,筆者らは,既存の解析器と組み合わせて実用的な解析を可能にする電子辞書「中古和文UniDic」を新たに開発した。この辞書は,統計的機械学習の手法に基づき,電子化辞書UniDicの見出し語を拡充し,手本となる単語情報つきの古典語コーパスを作成することで開発された。これにより,平安時代の仮名文学作品について約97%(辞書への未登録語が存在する場合は約96%)の精度で正しく解析することが可能になった。この辞書による解析結果を用いることで,従来は不可能だった用例検索や統計的手法にもとづく新しい古典語研究が可能になった。UniDicは短単位という揺れの少ない斉一な単位を採用しているため,作品や時代を超えて解析結果を比較することができる。中古和文UniDicは無償で一般公開されており,国語研究所の「日本語歴史コーパス 平安時代編」の構築に利用されている。
著者
小木曽 智信
雑誌
研究報告 人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2011-CH-92, no.6, pp.1-4, 2011-10-01

国立国語研究所で計画している 「通時コーパス」 の構築には,様々な時代・文体のテキストに対する形態素解析を実現することが必要となる.本発表ではその基礎となる各種の歴史的資料を対象とした UniDic について報告する.
著者
間淵 洋子 小木曽 智信
雑誌
じんもんこん2015論文集
巻号頁・発行日
vol.2015, pp.125-130, 2015-12-12

国立国語研究所では現在,形態論情報を付与した『太陽コーパス』を構築している.文語から口語への文体移行期に刊行された総合雑誌『太陽』には,文語と口語という性質の大きく異なる複数の文体が混在する文章が多く含まれるため,文語文用解析辞書と旧仮名遣いの口語文用解析辞書のいずれかを指定して用いる従来の形態素解析手法では,精度を保つことが困難である.そこで,本コーパスの構築にあたっては,テキストが有する文体情報を利用し,複数の辞書を切り替えて,部分ごとに適応する辞書によって解析する手法を試みた.この手法の有用性を確認するため,評価用のデータを作成し,従来手法との解析精度を比較した結果,提案する複数辞書切り替え手法によって,解析精度が向上することを確認できた.
著者
小林 雄一郎 小木曽 智信
出版者
国立国語研究所
雑誌
国立国語研究所論集 (ISSN:2186134X)
巻号頁・発行日
vol.6, pp.29-43, 2013-11

本研究の目的は,中古和文コーパスを分析対象とし,個人文体とジャンル文体の関係を明らかにすることである。具体的には,紫式部の『源氏物語』と『紫式部日記』,そして『更級日記』における助詞・助動詞の使用傾向を調査し,テクスト間の相互関係,言語項目間の相互関係,テクストと言語項目の結びつきのパターンを定量的に分析する。そして,多変量解析の手法を援用し,中古和文のテクストにおいて,書き手による文体差よりもジャンルによる文体差の影響が大きいことを示す。さらに,個々のテクストにおける語彙使用を詳細に分析するために,対数尤度比による特徴語抽出を行い,多変量解析の結果を補完する。
著者
相良 かおる 小野 正子 鈴木 隆弘 小木曽 智信 高崎 光浩 浅原 正幸 外山 健二
出版者
西南女学院大学
雑誌
基盤研究(B)
巻号頁・発行日
2009

標準化された用語がないまま、電子カルテシステムは普及し、電子医療記録文書が蓄積される中、我々は医療記録文書で使われる用語77, 775語を収録した辞書ComeJisyoを作成・公開し、また、語種と字種の分布を明らかにした。ComeJisyoは、電子医療記録文の単語分割の解析精度を90%以上に向上させ、複数の解析結果の比較(メタ分析)を可能とする。また、ComeJisyoに付加されるヨミガナは、音声への変換や仮名漢字変換等に活用できる
著者
田中 牧郎 岡島 昭浩 岡部 嘉幸 小木曽 智信 近藤 明日子
出版者
独立行政法人国立国語研究所
雑誌
基盤研究(C)
巻号頁・発行日
2006

明治後期から大正期にかけて進んだ「言文一致」という出来事について,コーパスを活用して,精密かつ見通しよく記述することを通して,コーパス言語学の方法を日本語史研究に適用することを目指した。言文一致にかかわる言語現象のうち,コーパスを活用して記述することで,新たな日本語史研究の視野が拓けると想定されるものとして,語彙体系の変化,待遇表現構造の変化,テンス表現の変化の三つを取り上げて,『太陽コーパス』(言文一致期にもっともよく読まれた総合雑誌を対象とするコーパス)を用いた分析を行い,その成果を発表した。語彙体系については,動詞を例に,言文一致期に定着する語と衰退する語とを対比的に分析した。また,待遇表現構造については,二人称代名詞を例に,会話の文体や,話し手と聞き手の階層や性別の観点から分析した。さらに,テンス表現については,口語助動詞「テイル」「テアル」が定着する用法と,文語助動詞「タリ」が残存する用法とが相補関係にあることなどを解明した。いずれの研究においても,コーパスを用いることによって,共起語,出現文脈,出現領域などを定量的に考察することができ,共時的な構造分析の方向にも,通時的な動態分析の方向にも,新しい展開を図ることができた。コーパスを使わない従来型の研究では実現不可能だった,精密で見通しのよい記述を達成することができ,コーパスを日本語史研究に導入する意義を具体的に確かめることができた。また,コーパス分析ツールとして,XML文書へのタグ埋め込みプログラム『たんぽぽタガー』を開発し,使用説明書とともにweb上で公開した。このツールの公開は,コーパス言語学による日本語史研究の利便性を高める効果が期待できる。