文献一覧: 小木曽智信 (著者)

24 0 0 0 OA 「言語統計力学」= 言語学・自然言語処理・物理学

著者: 持橋大地小木曽智信高村大也小町守
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.29, no.3, pp.1030-1036, 2022 (Released:2022-09-15)
参考文献数: 12

2023-12-10 15:10:17
24 + 108 Twitter

17 0 0 0 OA 旧仮名遣いの口語文を対象とした形態素解析辞書

著者: 小木曽智信
雑誌: じんもんこん2012論文集
巻号頁・発行日: vol.2012, no.7, pp.25-32, 2012-11-10

旧仮名遣いで書かれた口語文のテキストを形態素解析する場合、既存の形態素解析辞書では不十分な点があった。発表者は既存の形態素解析辞書UniDicをベースに見出し語の追加やコストの再学習を行い、旧仮名遣いの口語文を解析するのに適した新しいUniDicを開発した。本稿では、この旧仮名遣いの口語文を対象とした形態素解析辞書の作成方法とその解析精度について述べる。

2023-01-19 02:05:35
17 + 8 Twitter

http://id.nii.ac.jp/1001/00086999/

9 0 0 0 OA 中古仮名文学作品の形態素解析

著者: 小木曽智信
出版者: 日本語学会
雑誌: 日本語の研究 (ISSN:13495119)
巻号頁・発行日: vol.9, no.4, pp.49-62, 2013-10-01

古典語研究の精密化・高度化のためには単語の情報が付いたコーパスが必要とされる。そうしたコーパスの構築のためにはコンピューターによる古典語の形態素解析(自動品詞分解)が必要だが,従来,古典語の形態素解析は困難であるとされていた。こうした中で,筆者らは,既存の解析器と組み合わせて実用的な解析を可能にする電子辞書「中古和文UniDic」を新たに開発した。この辞書は,統計的機械学習の手法に基づき,電子化辞書UniDicの見出し語を拡充し,手本となる単語情報つきの古典語コーパスを作成することで開発された。これにより,平安時代の仮名文学作品について約97%(辞書への未登録語が存在する場合は約96%)の精度で正しく解析することが可能になった。この辞書による解析結果を用いることで,従来は不可能だった用例検索や統計的手法にもとづく新しい古典語研究が可能になった。UniDicは短単位という揺れの少ない斉一な単位を採用しているため,作品や時代を超えて解析結果を比較することができる。中古和文UniDicは無償で一般公開されており,国語研究所の「日本語歴史コーパス平安時代編」の構築に利用されている。

2019-12-03 18:12:04
9 + 3 Twitter

https://ci.nii.ac.jp/naid/110009810398

7 0 0 0 IR 万葉集のコーパスと琉球の言葉

著者: 小木曽智信
出版者: 東京外国語大学大学院国際日本学研究院
雑誌: 東京外国語大学国際日本学研究報告 (ISSN:24325708)
巻号頁・発行日: no.3, pp.21-22, 2018-06

2019-02-25 14:19:11
7 + 4 Twitter

6 0 0 0 統計的機械学習を用いた歴史的資料への濁点付与の自動化

著者: 岡照晃小町守小木曽智信松本裕治
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.Raw historical texts often include mark-lacking characters, which lack compulsory voiced consonant mark. Since mark-lacking characters degrade readability and retrievability, voiced consonant marks are annotated when creating historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical texts. In this paper, we propose an approach to automatic labeling of voiced consonant marks for mark-lacking characters. We formulate the task into a character-based classification problem. Since our method uses as its feature set only surface information about the surrounding characters, we do not require corpus annotated with word boundaries and POS-tags for training. We exploited large data sets and achieved 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo.

2021-10-05 16:22:11
6 + 9 Twitter

https://ci.nii.ac.jp/naid/110009579579

3 0 0 0 OA キリシタン資料のローマ字原文対応和文テキストの作成

著者: 片山久留美小木曽智信中村壮範
雑誌: じんもんこん2018論文集
巻号頁・発行日: vol.2018, pp.89-96, 2018-11-24

国立国語研究所で構築中の『日本語歴史コーパス』に『室町時代編Ⅱキリシタン資料』として『天草版平家物語』『天草版伊曽保物語』の2作品が追加された.これらの資料は原本がポルトガル式ローマ字により表記されており,当時の発音を知ることができる資料として日本語研究上重要な位置を占める.コーパス化にあたっては,ローマ字テキストと和文テキストを用意し両者をアラインメントにより対応付けることで二つのテキストを同時に参照可能にした.その際,仮の和文テキストを作成して形態素解析を行い,付与された形態論情報を利用することによって,均質性の高い独自の和文テキストを自動で出力したほか,ローマ字テキストと和文テキストのアラインメント作業も効率よく行うことが可能となった.

2023-02-19 23:20:51
3 + 2 Twitter

http://id.nii.ac.jp/1001/00192358/

3 0 0 0 OA 『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用

著者: 小木曽智信中村壮範
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.21, no.2, pp.301-332, 2014-04-18 (Released:2014-07-17)
参考文献数: 12

『現代日本語書き言葉均衡コーパス』は1億語を超える大規模なコーパスであり,17 万ファイル以上の XML 文書に短単位・長単位の形態論情報アノテーションが施されている.このコーパスの構築を目的としてアノテーションのためのシステムが開発された.このシステムは,辞書見出しデータベースと,タグ付けされたコーパスとを関連付けて,整合性を保ちつつ多くの作業者が編集していくことを可能にするものである.このシステムは,関係データベースで構築されたサーバ「形態論情報データベース」と,辞書を参照しながらコーパスの修正作業を可能にするコーパス修正用のクライアントツール「大納言」,形態素解析辞書 UniDic の見出し語の管理ツール「UniDic Explorer」から成る.本稿はこのデータベースシステムの設計・実装・運用について論ずる.

3 0 0 0 OA 歴史的資料を対象とした複数の UniDic 辞書による形態素解析支援ツール『Web 茶まめ』

著者: 堤智昭小木曽智信
雑誌: じんもんこん2015論文集
巻号頁・発行日: vol.2015, pp.179-184, 2015-12-12

近代文語 UniDic や中古和文 UniDic の登場により,近代以前の歴史的な日本語資料に対しても形態素解析が可能となった.しかし,近代以前の現存する日本語資料は時代幅があり,ジャンルも多岐にわたる.そのため,資料ごとに文法・単語が適した辞書を用いて形態素解析を行う必要がある.日本語研究者が形態素解析技術を用いた研究に取り掛かるには,煩雑な形態素解析実行環境の用意と辞書を切り替えた解析作業が必要となり,その難易度が研究推進の妨げとなっている.そこで本研究では, 形態素解析を用いた言語研究の支援を目的とし,煩雑な計算機における形態素解析実行環境の用意を必要とせず,容易に複数の辞書を切り替えて形態素解析が可能な形態素解析サポートソフトウェア, Web 茶まめの開発を行った.

2017-10-03 10:46:53
3 + 2 Twitter

http://id.nii.ac.jp/1001/00146542/

3 0 0 0 中古和文を対象とした形態素解析辞書の開発

著者: 小木曽智信小椋秀樹田中牧郎近藤明日子伝康晴
出版者: 情報処理学会
雑誌: 研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日: vol.2010, no.4, pp.1-8, 2010-01-30

現在開発を行っている「中古和文UniDic」を紹介する.これは平安時代の仮名文学作品を典型とする和文系の資料を対象とする形態素解析辞書であり,すでに公開中の「近代文語UniDic」同様,日本語の歴史的資料の形態素解析を可能にするものである.In this paper, we present "Chuko-Wabun UniDic", which is an electrical dictionary for morphological analysis of classical Japanese. The dictionary is especially designed for the analysis of literary texts in the Heian period, and is an effective means for examining historical texts, like "Kindai-Bungo UniDic" for modern Japanese.

2011-12-15 22:23:37
3 + 0 Twitter

https://ci.nii.ac.jp/naid/110008003480

3 0 0 0 通時コーパスの構築に向けた古文用形態素解析辞書の開発

著者: 小木曽智信
雑誌: 研究報告人文科学とコンピュータ(CH)
巻号頁・発行日: vol.2011, no.6, pp.1-4, 2011-10-01

国立国語研究所で計画している「通時コーパス」の構築には,様々な時代・文体のテキストに対する形態素解析を実現することが必要となる.本発表ではその基礎となる各種の歴史的資料を対象とした UniDic について報告する.National Institute for Japanese Language and Linguistics is planning to construct the Diachronic Corpus of Japanese. In order to compile the diachronic corpus, it is necessary to implement morphological analysis of various texts in different times and writing styles. In this paper, I report the UniDic dictionaries for various historical Japanese texts.

2011-12-15 22:23:35
3 + 0 Twitter

https://ci.nii.ac.jp/naid/110008620857

2 0 0 0 OA 「太陽コーパス」における字音仮名遣いについて : 小説記事のふりがなから

著者: 小木曽智信
出版者: 明海大学
雑誌: 明海日本語
巻号頁・発行日: no.8, 2003

2017-04-28 23:40:10
2 + 0 Twitter

http://dl.ndl.go.jp/info:ndljp/pid/3860268

2 0 0 0 近世口語テキストの構造化とその課題

著者: 市村太郎河瀬彰宏小木曽智信
雑誌: 研究報告人文科学とコンピュータ(CH)
巻号頁・発行日: vol.2012, no.1, pp.1-8, 2012-10-05

本稿では,国立国語研究所「通時コーパス」プロジェクトの一環として検討されている, 『洒落本大成』『虎明本狂言』の電子化について,構造化仕様・文書型定義を示し,割書や発話表示等,資料特有の形式の扱いや,それに伴う課題等について論ずる.This paper describes the specification and Document Type definition(DTD) for digitized documents of "Sharebon" and "Toraakira's Kyogen", as part of NINJAL Diachronic Corpus Project, and discusses its characteristic properties, styles and issues.

2012-10-07 23:01:47
2 + 2 Twitter

https://ci.nii.ac.jp/naid/110009459601

1 0 0 0 多重の読みを持つ宣命コーパスの構築

著者: 呉寧真池田幸恵須永哲也小木曽智信
雑誌: じんもんこん2020論文集
巻号頁・発行日: no.2020, pp.253-260, 2020-12-05

2021-06-19 02:45:06
1 + 0 Twitter

https://ci.nii.ac.jp/naid/170000183880

1 0 0 0 コーパス管理ツール「茶器」による単語情報付き古典語コーパスの活用

著者: 小木曽智信岡照晃小町守松本裕治
雑誌: じんもんこん2011論文集
巻号頁・発行日: vol.2011, no.8, pp.255-260, 2011-12-03

2021-01-23 13:15:05
1 + 0 Twitter

https://ci.nii.ac.jp/naid/170000068414

1 0 0 0 OA 統計的機械学習を用いた歴史的資料への濁点付与の自動化

著者: 岡照晃小町守小木曽智信松本裕治
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.54, no.4, pp.1641-1654, 2013-04-15

2020-11-02 05:28:35
1 + 0 Twitter

http://id.nii.ac.jp/1001/00091598/

1 0 0 0 OA 近世口語テキストの構造化とその課題

著者: 市村太郎河瀬彰宏小木曽智信
雑誌: 研究報告人文科学とコンピュータ(CH)
巻号頁・発行日: vol.2012-CH-96, no.1, pp.1-8, 2012-10-05

本稿では,国立国語研究所「通時コーパス」プロジェクトの一環として検討されている, 『洒落本大成』『虎明本狂言』の電子化について,構造化仕様・文書型定義を示し,割書や発話表示等,資料特有の形式の扱いや,それに伴う課題等について論ずる.

2020-05-11 22:30:52
1 + 0 Twitter

http://id.nii.ac.jp/1001/00085844/

1 0 0 0 IR 日本語コーパスの包括的検索環境の実現に向けて

著者: 前川喜久雄浅原正幸小木曽智信小磯花絵木部暢子迫田久美子 Kikuo MAEKAWA Masayuki ASAHARA Toshinobu OGISO Hanae KOISO Nobuko KIBE Kumiko SAKODA
出版者: 国立国語研究所
雑誌: 言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop
巻号頁・発行日: no.1, pp.170-179, 2017

会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所コーパス開発センター国立国語研究所コーパス開発センターでは,従来個別に開発・提供されてきた各種日本語コーパスの検索環境を統合し,複数のコーパスを横断的に検索可能な包括的検索環境を整備する計画を進めている。既に公開済みのコーパス群だけでなく,第3期中期計画期間に種々の研究プロジェクトで開発ないし拡張を予定しているコーパス群の一部も検索対象に含める。本発表では,検索対象となる予定のコーパスを紹介した後に包括的検索環境の実現に向けてどのような問題があるかを検討し,解決の方向性を探る。

2019-12-31 14:55:58
1 + 0 Twitter

1 0 0 0 OA 中古仮名文学作品の形態素解析

著者: 小木曽智信
出版者: 日本語学会
雑誌: 日本語の研究 (ISSN:13495119)
巻号頁・発行日: vol.9, no.4, pp.49-62, 2013-10-01 (Released:2017-07-28)

2018-03-29 02:18:25
1 + 0 Twitter

1 0 0 0 OA 通時コーパスの構築に向けた古文用形態素解析辞書の開発

著者: 小木曽智信
雑誌: 研究報告人文科学とコンピュータ(CH)
巻号頁・発行日: vol.2011-CH-92, no.6, pp.1-4, 2011-10-01

国立国語研究所で計画している「通時コーパス」の構築には,様々な時代・文体のテキストに対する形態素解析を実現することが必要となる.本発表ではその基礎となる各種の歴史的資料を対象とした UniDic について報告する.

2016-09-15 19:46:34
1 はてなブックマーク

http://id.nii.ac.jp/1001/00077633/

1 0 0 0 OA 異なる文体の混在するテキストに対する複数辞書切り替えによる解析手法の提案

著者: 間淵洋子小木曽智信
雑誌: じんもんこん2015論文集
巻号頁・発行日: vol.2015, pp.125-130, 2015-12-12

国立国語研究所では現在,形態論情報を付与した『太陽コーパス』を構築している.文語から口語への文体移行期に刊行された総合雑誌『太陽』には,文語と口語という性質の大きく異なる複数の文体が混在する文章が多く含まれるため,文語文用解析辞書と旧仮名遣いの口語文用解析辞書のいずれかを指定して用いる従来の形態素解析手法では,精度を保つことが困難である.そこで,本コーパスの構築にあたっては,テキストが有する文体情報を利用し,複数の辞書を切り替えて,部分ごとに適応する辞書によって解析する手法を試みた.この手法の有用性を確認するため,評価用のデータを作成し,従来手法との解析精度を比較した結果,提案する複数辞書切り替え手法によって,解析精度が向上することを確認できた.

2015-12-14 15:51:20
1 + 0 Twitter

http://id.nii.ac.jp/1001/00146534/

««
«
1
2
»
»»