著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.Raw historical texts often include mark-lacking characters, which lack compulsory voiced consonant mark. Since mark-lacking characters degrade readability and retrievability, voiced consonant marks are annotated when creating historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical texts. In this paper, we propose an approach to automatic labeling of voiced consonant marks for mark-lacking characters. We formulate the task into a character-based classification problem. Since our method uses as its feature set only surface information about the surrounding characters, we do not require corpus annotated with word boundaries and POS-tags for training. We exploited large data sets and achieved 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo.
著者
小山 碧海 喜友名 朝視顕 小林 賢治 新井 美桜 三田 雅人 岡 照晃 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.330-371, 2023 (Released:2023-06-15)
参考文献数
144

本稿では,日本語文法誤り訂正のための誤用タグ付き評価コーパスを構築する.評価コーパスはモデルの性能評価に欠かすことができない.英語文法誤り訂正では様々な評価コーパスの公開により,モデル間の精緻な比較が可能になりコミュニティが発展していった.しかし日本語文法誤り訂正では利用可能な評価コーパスが不足しており,コミュニティの発展を阻害している.本研究ではこの不足を解消するため,日本語文法誤り訂正のための評価コーパスを構築し,一般利用可能な形で公開する.我々は文法誤り訂正において代表的な学習者コーパス Lang-8 コーパスの日本語学習者文から評価コーパスを作成する.また文法誤り訂正分野の研究者や開発者が使いやすい評価コーパスとするため,評価コーパスの仕様を英語文法誤り訂正で代表的なコーパスやツールに寄せる.最後に作成した評価コーパスで代表的な文法誤り訂正モデルを評価し,今後の日本語文法誤り訂正においてベースラインとなるスコアを報告する.
著者
小林 千真 相田 太一 岡 照晃 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.713-747, 2023 (Released:2023-06-15)
参考文献数
32

単語が持つ意味や用法は時代とともに変わっていく.BERT から獲得した単語ベクトルをグルーピングし,時期ごとの使用率を算出することで意味変化を分析する方法がある.英語の意味変化分析では既にいくつかこの類の手法が導入されているが,日本語への適用はまだない.また,英語での分析では手法ごとの比較が行われていない.そのため,日本語に適用した際の性能や各手法がどのような条件で有効か明らかになっていない.そこで本研究では日本語を対象に,以下の実験を行なった.現代語で事前訓練された BERT の文脈依存ベクトルに,辞書を使った教師ありのグルーピング手法とクラスタリングを使った教師なしのグルーピング手法を適用し比較した.また BERT を通時的なコーパスで fine-tuning し, BERT の文脈依存ベクトルが捉える通時的な特徴を分析した.比較と分析の結果,充実した辞書がない場合,クラスタリングを使った手法が意味変化を捉えるのに適していることが分かった.さらに,現代語 BERT を通時的なコーパスで fine-tuning することで古い時期特有の表現により適した意味変化の分析が可能になることが分かった.一方で,古い時期に出現しない現代特有の用法がある場合には,意味変化を捉えられないケースも存在した.
著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.