著者
岩崎 拓也
出版者
計量国語学会
雑誌
計量国語学 (ISSN:04534611)
巻号頁・発行日
vol.31, no.6, pp.426-442, 2018-09-20 (Released:2019-09-20)
参考文献数
18

正書法が一般に浸透していない日本語の文において,読点を打つ・打たないということは恣意性の高い選択である.本研究では,接続詞の直後に読点が打たれる要因を探ることで,日本語の文における読点使用の理由の一端を明らかにすることを試みた.分析データには,BCCWJ のコアデータを使用し,モデル構築にはElastic Netを用いた正則化付きの一般化線形モデルを作成した.この手法をとることで,過学習を防ぐことと,従来では扱うことができなかった情報量の多い変数を取り扱うことができる.モデル評価には,10分割サンプルによる交差検証を実施した.今回構築したモデルを用いて元データの再分類を行った結果,再現率は78.99%であった.また,係数を確認したところ,語彙素「で」,接続詞が文頭にあるとき,語彙素「が」,レジスター「白書」,語彙素「然しながら(しかしながら)」といった指標が接続詞の直後に読点が打たれる強い指標であった.