著者
小椋 秀樹
出版者
立命館大学
雑誌
基盤研究(C)
巻号頁・発行日
2013-04-01

本研究は,現代語表記のゆれの実態について,『現代日本語書き言葉均衡コーパス』に収録された複数のレジスターを対象にした調査から明らかにするものである。現代語表記のゆれの実態として,次のようなことが明らかとなった。(1) 統語的複合動詞の後項動詞の表記の変遷を調査したところ,漢字表記が増加する傾向が観察された。(2) 外来語については,長音の表記に関するゆれが多く見られた。具体的には,語末長音のゆれと,原語の二重母音[ei]の表記のゆれが観察された。
著者
小木曽 智信 小椋 秀樹 田中 牧郎 近藤 明日子 伝 康晴
出版者
情報処理学会
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.4, pp.1-8, 2010-01-30

現在開発を行っている「中古和文UniDic」を紹介する.これは平安時代の仮名文学作品を典型とする和文系の資料を対象とする形態素解析辞書であり,すでに公開中の「近代文語UniDic」同様,日本語の歴史的資料の形態素解析を可能にするものである.In this paper, we present "Chuko-Wabun UniDic", which is an electrical dictionary for morphological analysis of classical Japanese. The dictionary is especially designed for the analysis of literary texts in the Heian period, and is an effective means for examining historical texts, like "Kindai-Bungo UniDic" for modern Japanese.
著者
前川 喜久雄 籠宮 隆之 小磯 花絵 小椋 秀樹 菊池 英明
出版者
日本音声学会
雑誌
音声研究 (ISSN:13428675)
巻号頁・発行日
vol.4, no.2, pp.51-61, 2000-08-30 (Released:2017-08-31)
被引用文献数
2

Compilation of a large-scale corpus of spontaneous Japanese monologue is underway as a joint work of the National Language Research Institute (under the Agency of Cultural Affairs) and the Communications Research Laboratory (under Ministry of Post and Telecommunication). The corpus will contain about 700 hours of digitized speech (about 7 million morphemes), its transcription, and various tagging information such as POS information. Phonological labels (segmental as well as prosodic) will be provided for a subset of the corpus. The corpus will become publicly available in the spring of 2004.
著者
小椋 秀樹 Hideki OGURA
出版者
国立国語研究所
雑誌
言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop
巻号頁・発行日
no.2, pp.223-232, 2017

会議名: 言語資源活用ワークショップ2017, 開催地: 国立国語研究所, 会期: 2017年9月5日-6日, 主催: 国立国語研究所 コーパス開発センター外来語表記のゆれには発音のゆれが関わっているといわれるが,表記のゆれと発音のゆれとの間にどの程度関連があるのかについては,十分に明らかにされていない。そこで,『現代日本語書き言葉均衡コーパス』(出版・書籍)と『日本語話し言葉コーパス』とを用いて外来語の語末長母音の表記と発音のゆれの実態調査を行った。調査の結果,長音符号を省略した表記の割合(無表記率)は17.0%,短母音のように短く発音した割合(短呼率)は7.7%で,表記と発音との間にずれが見られた。この表記と発音とのずれの要因としては,(1)《エアー》《ソファー》《ボディー》等の特定の語において符号無表記や短音化が高い度数(比率)で生じていること,(2)語末音「ティ」を持つ語において符号無表記が広範囲かつ高い度数(比率)で生じていることの2点が指摘できる。
著者
小椋 秀樹 山口 昌也 西川 賢哉 石塚 京子 木村 睦子
出版者
国書刊行会
雑誌
日本語科学
巻号頁・発行日
vol.16, pp.93-113, 2004-10
被引用文献数
1

国立国語研究所国立国語研究所国立国語研究所埼玉大学大学院国立国語研究所『日本語話し言葉コーパス』では,形態論的な単位として,品詞の分布などの計量研究によって資料の特徴を明らかにするための長単位と,用例を採集し,話し言葉の語彙・語法の研究を行うための短単位の2種類の単位を採用した。本稿では,この2種類の単位の設計方針及び認定基準の概略について述べることとする。