著者
冨浦 洋一 青木 さやか 柴田 雅博 行野 顕正
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.16, no.1, pp.25-46, 2009-01-10
被引用文献数
1 1

本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 <I>n</I>-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.<I>n</I> を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 <I>n</I>-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.
著者
行野 顕正 青木 さやか 谷川 龍司 [ 他 ]
出版者
九州大学
雑誌
Research reports on information science and electrical engineering of Kyushu University (ISSN:13423819)
巻号頁・発行日
vol.11, no.2, pp.115-119, 2006-09

We propose using long and low-frequency part of speech (POS) strings for document separation between native English documents and non-native English documents. The long POS strings were ignored in previous works because their frequencies in training data are too small to estimate their probabilities. Meanwhile, a research of language identification showed that the long and low-frequency byte strings were useful for language identification among similar languages. There are some similarity between language identification and document separation between native English documents and non-native English documents, for example long POS strings are more peculiar to one class than short ones, though there is a difference between POS and byte. Therefore, we can expect higher accuracy by using long and low-frequency POS strings. Some experiments are described in this paper. These experiments show that the proposed method has higher accuracy than previous ones.
著者
冨浦 洋一 青木 さやか 柴田 雅博 行野 顕正
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.1, pp.1_25-1_46, 2009 (Released:2011-09-14)
参考文献数
17
被引用文献数
1

本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 n-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.n を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 n-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.
著者
行野 顕正 田中 省作 冨浦洋一 柴田 雅博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.365-374, 2007-01-15
被引用文献数
1 2

スラッシュ・リーディングとは,意味のかたまりごとにスラッシュで区切られた英文を読むことにより,読解力の向上を目指す学習法である.多くのスラッシュ付き英文を読むことで,学習効果が上がると考えられるが,現在のところ十分な文書数のある学習教材が存在しないという問題がある.本稿では,統計的アプローチを用いて任意の英文にスラッシュを自動的に挿入する手法を提案する.英文中のスラッシュの位置を定める主な要因は,英文の部分的な構文構造・セグメント長のバランス・一部の単語であるという仮定に基づき,パラメトリックな確率モデルおよびSVM を構築する.既存の教材を学習データとしてモデルを学習することで,その教材のスラッシュ挿入規則を模倣したスラッシュ付き英文を作ることができる.3 つの既存教材を対象とした実験では,提案手法が,様々な教材におけるスラッシュ挿入規則を,従来手法よりも高い適合率・再現率で模倣できるという結果が示されている.In Slash Reading, learners read English sentences separated into segments (sense groups) with slashes to improve their reading skills. The more texts for Slash Reading a learner read, the more effect of learning could be expected. However, there are not enough materials for Slash Reading. This paper proposes methods for transforming automatically a plain sentence into a slashed sentence based on statistical approaches. A parametric model and a SVM model are built on the assumption that the factors to decide where to insert slashes into a sentence are a portion of the syntactic structure of the sentence, the lengths of the segments and words around the slashes. The models are learned from an existing material for Slash Reading. The systems based on these models, therefore, can transform automatically a plain sentence into a slashed sentence by imitating positions of slashes in the material. The results of the experiments using existing materials for Slash Reading indicate that the proposed methods imitate positions of slashes of the materials with the higher precision and recall than the previous methods.