著者
森 信介 土屋 雅稔 山地 治 長尾 真
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48, pp.93-99, 1998-05-28

本論文では、確率的モデルによる仮名漢字変換を提案する。これは、従来の規則とその重みに基づく仮名漢字変換と異なり、入力に対応する最も確率の高い仮名漢字混じり文を出力とする。この方法の有効性を確かめるため、片仮名列と仮名漢字混じり文を有するコーバスを用いた変換実験を行ない、変換精度を測定した。変換精度は、第一変換候補と正解の最長共通部分列の文字数に基づく再現率と適合率である。この結果、我々の提案する手法による再現率は95.07%であり、適合率は93.94%であった。これは、市販の仮名漢字変換器の一つであるWnn6の同じテストコーパスに対する再現率(91.12%)と適合率(91.17%)を有意に上回っており、確率的モデルによる仮名漢字変換の有効性を示す結果となった。In this paper, we present a kanji-kanji converter by a stochastic model. Given an input this method returns the most probable kana-kanji character sequence. For its evaluation, we converted kana sequences of a corpus containing kana-kanji sequences. The criterion we used is the ratio of the length of longest common subsequece. The recall and precision of our method are 95.07% and 93.94% respectively. This result is much better than that of Wnn6 (recall: 91.12%; precision: 91.17%).
著者
森 信介 土屋 雅稔 山地 治 長尾 真
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48(1998-NL-125), pp.93-99, 1998-05-28

本論文では、確率的モデルによる仮名漢字変換を提案する。これは、従来の規則とその重みに基づく仮名漢字変換と異なり、入力に対応する最も確率の高い仮名漢字混じり文を出力とする。この方法の有効性を確かめるため、片仮名列と仮名漢字混じり文を有するコーバスを用いた変換実験を行ない、変換精度を測定した。変換精度は、第一変換候補と正解の最長共通部分列の文字数に基づく再現率と適合率である。この結果、我々の提案する手法による再現率は95.07%であり、適合率は93.94%であった。これは、市販の仮名漢字変換器の一つであるWnn6の同じテストコーパスに対する再現率(91.12%)と適合率(91.17%)を有意に上回っており、確率的モデルによる仮名漢字変換の有効性を示す結果となった。
著者
森 信介 山地 治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.11, pp.2191-2199, 1997-11-15
被引用文献数
19

本論文では,形態素単位のn?gramモデル(1〓n〓16)による日本語の情報量の上限の推定方法とその結果を示す.各n?gramモデルは,データスパースネスの問題に対応するため,低次のn?gramモデルとの補間を行ってある.補間係数は,最も有効であると考えられている削除補間法により求める.実験ではEDRコーパスの約9割からモデルのパラメータを推定し,残りの1割に対して情報量を計算した.その結果,n=16のときに1文字あたりの情報量は最小の4.30330ビットであった.また,学習コーパスの大きさとモデルの次数による情報量の変化を調べた結果,モデルの次数を上げることによる情報量の減少量は微小であるが,学習コーパスを大きくすることによる情報量の減少量はかなりあるということが分かった.さらに,パラメータ数とエントロピーの関係についても議論する.これは,実際の日本語処理にn?gramモデルを応用する際に,適切にnの値を選ぶ指標となる.In this paper we present an estimate of an upper bound for the entropy of Japanese by morpheme n-gram model(1〓n〓16).Each n-gram model is interpolated with lower order n-gram models.The deleted interpolation method is applied for estimating interpolation coefficients.We estimated the parameters from 90% of the EDR corpus and calculated the entropy on the rest 10%.As the result,the minimum entropy was 4.30330[bit]a character with n=16.The relation between the size of learning corpus or the order of model and entropy showed that incresing the order decreases entropy slightly and increasing the size of learning corpus decreases it noteworthily.In addition,we discuss the relation between the number of parameters and entropy.This is usefull to select the value of n to apply n-gram model to the practical Japanese processing.
著者
森 信介 山地 治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.11, pp.2191-2199, 1997-11-15

本論文では,形態素単位のn?gramモデル(1〓n〓16)による日本語の情報量の上限の推定方法とその結果を示す.各n?gramモデルは,データスパースネスの問題に対応するため,低次のn?gramモデルとの補間を行ってある.補間係数は,最も有効であると考えられている削除補間法により求める.実験ではEDRコーパスの約9割からモデルのパラメータを推定し,残りの1割に対して情報量を計算した.その結果,n=16のときに1文字あたりの情報量は最小の4.30330ビットであった.また,学習コーパスの大きさとモデルの次数による情報量の変化を調べた結果,モデルの次数を上げることによる情報量の減少量は微小であるが,学習コーパスを大きくすることによる情報量の減少量はかなりあるということが分かった.さらに,パラメータ数とエントロピーの関係についても議論する.これは,実際の日本語処理にn?gramモデルを応用する際に,適切にnの値を選ぶ指標となる.
著者
森 信介 山地 治 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.120, pp.87-94, 1997-12-11
被引用文献数
8

本論文では、文字 n?gramモデルや形態素 n?gramモデルの予測単位を文字列や形態素列に拡張した連文字 n?gramモデルや連語 n?gramモデルを定義し、予測力という観点でモデルを改善する方法を提案する。モデルの探索における目的関数は、形態素クラスタリングで有効性が示されている平均クロスエントロピーである。これは、削除補間のように、評価用のコーパスとモデルの推定用のコーパスとを別に用意するというアイデアに基づいている。日本語コーパスを用いた実験の結果、クロスエントロピーを計算すると、連文字 n?gramモデルは4.3791であり文字 n?gramモデルの5.4105より低く、連語 n?gramモデルは4.4555であり形態素 n?gramモデルの4.6053より低く、モデルの改善が観測された。In this paper, we define a string-based n-gram model and a phrase-based n-gram mode as expansions of character n-gram model and word-based n-gram model, and we propose a method to improve an n-gram model in terms of prediction. The objective function in model search is the average cross entropy, which is proven to be effective for word clustering. This criterion is, like deleted interpolation, based on the idea of separation of the corpus for evaluation and the corpus for model estimation. As an experimental result on a Japanese corpus, we obtained the entorpeis as follows: the string-based n-gram model had 4.3791, which is less than the character n-gram model's 5.4105, and the phrase-based n-gram mode had 4.4555, which is less than the word-based n-gram model's 4.6053.