著者
斉藤 いつみ 貞光 九月 浅野 久子 松尾 義博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.2, pp.297-314, 2017-03-15 (Released:2017-06-15)
参考文献数
16

ソーシャルメディア等の崩れた日本語の解析においては,形態素解析辞書に存在しない語が多く出現するため解析誤りが新聞等のテキストに比べ増加する.辞書に存在しない未知語の中でも,既知の辞書語からの派生に関しては,正規形を考慮しながら解析するという表記正規化との同時解析の有効性が確認されている.本研究では,これまで焦点があてられていなかった,文字列の正規化パタン獲得に着目し,アノテーションデータから文字列の正規化パタンを統計的に抽出する.統計的に抽出した文字列正規化パタンと文字種正規化を用いて辞書語の候補を拡張し形態素解析を行った結果,従来法よりも再現率,精度ともに高い解析結果を得ることができた.
著者
本間 幸徳 貞光 九月 西田 京介 浅野 久子 松尾 義博
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-116, no.26, pp.1-6, 2017-05-08

本稿では,ある文書におけるユーザの検索要求に対し,一つ以上の文を回答として提示する部分文書検索手法を提案する.検索要求によっては提示すべき文が文書中に散在する場合があるため,提案手法では,文間の関係性に基づいて推定した文書構造を用いることで,文書に散在する文の集合を部分文書として抽出する.また抽出された部分文書について,分散表現を利用した意昧ベクトルを作成し,検索スコアの算出に用いることで検索精度の向上を図る.評価実験により,文書構造に基づいて部分文書を抽出し,対応する意昧ベクトルを検索に用いることで,ユーザの検索要求に適した検索結果が得られることを示す.
著者
山本 幹雄 貞光 九月 三品 拓也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.104, pp.29-34, 2003-10-17
参考文献数
10
被引用文献数
9 or 0

混合ディレクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布)、文脈/文書の確率モデルを検討する。本稿では、混合ディレクレ分布のパラメータおよび適応時に必要な事後分布の期待値推定方法をいくつか述べ、動的に適応する?textit{n}gram言語モデルを用いた実験で確率的LSAのベイズ的な発展モデルとの比較を示す。混合ディレクレ分布や混合Polya分布は他のベイズ的な文脈モデルに比べて単純なので、予測分布を閉じた式で導出可能である。これは、Latent Dirichlet Allocation (LDA)のような他のベイズ的なモデルがいずれも予測分布の推定に近似を必要とする点と比べて、大きな優位性といえる。実験では、混合ディレクレ分布を用いたモデルが低い混合数で比較モデルよりも低いパープレキシティを達成できることを示す。We investigate a generative context/text model using Dirichlet mixtures as a distribution for parameters of a multinominal distribution, whose compound distribution is Polya mixtures. In this paper, we describe some estimation methods for parameters of Dirichlet mixtures and a posterior distribution (adaptation), and show experiments to compare the proposed model with the other Bayesian variants of Probabilistic LSA in perplexity of adaptive \textit{n}gram language models. Since the Dirichlet and Polya mixtures are simpler than the other Baysian context models such as Latent Dirichlet Allocation (LDA), the posterior distribution can be derived as a closed form without approximations needed by LDA. In the experiments we show lower perplexity of Dirichlet mixtures than that of the other.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14 (Released:2013-03-19)
参考文献数
20

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
貞光 九月 三品 拓也 山本 幹雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.9, pp.1771-1779, 2005-09-01
被引用文献数
6 or 0

混合ディリクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布), 生成文書モデルを提案し, 統計的言語モデルへの応用という面で高い性能をもつことを示す. 本論文では, 混合ディリクレ分布のパラメータ推定法及び適応時に必要な事後分布の期待値推定法をいくつか述べた後に, 二つの代表的な従来の文書モデルと比較する. 一つ目の従来モデルは, 統計的言語モデルにトピックを取り込むときによく使われるMixture of Unigramsである. 二つ目は代表的な生成文書モデルであるLDA(Latent Dirichlet Allocation)である. 新聞記事を用いた文書確率及び動的に適応するngramモデルを用いた実験で, 提案モデルは従来の二つのモデルと比べて低い混合数で低いパープレキシティを達成できることを示す.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
三品 拓也 貞光 九月 山本 幹雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.9, pp.2168-2176, 2004-09-15
参考文献数
19
被引用文献数
1 or 0

本論文ではかな漢字変換誤り,特に同音異義語の選択誤りを対象とした日本語スペルチェックの方法を報告する.同音異義語誤りの判定には局所的な情報と大域的な情報の両者が必要であるが,本論文では大域的な情報をモデル化するために確率的LSAを用いることを提案・検討する.評価実験として,人為的に誤りを混入させたテストデータを用いた誤り検出・訂正実験を行った.局所的な情報のモデル化に従来からよく使われているngramモデルのみを利用した手法をベースラインとして比較した.ベースラインシステムでは再現率93.8%,適合率79.0%(F値85.8%)であった性能が,確率的LSAと組み合わせることにより再現率95.5%,適合率83.6%(F値89.2%)と改善された.We report a method of a Japanese spell checker for homophone errors which often occur in Japanese input process using a kana-kanji conversion system. Error detection methods need both of local and global information around a target word. In this paper, we propose and investigate use of a probabilistic LSA for modeling global information. We will show experimental results of performance to detect and correct homophone errors which are generated randomly. We use a simple method based on ngram models as a baseline system. Ngram models are common for Japanese spell checkers to model local information. In the results, although detection rates of the baseline system are 93.8% in recall, 79.0% in precision (85.8% in F-measure), those of a combination system of an ngram model and a probabilistic LSA increase to 95.5% in recall, 83.6% in precision (89.2% in F-measure).