著者
中川 哲治 工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.9, pp.77-82, 2001-01-25
被引用文献数
2

品詞タグ付けにおいて,辞書に存在する語と比較して未知語に対する解析精度は低く,品詞タグ付けの全体の性能を左右する要因となる。本稿では,英語における未知語の品詞をSupport Vector Machineを用いて推定する手法を提案する。単語の部分文字列やコンテキストを素性として,高い精度で品詞を推定することができた。さらに同じ枠組みで,SVMを用いて品詞のタグ付けを行ったところ,100 000トークンの訓練データによる学習の結果,95.9%という従来手法以上の精度が得られた。In part-of-speech tagging, the accuracy for unknown words is lower than for known words. In consideration of high accuracy rate of up-to-date statistical POS taggers, unknown words account for non-negligible cause of errors. This paper describes POS estimation for unknown words using Support Vector Machines. We achieved high accuracy of POS tag estimation using substrings and surrounding contexts as feature. Furthermore, we apply this method to a practical POS tagger, and achieved the accuracy of 95.9%, higher than conventional approaches.
著者
中川 哲治 乾 健太郎 黒橋 禎夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.108, no.408, pp.25-30, 2009-01-19

本稿では,自動獲得されたラベル付きデータを利用して,統計的な分類器に基づく評価極性分類の精度を改善させる方法について述べる.正解ラベルの付与された訓練データは機械学習に基づく自然言語処理を行う上で非常に重要であり,これまでにラベル付きデータを自動的に収集する方法がいくつか提案されている.しかしながらそのようなデータは誤りを含んでいる可能性があるため,訓練データとして直接利用するには適さない可能性がある.そこでこの問題に対処するために,ラベルの確信度により事例の重み付けを行う方法を提案する.実験の結果,提案手法を用いて自動獲得されたラベル付きデータを利用することにより,評価極性分類の精度を向上させることができた.
著者
中川 哲治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.47, pp.19-24, 2007-05-24
被引用文献数
1

本稿では,ギブスサンプリングを用いた係り受け解析手法を提案する.既存の解析手法ではしばしば変数間に独立性を仮定しており,利用可能な素性が限られているという問題があった.提案手法では,依存構造木全体をモデル化する確率分布を考えることで,依存構造木中の兄弟ノードに関する関係や,子ノードと祖父母ノードに関する関係などの,文中の任意の素性を利用することができる.複数のコーパスで実験を行った結果,提案手法は既存手法と比較して同程度以上の解析精度を持つことを確認した.In this paper, we present a method for dependency parsing with Gibbs sampling.Existing methods for dependency parsing often assume independence among variables, and have limitations in available features.Our method uses a probabilistic model of a whole dependency tree, and allows us to use arbitrary features in a dependency tree, which include relations between sibling nodes and relations between a child and its grandparent nodes.Experimental results on multiple corpora showed that the performance of our method was competitive with other state-of-the-art methods.
著者
中川 哲治 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.197-204, 2004-07-16

本稿では,中国語と日本語の単語分割を行うために,コスト最小法と文字タグ付け法を組み合わせた単語分割手法を提案する.単語分割に関してこれまでに多くの研究が行われているが,一般に単語単位で処理を行うコスト最小法は未知語の扱いが困難であり,文字単位で処理を行う文字タグ付け法は既知語に対する精度が低い.そこで,2つの手法を組み合わせることでこれらの問題を解決することを試みる.複数のコーパスを使用して中国語と日本語の単語分割実験を行った結果,高い解析精度が得られることを確認した.In this paper, we propose a hybrid method for Chinese and Japanese word segmentation which combines the Markov model-based method and the character tagging method. In general, word-based Markov models have difficulties in handling of unknown words and the character-based character tagging method performs worse than other methods for known words. In order to solve these problems, we combine the two methods. Experimental results of Chinese and Japanese word segmentation with multiple corpora showed that the method achieves high accuracy.