著者
工藤 拓 山本 薫 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.161, pp.89-96, 2004-05-13
参考文献数
21
被引用文献数
26

本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.
著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.137, pp.39-46, 2000-06-01
参考文献数
9
被引用文献数
1

我々は日本語形態素解析器『茶筌』のための学習ツールを開発している。現在『茶筌』では階層構造をもった品詞体系を採用し、タグの種類は約500にもなっている。このため、通常の品詞tri-gramモデルの作成は困難で、品詞bi-gramモデルでも適当な量のタグづけコーパスを得ることは難しい。通常、このような細かいタグを取り扱うために、複数のタグを同値類へとグループ化することによってタグの数を減らすことが行われる。我々はこれを拡張し、マルコフモデルの条件付き確率計算について各件でタグの同値類を変更するようにした。さらに、例外的な現象によるデータスパースネスに対処するため、単語レベルまで品詞として見るモデルと、選択的tri-gramモデルを導入した。また、単語レベルまで品詞として見る場合には、単語-品詞間スムージングを導入した。『茶筌』にこれらのモデルを適用し、各拡張の評価を行った。
著者
萩行 正嗣 柴田 知秀 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.185, pp.45-52, 2008-05-15
参考文献数
14
被引用文献数
1

近年、インターネット環境の普及とともに数多くの人がブログを通じて情報を発信するようになっている。それに伴い、大量に存在するブログから面白いものを探し出すことが困難になってきている。本研究では表層・語彙的特徴量に基づき、ブログの面白さを分析する手法を提案する。まず、ブログの記事から文字長などの表層的特徴量や評価表現などの語彙的特徴量といった様々な特徴量を抽出する。そして,これらを特徴量として与えてSVRを用いた機械学習を行なうことで、ブログの面白さを推定する。独自に設置したブログを用いて収集した249件のブログ記事とそれを採点したものを用いて実験を行なったところ,ベースラインを上回る精度を達成することができた。また、面白さの個人差の問題についてはドメインアダプテーションを用いることで対処した。最後に、学習されたモデルからブログの面白さの要因について考察を行なった。
著者
来住 伸子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告
巻号頁・発行日
vol.124, pp.87-94, 1998-03-12
参考文献数
5
被引用文献数
3

分野を特定することにより、既存のWWW情報検索ツール(検索エンジンやディレクトリサービス)より効率のよい情報検索が可能なツール、qBookを現在作成中である。qBookはWWWロボットによる自動収集と、収集した文書の内容の特定の分野に関する関連性の評価を並行して行うことにより、小規模で効率のよい、自動収集を行う。この論文では、qBookの実現方法と、特定分野を料理の作り方(レシピ)とした時のqBookの情報収集効率の評価結果を紹介する。
著者
黄 海湘 藤井 敦 石川 徹也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.174, pp.49-54, 2006-07-28
参考文献数
10

外国語の固有名詞や専門用語を翻字するときに,日本語や韓国語ではカタカナやハングルなどの表音文字を用いる.しかし,中国語では漢字を用いて翻字する.漢字は表意文字であるため,音は同じでも漢字によって与える印象が異なる.本研究は,中国への翻字において適切な漢字選択するために,発音だけでなく,翻字対象の印象や種別を考慮する手法を提案する.評価実験によって提案手法の有効性を示す.
著者
塚本 浩司 颯々野 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.146, pp.81-88, 2001-11-20
被引用文献数
2

本稿では、テキスト分類のタスクに対し、AdaBoostを用いた能動学習の手法を適用した結果を報告する。対象文書としてReutesr-21578コレクションを用いたところ、能動学習なしのAdaBoostの精度を、約1/10の正解データ量で実現できた。また、文書の表現を語の出現回数を特徴値とするベクトルから、語が出現したかどうかのbinary値を特徴値とするベクトルに変えるとにより、能動学習で観察されることのあるサンプル数の増加に伴う精度の劣化について考察した。