著者
東 藍 浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.67-74, 2006-05-19
被引用文献数
5

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証したThis paper proposes a new method forJapanese morphological analysis with unknown word (i,e out-of vocabularyword)processing The Japanese morphological analysis is based on conditional random fields(CRF)on a word trells.In the word trellis,the analyzer expands not only knownwords(i・ein-vocabularyword)but also substrings in a sentence as word candidates Kudo(Kudo 2004)discussed an issue that maximum entropy Markov model(MEMM)has label as well as length bias problems in known word processing and CRFs have potential to cope with them.We discuss the same issue in unknown word processing.Evaluation experiments on large-scale corpora show the effectiveness and impact on the proposed method.
著者
東 藍 新保仁 松本 裕治 Azuma Ai Shimbo Masashi Matsumoto Yuji
雑誌
データマイニングと統計数理研究会(第 12 回)

When we apply machine learning or data mining technique to sequential data, it is often required to take a summation over all the possible sequences. We cannot calculate such a summation directly from its definition in practice. Although the ordinary forward-backward algorithm provides an efficient way to do it, it is applicable to quite limited types of summations. In this paper, we propose general algebraic frameworks for generalization of the forward-backward algorithm. We show some examples falling within this framework and their importance.
著者
陽東 藍 横越 英彦
出版者
公益社団法人 日本農芸化学会
雑誌
化学と生物 (ISSN:0453073X)
巻号頁・発行日
vol.51, no.4, pp.223-227, 2013-04-01 (Released:2014-04-01)
参考文献数
27
被引用文献数
1

摂取した食物が脳内代謝を変動させ,脳機能活動に影響を及ぼすことが多く報告されてきた.これまでにも同様のタイトルでの記述をしており(1),今回は,比較的最新の動向について紹介する.また,脳機能に食品や食品成分がどのような影響を与えるか,それをどのように評価するかについての新しい手法も開発されてきており,食品や食品成分の情動への影響などの脳機能効果がより解明されやすくなった.
著者
東 藍 浅原 正幸 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.53(2006-NL-173), pp.67-74, 2006-05-19

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証した
著者
井手 厚 東 藍 松本 裕治
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.7, pp.1-6, 2010-05-20

Web 上の文章には,意図的に誤変換された漢字などを含む,多くの表記ゆれ表現が存在しており,Web フィルタリングを行う上では表記ゆれに対応したシステムを構築することが有効である.本論文では表記ゆれ表現を同定する方法として,KAKASI による漢字かな変換機能と MeCab の分かち書き機能という 2 つの技術を利用した手法について提案する.意図的に誤変換された表記を抽出するために,KAKASI を用いた読み候補の作成を行い,その読み候補が妥当かどうかについての判断を MeCab を利用して行う.本手法の効果を実験によって確認した.Web documents tend to include a number of spelling variations. Especially, in Japanese pages, some variations are intentionally used to hide improper words or expressions. This paper proposes to cope with this problem in two steps: expansion of possible pronunciation by KAKASI and morphological analysis by MeCab. Alter an exhaustive expansion of pronunciation of Kanji characters by KAKASI, and matching with the dictionary of improper expressions, Japanese morphological analyzer MeCab analyses the original sentence assuming the matched expressions existed in its system dictionary. We verify the effectiveness of our idea through experiments using sentences extracted from a real BBS.