著者
笠原 誠司 小町 守 永田 昌明 松本 裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.4, pp.1-6, 2011-09-09

本稿では日本語学習 SNS において,ローマ字で書かれた学習者の文を仮名に変換することで,添削者が訂正を容易に行えるよう支援する方法について述べる.我々のシステムは外国語の単語を検出し,日本語の単語のみを変換する.また単語のスペルに誤りが含まれていても変換することができる.学習者の作文に対し実験を行い既存の日本語入力システムよりも 10% 高い単語変換精度を達成した.誤り解析を行うことにより,母音同士を混同しやすい,母語の発音の影響を受けた書き方をしてしまう,といった学習者の誤りの傾向を明らかにした.We present an approach to help Japanese editors on language learning SNS correct learners' sentences written in roman characters by converting them into kana. Our system detects foreign words and converts only Japanese words even if it contains spelling errors. Experimental results show that our system achieves about 10 points higher conversion accuracy than one of traditional input methods. Error analysis reveals tendency of errors made by learners. For example, learners tend to be confused by vowels and make errors caused by nature of their native language.
著者
柴木 優美 永田 昌明 山本 和英
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2010-NL-198, no.3, pp.1-8, 2010-09-09

Wikipedia を利用し,人に関する大規模な is-a 関係のオントロジーを構築する手法を提案する.本手法では初めに,人を表すカテゴリを機械学習による分類器で判定し,Wikipedia の階層構造をそのまま利用して is-a 関係だけから構成される人のカテゴリ階層を構築する.その後,人を表すカテゴリが付与されている記事から,人を表す記事をインスタンスとして抽出する.機械学習では,カテゴリ名及びカテゴリの周辺の単語が,日本語語彙大系のインスタンスとどのようにマッチするかを素性にした.その結果,人を表すカテゴリを適合率 99.3%,再現率 98.4%,人を表すインスタンスを適合率 98.2%,再現率 98.6% で抽出することができた.
著者
永田 昌明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.9, pp.3420-3431, 1999-09-15
被引用文献数
15

本論文では 統計的言語モデルとN-best探索アルゴリズムを用いた新しい日本語形態素解析法を提案する. 本方法は 未知語の確率モデルを持つことにより任意の日本語文を高精度に解析し 確率が大きい順に任意個の形態素解析候補を求められる. EDRコーパスの部分集合(約19万文 約470万語)を用いて言語モデルの学習を行い オープンテキスト100文に対してテストを行ったところ 単語分割の精度は第1候補で再現率94.6%適合率93.5% 上位五候補で再現率97.8%適合率88.3%であった.We present a novel method for Japanese morphological analysis which uses a statistical language model and an N-best search algorithm. It has a probabilistic model for unknown words to parse unrestricted Japanese sentences accurately and it can get N-best morphological analysis hypotheses. When the statistical Japanese morphological analyzer was trained on the subset of the EDR corpus (about 190 thousand sentences, 4.7 million words) and tested on 100 sentences of open text, it achieved 94.6% recall and 93.5% precision for the top candidate, and 97.8% recall and 88.3% precision for the top five candidates.
著者
福井 義和 北 研二 永田 昌明 森元 逞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.27, pp.111-118, 1996-03-14
参考文献数
7
被引用文献数
2

確率・統計的手法に基づいた対話のモデル化について研究し、このような対話モデルを大規模言語データベースであるコーパスから自動的に生成するための実験を行なった。実験に用いたコーパスは、ATR対話コーパスであり、各発話には話者ラベルおよび発話行為タイプ(FT; Illocutionary Force Typ)が付与されている。Ergodic HMMおよびALERIGIAアルゴリズムを用いて、話者ラベルおよびIFTの系列をモデル化することにより、話者の交替や質問・応答・確認といった会話の基本的な構造を確率・統計的にモデル化することができた。In the work described here, we automatically deduce dialogue structures from a corpus with probabilistic methods. Each utterance in the corpus is annotated with a speaker label and an utterance type called IFT (Illocutionary Force Type). We use an Ergodic HMM(Hidden Markov Model) and the ALERGIA algorithm, an algorithm for learning probabilistic automata by means of state merging, to model the speaker-IFT sequences. Our experiments successfully extract typical dialogue structures such as turn-taking and speech act sequencing.
著者
永田 昌明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.85, pp.9-16, 1997-11-12
参考文献数
14
被引用文献数
4

本稿では、小さな単語リストと大量のプレーンテキストから日本語の単語分割プログラムを作成する方法を提案する。本手法は、単語単位の統計的言語モデル、初期値推定手続き、再推定手続きから構成される。まず文字種に関するヒューリスティクスを用いて訓練テキストから抽出した単語候補を単語リストに加え、単語リスト中の単語と最長一致する訓練テキスト中の文字列の頻度から単語頻度の初期値を推定する。次に単語頻度に基づく統計的言語モデルを用いて訓練テキストを単語分割し、単語リストと単語頻度を再推定する。1719個の単語と390万文字のテキストに対して本手法を用いて単語分割プログラムを訓練したところ、単語分割精度は再現率86.3%,適合率82.5%であった。We present a self-organized method to build a stochastic Japanese word segmenter from a small number of basic words and a large amount of unsegmented training text. It consists of a word-based statistical language model, an initial estimation procedure, and a re-estimation procedure. Initial word frequencies are estimated by counting all possible longest match strings between the training text and the word list. The initial word list is augmented by identifying words in the training text using a heuristic rule based on character type. The word-based language model is then re-estimated to filter out inappropriate word hypotheses. When the word segmenter is trained on 3.9M character texts and 1719 initial words, its word segmentation accuracy is 86.3% recall and 82.5% precision.