著者
グプタ ビィシュウ 中村 亮裕 福田 治輝 綱川 隆司 狩野 芳伸 西田 昌史 西村 雅史
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回 (2018)
巻号頁・発行日
pp.4Pin125, 2018 (Released:2018-07-30)

ニューラル機械翻訳モデルでは扱える語彙サイズに制約があり、この課題に対処する方法としてサブワード単位、文字単位、あるいはバイト単位で処理する方法が提案されている。一方、日本語においては文字単位に分割しても漢字のバリエーションが多いために語彙サイズは比較的大きくなる。本研究では日本語テキストに対して漢字分解を適用することで語彙サイズの低減と漢字情報の維持を両立させることを目指すニューラル機械翻訳手法を提案し、評価実験を行った。
著者
小谷 亮太 綱川 隆司 西田 昌史 西村 雅史
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.306-314, 2018-02-15

本稿では,日本語文書中の語句に,Wikipedia記事へのリンクを付与するwikificationタスクにおいて,リンク付与に値する重要な語句等を選択するアンカー抽出器について検討を行う.本研究ではWikipediaにおけるリンクのガイドラインに準じたアンカー抽出基準をベースに,文書に適度にリンクを付与してWikipedia記事と結び付けることにより,文書の理解の可能性を高めることをねらいとする.日本語におけるアンカー抽出に有効と考えられる素性として,アンカーの前接語・後接語との関係をとらえた素性,および共起するアンカーの条件付きkeyphraseness素性の利用を提案する.また,一般的な日本語文書に対するアンカー抽出器の性能評価を行うため,日本語Wikificationコーパスに対して本研究で定めたアンカー抽出基準に従ってアンカー抽出作業を行い,評価用コーパスを構築した.評価実験により,提案した素性を既存手法に加えることで性能が改善することが示された.また,評価用コーパスを用いた実験では,正解率においてアンカー抽出作業者の2者間一致率の平均と同程度の性能が得られていることを確認した.
著者
西村 雅史 大嶋 良明 野崎 広志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.51, pp.117-118, 1995-09-20
被引用文献数
3

近年,欧米では単語のN-Gramのような統計的言語モデルを利用した口述筆記(Dictation)システムが,まだ離散単語発声ではあるが,実用化されはじめている.一方,日本語に関しては,語順に関する制約が弱いという知見から,N-Gramモデルの有効性について疑問視されていることや,単語の概念が明確でないため,離散発声単位として適したものがないなどの理由で,欧米と同様の構成のシステムはあまり研究されていない.日本語においても,潜在意識的ではあるが意味のある最小の単位としての単語が存在する.ただ,機械による処理を前提とする場合に用いる文法は,これとはまったく異なるものを単語として扱うのが一般的である.今回,実際に人間の振る舞いを観察することで,この"潜在意識的な日本語の単語"を抽出した.また,機械的に自動抽出された形態素解析結果との対応関係を推定することによって,この単語単位を自動生成し,N-Gramモデルを構築した.他の単位とパープレキシティによる比較を行った結果は,日本語においても(大語彙,離散単語発声による)Dictationが実現可能であることを示唆している.むろん,この単位は連続発声による認識にも容易に適用出来る.
著者
西村 雅史 伊東伸泰 山崎 一孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.4, pp.1395-1403, 1999-04-15
被引用文献数
27

我々は先に 日本人が感覚的にとらえている単語単位を 既存の形態素解析プログラムの出力である形態素単位との統計的対応関係から自動推定する方法を提案し それを認識および発声の単位とする離散単語発声の日本語ディクテーションシステムを構築した. この人間の考える単語単位を連続音声認識の認識単位としても利用することを試み 特に 他の大語彙連続音声認識システムで用いられることの多い形態素単位と比較してその有効性について調査した. また 認識単位の定義が一意に決まらない現状をふまえて 日本語の連続音声認識システムの評価方法を提案するとともに 不特定話者の大語彙音声認識実験結果について報告する. 男女各10名に対する認識実験の結果 文字誤り率3.0% 単語誤り率4.3%が得られた. さらに 句読点の自動挿入方法や 未知語モデルと単語N-gramモデルによる単語単位の自動分割方法などについても述べる.In this paper, we discuss a word-based continuous dictation system for Japanese. We previously proposed a statistical method for segmenting a text into words on the basis of human intuition, and developed an isolated-word-based Japanese dictation system. By comparing the word units used for the isolated word recognition with grammatical units, we show that the former are also very useful for continuous speech recognition. Evaluation of the performance of this continuous dictation system showed that the character error rate was 3.0%, and that the word error rate was 4.3%. We also present a method for inserting punctuation marks in spoken texts automatically, and a method for segmenting Japanese text into words by using an N-gram model, focusing on the handling of unknown words.
著者
西村 雅史 伊東 伸泰
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2473-2480, 2000-11-25
被引用文献数
26

ディクテーションシステムが実用となった今, 大語彙音声認識の研究対象は, 「読み上げ(read speech)」から自然で自由な発話(spontaneous speech)」へと移行しつつある.このような自由発話については過去に対話音声コーパスを利用して様々な観点からその性質が調べられてきた.しかし, 特に日本語に関してはそのデータ量が統計的手法に基づく大規模な音声認識システムを構築するには不十分であったこともあり, 自由発話の書き起こしを目的とするような大語彙音声認識システムの性能についてはあまり報告されていない.我々は自由発話の認識精度改善を目的として, 放送大学の講義音声を題材とした自由発話コーパスの整備を進めてきた.ここではこのコーパスの概要と, それを用いて作成した自由発話の大語彙音声認識システムの認識性能について報告する.実験の結果, 従来の読み上げを対象とするシステムでは51.5%であった講義音声の単語誤り率が, 16.4%にまで改善された.
著者
長野 徹森信介西村雅史 森 信介 西村 雅史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.69, pp.81-86, 2005-07-16
被引用文献数
1

本論文では、規則音声合成における読みとアクセントを、確率モデルに基づき同時に推定する手法を提案し、その実験結果を報告する。規則音声合成において、任意の入力テキストに対し、正しい音韻情報と韻律情報を生成することは、自然な合成音声を得るために重要な要件である。本研究では、入力テキストに対し、最も基本的な音韻情報と韻律情報である読みとアクセントを付与する問題を取り扱う。日本語の場合、入力テキストは一般的に漢字仮名交じり文であり、複数の読み候補から正しい読みを推定する必要があるとともに、その読みに対して正しいアクセントを推定する必要がある。従来、日本語テキストに対して、形態素解析・読み付与・アクセント句決定・アクセント核決定、という手順を段階的に行うことで、読みとアクセントを決定することが多かったが、本研究では、表記(単語境界)・品詞・読み・アクセントを1つの単位とみなし、n-gram モデルを用いて同時に推定する。実験では、ルールに基づきアクセント句およびアクセント核を決定する逐次的な手法との比較を行った。その結果、確率モデルに基づく手法の精度がルールに基づく手法の精度を上回ることを確認した。We present a new stochastic approach to estimate accurately phonemes and accents for Japanese TTS (Text-to-Speech) systems. Front-end process of TTS system assigns phonemes and accents to an input plain text, which is critical for creating intelligible and natural speech. Rule-based approaches that build hierarchical structures are widely used for this purpose. However, considering scalability and the ease of domain adaptation, rule-based approaches have well-known limitations. In this paper, we present a stochastic method based on an n-gram model for phonemes and accents estimation. The proposed method estimates not only phonemes and accents but word segmentation and part-of-speech (POS) simultaneously. We implemented a system for Japanese which solves tokenization, linguistic annotation, text-to-phonemes conversion, homograph disambiguation, and accents generation at the same time, and observed promising results.