著者
永田 昌明 渡辺 太郎 塚田 元
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.49, no.1, pp.89-95, 2008-01-15
参考文献数
10

統計的機械翻訳」(statistical machine translation)は,互いに翻訳になっている2つの言語の文の対から翻訳規則や対訳辞書を自動的に学習し,言語翻訳を実現する技術である.この技術は過去10年間に大きく進歩し,アラビア語と英語のような語順が比較的近い言語対では,従来の翻訳手法より精度が高いと言われている.本解説では,上下2編に分けて,近年の自然言語処理で最もホットな話題である統計的機械翻訳の技術概要,および,評価型ワークショップを中心とした最先端の研究動向を報告する.
著者
永田 昌明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.9, pp.3373-3386, 1999-09-15
被引用文献数
5

本論文では 未知語の確率モデルと単語の出現頻度の期待値に基づいて日本語テキストから未知語を収集する方法を提案する. 本手法の特徴は 単語を構成する文字の種類ごとに異なる未知語モデルを使用することによりひらがな語や複数の字種から構成される単語を収集できること および 単語の出現頻度の期待値を文字列の単語らしさの尺度とすることにより出現頻度が低い単語を収集できることである. 人手により単語分割された EDRコーパスから無作為に選択した10万文(246万語)を用いて語彙数11 521の統計的言語モデルを学習し EDRコーパスの残りの部分から無作為に選択した10万文(247万語 未知語率7.72%)をプレーンテキストと見なして語彙獲得実験を行ったところ 本手法による語彙獲得の精度は再現率61.5%適合率67.2%であった.We present a novel lexical acquisition method from Japanese texts based on a probabilistic model for unknown words and expected word frequency. The benefit of the proposed method is that it can collect hiragana words and words which consist of more than one character types by using a different unknown word model for the character type configuration of a word, and that it can collect low frequency words by using the expected word frequency as the likelihood measure of a word hypothesis. We trained a statistical language model with 11,521 vocabulary from 100 thousand manually word segmented sentences (2.46 million words) which were randomly selected from the EDR corpus, and extracted new words from another 100 thousand unsegmented sentences (2.47 million words) which were randomly selected from the rest of the EDR corpus, and whose out-of-vocabulary rate was 2.1%. The lexical acquisition accuracy of the proposed method was 61.5% recall and 67.2% precision.
著者
中嶋 秀治 永田 昌明 浅野 久子 阿部 匡伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.3, pp.480-488, 2005-03-01
被引用文献数
1

音声合成において合成音を作るためには, 未登録語であってもそのアクセント型(アクセントの位置の情報)が必要となる.本論文では, Support Vector Machine (SVM)を使って単語の読みから未登録語のアクセント型を推定する三つの方法を提案し, 性能を比較する.第1の方法では, 未登録語の読みを構成する各モーラのトーンの高低をSVMを使って推定し, 得られたトーン変化の中で高いトーンから低いトーンへ下降する場所を探して, アクセント型を判定する.第2の方法では, 単語の長さごとに用意されたSVMを使って, 同じアクセント型をもつ単語の集合に未登録語を分類することによってアクセント型を判定する.第3の方法は, 第2の方法の変形版で, 第2の方法とは異なる方法で単語の読みとアクセント型を表現する.また, 単語の長さによらない単一のSVMを使う.未登録の日本人の姓名を対象にしたアクセント型の推定実験を行ったところ, 第2と第3の手法において決定木の精度を上回り, 最高精度で姓では86.1%, 名では96.0%という結果が得られた.また, 実際のWebのニュース記事に現れた未登録語を対象にした実験でも決定木を上回り, 姓では91%, 名では86%という高い精度が得られ, 本手法の有効性が確認された.
著者
塚田 元 永田 昌明 隅田 英一郎 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.49, no.2, pp.194-202, 2008-02-15

近年,統計的機械翻訳研究コミュニティが中心となって,コンテスト形式の評価型ワークショップが開かれている.この評価型ワークショップが,(上)統計的機械翻訳入門で紹介した統計翻訳技術の急速な進歩を後押しする立役者となった.本稿では,代表的な評価型ワークショップを紹介するとともに,これを背景に進展した自動評価などの技術動向を解説する.また,これらのワークショップに日本から参加している研究機関の翻訳システムを紹介することで,日本における統計的機械翻訳研究の動向も合わせて報告する.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.5, pp.420-432, 2013-09-01 (Released:2013-07-10)
参考文献数
16
被引用文献数
3 3

Recently, natural language processing research has begun to pay attention to second language learning. However, it is not easy to acquire a large-scale learners' corpus, which is important for a research for second language learning by natural language processing. We present an attempt to extract a large-scale Japanese learners' corpus from the revision log of a language learning social network service.This corpus is easy to obtain in large-scale, covers a wide variety of topics and styles, and can be a great source of knowledge for both language learners and instructors. We also demonstrate that the extracted learners' corpus of Japanese as a second language can be used as training data for learners' error correction using a statistical machine translation approach.We evaluate different granularities of tokenization to alleviate the problem of word segmentation errors caused by erroneous input from language learners.We propose a character-based SMT approach to alleviate the problem of erroneous input from language learners.Experimental results show that the character-based model outperforms the word-based model when corpus size is small and test data is written by the learners whose L1 is English.
著者
橋本 力 黒橋 禎夫 河原 大輔 新里 圭司 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.175-201, 2011 (Released:2011-09-28)
参考文献数
22
被引用文献数
5 7

近年,ブログを対象とした情報アクセス・情報分析技術が盛んに研究されている.我々は,この種の研究の基礎データの提供を目的とし,249 記事,4,186 文からなる,解析済みブログコーパスを構築した.主な特長は次の 4 点である.i) 文境界のアノテーション.ii) 京大コーパス互換の,形態素,係り受け,格・省略・照応,固有表現のアノテーション.iii) 評価表現のアノテーション.iv) アノテーションを可視化した HTML ファイルの提供.記事は,大学生 81 名に「京都観光」「携帯電話」「スポーツ」「グルメ」のいずれかのテーマで執筆してもらうことで収集した.解析済みブログコーパスを構築する際,不明瞭な文境界,括弧表現,誤字,方言,顔文字等,多様な形態素への対応が課題になる.本稿では,本コーパスの全容とともに,いかに上記の課題に対応しつつコーパスを構築したかについて述べる.
著者
藤田 早苗 平 博順 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.223-250, 2013-06-14 (Released:2013-09-14)
参考文献数
26
被引用文献数
1

既存のテキストのみからなる辞書に対し,インターネット上にある膨大な画像を関連付けることができれば,文字列情報からだけでは得られない,視覚的な情報を利用できるようになり,用途が広がると期待できる.そのため,本稿では,辞書の出来る限り広い語義に対して画像を付与することを考える.作成・維持コストを考えれば,なるべく自動的に画像を付与することが望ましいが,大量の辞書エントリに対して,高い精度で画像を付与することは容易ではない.また,そもそもどういった語義には画像を付与できるのか,あるいはできないのかといった調査が大規模になされた例はなく,画像が付与できる語義を自動的に判別することも困難である.そこで本稿では,まず語義別に画像が付与された辞書を人手で構築することを第一の目標とする.その上で,画像が付与できる語義とできない語義について,品詞や意味クラスとの関連性に着目して分析する.具体的には,名詞,動詞,形容詞,形容動詞,副詞を含む 25,481 語,39,251 語義を対象に画像付与実験と分析を行ない,その結果,全語義の 94.0% は画像付与が可能であること,品詞や意味クラスに応じて画像付与の可否が変わることを示す.また,幅広い語義に適切な画像を付与するため,インターネットから画像検索によって画像を獲得する.検索時に重要となるのが検索語である.本稿の第二の目標は,語義毎に適切な画像を得るための検索語を調査することである.本稿では,複数の検索語の組合せ(以下,検索語セット)の中から最も適切な画像を得られる検索語セットを作業者に選択してもらい,適切な検索語セットがない場合には修正してもらう.こうして最終的に利用された検索語セットを分析し,提案手法の改良点を探る.さらに,検索語セットの優先順位の決定方法も提案,その妥当性を示すことを本稿の第三の目標とする.新しい辞書への適用等を考えると,人手による画像付与ができない場合でも,優先順位の高い検索語セットによる検索結果が利用できれば,有用だと考えられるからである.提案手法では,対象語義がメジャーな語義かどうかで優先順位を変化させる.実験では,2 種類の評価方法を通してその妥当性を示す.
著者
森元 逞 田代 敏久 竹澤 寿幸 永田 昌明 谷戸 文廣 浦谷則好 鈴木 雅実 菊井 玄一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.37, no.9, pp.1726-1735, 1996-09-15
参考文献数
21
被引用文献数
5

日本語から英語へ翻訳可能な音声翻訳実験システム(ASURA)を開発した. ASURAでは 分野間の移植性を確保できるよう 一般的な日本語話し言葉の表現を網羅するとともに 音声認識と言語翻訳のコンポーネントのいずれも 名詞や動詞などの分野に依存する辞書項目を容易に入れ替え可能な構成としている. また 音声認識や言語翻訳にともなって発生する暖昧さ(複数の候補)に対処するため 正しい候補を効率良く選択できるようにコンポーネント間 サブコンポーネント間で機能分担を行い また候補の探索メカニズムを組み込んでいる. 本論文では このようなASURAのシステム構成について述べ また システムの性能評価を行い このシステム構成の有効性を示す.We have developed the experimental speech translation system ASURA, which translates from Japanese to English. In order to keep high portability to various domains, most of the common expressions in spoken Japanese are covered, and both the speech recognition and language translation components are constructed so that domain-dependent lexical items such as nouns and verbs are easy to replace. Furthermore, all of the components and sub-components in the system share functionalities so that they can effectively reduce ambiguities created in the course of speech recognition and language translation processing. The candidate search mechanisms are also incorporated for the same purpose. This paper describes the configuration and performance evaluation of the system, and demonstrates the effectiveness of the configuration.
著者
松本 裕治 武田 浩一 永田 昌明 宇津呂 武仁 田代 敏久 山下 達雄 林 良彦 渡辺 日出雄 竹澤 寿幸
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48(1998-NL-125), pp.1-8, 1998-05-28

近年,電子化テキストの急激な増加,および,インターネットによる一般利用者の電子媒体への日常的なアクセスに伴って,言語処理研究と言語に関する実用技術の間のギャップが徐々に狭まってきており,実用的な自然言語処理研究という言葉が真に現実的な意味を持ち出してきた.本報告では,そのような実用的言語処理技術の事例のいくつかを「ここまでできるぞ言語処理技術」というタイトルで紹介する.
著者
柴木 優美 永田 昌明 山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.4, pp.229-279, 2012-12-14 (Released:2013-03-19)
参考文献数
19

Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した.Wikipedia の記事にはカテゴリが付与され,そのカテゴリは他のカテゴリとリンクして階層構造を作っている.Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある.(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており,これをそのまま利用してオントロジーを構成することは適切でない.(2) Wikipedia のカテゴリ間,及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため,is-a 関係でないリンク関係が多く存在する.これに対して我々は (1) を解決するため,上位のカテゴリ階層を新しく定義し,Wikipedia の上位階層を削除して置き換えた.さらに (2) を解決するため,Wikipedia のカテゴリ間,及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで,Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した.本論文では not-is-a 関係を判定するための 3 つの手法を適用した.これにより,“人”,“組織”,“施設”,“地名”,“地形”,“具体物”,“創作物”,“動植物”,“イベント”の 9 種類の意味属性を最上位カテゴリとした,1 つに統一された is-a 関係のオントロジーを構築した.実験の結果,is-a 関係の精度は,カテゴリ間で適合率 95.3%, 再現率 96.6%,カテゴリ‐記事間で適合率 96.2%,再現率 95.6%と高精度であった.提案手法により,全カテゴリの 84.5%(約 34,000 件),全記事の 88.6%(約 422,000 件)をオントロジー化できた.
著者
鈴木 潤 永田 昌明
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-106, no.16, pp.1-9, 2015-05-18

SkipGram, GloVe といった対数双線形言語モデルに属する単語分散表現のモデルは,これまで確率的勾配法 (SGD) やその拡張である AdaGrad といった勾配に基づくオンライン学習アルゴリズムを用いてパラメタ推定を行ってきた.しかし,対数双線形言語モデルと勾配に基づくパラメタ推定法の組み合わせは,解の収束性や再現性といった観点で,必ずしも適切な選択とは言えない.本稿では,より信頼性の高い単語分散表現を獲得する枠組みを構築することを目的として,対数双線形言語モデルが持つ性質に対応したパラメタ推定法を提案する.
著者
鈴木 潤 永田 昌明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理
巻号頁・発行日
vol.2015, no.16, pp.1-9, 2015-05-18

SkipGram, GloVe といった対数双線形言語モデルに属する単語分散表現のモデルは,これまで確率的勾配法 (SGD) やその拡張である AdaGrad といった勾配に基づくオンライン学習アルゴリズムを用いてパラメタ推定を行ってきた.しかし,対数双線形言語モデルと勾配に基づくパラメタ推定法の組み合わせは,解の収束性や再現性といった観点で,必ずしも適切な選択とは言えない.本稿では,より信頼性の高い単語分散表現を獲得する枠組みを構築することを目的として,対数双線形言語モデルが持つ性質に対応したパラメタ推定法を提案する.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

我々は統計的機械翻訳の手法を使い,学習者の作文誤り訂正を行ってきた.これまでの研究では,単語から単語への訂正ではなく,文字から文字への訂正を行なう文字単位の手法を用いて性能を向上させた.一方で,文字単位を用いることで単語の情報は失われ,訂正できなくなる場合もあった.そこで本研究では,これまで行ってきた研究の文字単位の手法を発展させ,文字単位と単語単位を組み合せることで性能が向上することを確かめた.
著者
林 良彦 山内 健二 永田 昌明 田中 貴秋
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

文章中の語句に関連するWikipedia記事を対応付けるタスクはWikificationと呼ばれる.本発表は,日本語・英語の対訳文書に含まれる固有表現に対して並行的に対応付けを行う方式を提案する.提案方式は,他方の言語の情報を利用することにより,双方の言語における固有表現抽出処理の結果を補完し,言語横断的なWikificationを達成する.
著者
西野 正彬 安田 宜仁 湊 真一 永田 昌明
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

本稿ではPersonalized PageRank (PPR) を高速に計算する方法について述べる.PPRを計算するためには隣接行列を対象とする行列の乗算を繰り返し実行する必要があるが,グラフが大規模になると乗算にかかる計算コストが膨大になる.提案手法は隣接行列をゼロサプレス型二分決定グラフ (ZDD) を用いて圧縮した形で表現し,行列の乗算に必要な演算回数を削減することによって高速化を実現する.
著者
進藤 裕之 松本 裕治 永田 昌明
雑誌
研究報告数理モデル化と問題解決(MPS)
巻号頁・発行日
vol.2013-MPS-93, no.6, pp.1-6, 2013-05-16

自然言語処理分野における統計的文法獲得では,確率文法モデルの学習にGibbsサンプリング法が広く用いられている.しかしながら,木構造データを扱う場合には,Gibbsサンプリング法のように変数の値を一つずつ順番に更新していく方法では局所解に留まりやすく,十分に尤度の高い解を得られないという問題がある.この問題を解決するために,我々は新たな部分木のブロック化サンプリング法を提案する.本手法は,データ中に現れる共通の部分木まとめてブロック化し,ブロックに含まれる変数の同時分布からサンプリングを行う.そして,その部分木ブロック化サンプラーを従来のマルコフ連鎖モンテカルロ法と組み合わせて交互に実行することにより,目的関数の最適解を効率良く探索することができる.シンボル細分化文脈自由文法を用いて統計的文法獲得の実験を行ったところ,提案手法は既存手法よりも尤度の高い文法規則が獲得できることを確認した.
著者
柴木 優美 永田 昌明 山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.4, pp.229-279, 2012-12-14

Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した.Wikipedia の記事にはカテゴリが付与され,そのカテゴリは他のカテゴリとリンクして階層構造を作っている.Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある.(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており,これをそのまま利用してオントロジーを構成することは適切でない.(2) Wikipedia のカテゴリ間,及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため,is-a 関係でないリンク関係が多く存在する.これに対して我々は (1) を解決するため,上位のカテゴリ階層を新しく定義し,Wikipedia の上位階層を削除して置き換えた.さらに (2) を解決するため,Wikipedia のカテゴリ間,及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで,Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した.本論文では not-is-a 関係を判定するための 3 つの手法を適用した.これにより,"人","組織","施設","地名","地形","具体物","創作物","動植物","イベント"の 9 種類の意味属性を最上位カテゴリとした,1 つに統一された is-a 関係のオントロジーを構築した.実験の結果,is-a 関係の精度は,カテゴリ間で適合率 95.3%, 再現率 96.6%,カテゴリ‐記事間で適合率 96.2%,再現率 95.6%と高精度であった.提案手法により,全カテゴリの 84.5%(約 34,000 件),全記事の 88.6%(約 422,000 件)をオントロジー化できた.