著者
堀井 統之 加藤 恒昭 大山 芳史
雑誌
全国大会講演論文集
巻号頁・発行日
vol.41, pp.183-184, 1990-09-04

メッセージ、特に電報文を対象として、その効率的な蓄積方法について検討を行なっている。できるだけ少ない蓄積メッセージから多様なメッセージを生成するためには、蓄積されている複数のメッセージの各部分を組み合わせて新たなメッセージを合成できると都合がよい。これは、たとえば、(例1)新郎、新婦の誕生バンザイ。人生は七転八起。二人三脚で長い旅路のゴールを目指そう。(例2)ご結婚おめでとうございます。北の町の春は、お二人の愛から始まります。末長くお幸せに。という2つの電報文が蓄積されているときに、これらから、ご結婚おめでとうございます。人生は七転八起。二人三脚で長い旅路のゴールを目指そう。末長くお幸せに。を合成できるということである。このような処理を考えた場合、メッセージをそのまま蓄積するのではなく、新たなメッセージを合成する際の一部分となり得るような単位、すなわち「人生は七転八起。二人三脚で長い旅路のゴールを目指そう。」などのような、意味的につながりを持つまとまりに分割して蓄積する必要がある。我々はそのような単位のことをセグメントと呼んでいるが、本稿では、各文の言語行為に着目して、メッセージを自動的にセグメントごとに分割する手法について述べる。
著者
宮崎 正弘 大山 芳史
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.27, no.11, pp.1053-1061, 1986-11-15

漢字かな混りの任意の日本語文を明瞭で自然な連続音声に自動変換するための言語処理方式を提案する.まず 基本となる文解析においては 解析精度と処理能力を両立させるものとして 局所的総当り法による形態素解析をベースとし 必要に応じて係り受け解析などより深い解析を行う多段解析法を提案する.さらに 文解析の結果を基に 文を高い精度で音韻列に自動変換し 自然な韻律情報を自動付与する方法を提案する.辞書については 43万語を収録した日本語辞書を構築し その高速検索を可能とした.本言語処理方式と音声合成装置を組合せて 高い精度と処理能力をもった実用的な日本文音声出力システムを開発した.
著者
内野 一 白井 諭 横尾 昭男 大山 芳史 古瀬 蔵
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.1167-1174, 2001-06-01
被引用文献数
1

機械翻訳システムの有効な活用として, 市況速報記事を対象にした日英機械翻訳システムを開発した.システムは, ルール型翻訳とテンプレート型翻訳とのハイブリッド構成であり, 実験では, 文単位で90%, 記事単位で70%の高い翻訳正解率を得ることができた.この評価結果に基づき, 更に対象を決算速報記事に限定し, テンプレート型翻訳による自動翻訳システムALTFLASHを構築した.ALTFLASHは日本語の決算速報を英文で配信する実用システムとして導入され, 従来人手で行われていた翻訳作業に比べ, 処理時間, 翻訳品質, 費用などの面で大幅な改善効果を示した.
著者
白井諭 大山 芳史 池原 悟 宮崎 正弘 横尾 昭男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告
巻号頁・発行日
vol.98, pp.47-52, 1998
被引用文献数
4

日英機械翻訳における高品質な意味解析を実現するため, 筆者らは日英機械翻訳システムの開発とともに, それに用いる意味辞書の構築を進めてきた。この意味辞書は, 単語や表現構造の意味を体系的に分類した意味属性体系, 単語に関する知識を収録した単語意味辞書, 用言を核とした表現構造を収録した構文意味辞書の3つから構成される。意味属性体系は, 対象の見方や捉え方が, 一般名詞意味属性, 固有名詞意味属性, および, 表現構造に対する用言意味属性として3種類3, 000属性に分類, 体系化されている。単語意味辞書は, 現代日本語の記述文への適用に耐えるよう, 単語の異表記や固有名詞20万語を含む40万語に対し, 文法情報のほかに, 一般名詞意味属性と固有名詞意味属性が付与されている。構文意味辞書は, 現在, 6, 000用言に対する表現構造が日英対訳形式で16, 000パターン収集され, 日本語パターンの格要素の名詞に対し一般名詞意味属性を用いた制約条件が記述され, 日本語パターン全体に対し用言意味属性が付与されている。本稿では, これらの意味辞書の開発経過と, それに基づいて作成した日本語語彙大系の概要について報告する。
著者
今村 賢治 堀井 統之 大山 芳史
雑誌
全国大会講演論文集
巻号頁・発行日
vol.46, pp.109-110, 1993-03-01

電報等のメッセージの中には、我々が読んだとき、送り手の性別を感じさせるものがある。例えば、「おまえもがんばれよ」という句が入ったメッセージの送り手の性別には男情、「あなたもがんばってね」という句なら女性と感じることができる。このように、同じ意味であるにも関わらず、送り手の性別の違いを感じるということは、メッセージに何らかの言語的特徴があることを示している。本塙では、言語表現という特徴を用いて、メッセージの送り手の性別を判定する方式について検討した結果を報告する。
著者
春野 雅彦 白井 諭 大山 芳史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.39, no.12, pp.3177-3186, 1998-12-15
被引用文献数
15

本稿ではコーパスから決定木を構成し日本語係受け解析に適用する手法を提案する.一般に日本語係受け解析では2文節間の係りやすさを数値で表現し,その数値を1文全体で最適化することによって係受け関係を決定する.したがって,日本語係受け解析の問題は2文節間の係りやすさを正確に計算することに帰着される.提案手法の主旨は2文節の係りやすさの評価と必要な属性の自動選択に決定木を利用するということである.既存の統計的依存解析の研究では,文節の種類によらず,あらかじめ決められた属性すべてによる条件付き確率で係りやすさを評価する.一方,決定木による手法では,係受け関係にある文節とそうでない文節を弁別する属性が,2文節の種類に応じて重要な順に必要な数だけ選択される.したがって,大量の属性をシステムに与えても必要がなければ利用されず,データスパースネスの問題を避けることが可能となる.これによって構文解析の精度向上に効果が期待される属性はすべて採用することができる.EDRコーパスを用いて手案手法の評価実験を行ったところ,既存の統計的係受け解析手法を4%上回る解析精度が得られた.さらに本実験では,1.決定木の枝刈りと解析精度の関係,2.データ量と解析精度の関係,3.種々の属性の解析精度に与える影響,4.文節の主辞に関して頻出単語の表層,分類語彙表カテゴリを属性に加えた場合の影響,の各項目について検討を行った.その結果,1.少なめの枝刈りで解析精度が向上する,2.係受け解析の学習に必要な文数はおよそ2万文である,3.属性のうち特に有効なのは,係り側文節の形と文節間距離である,4.主辞の語彙情報を使っても必ずしも解析精度が上がるわけではない,の4点で明らかとなった.これらの結果は今後日本語係受け解析システムや日本語解析済みコーパスを構築する際に一定の指針となりうる.This paper describes a Japanese dependency parser that uses a decision tree.Jananese dependency parser generally prepares a modification matrix,each value of which represents how a phrase tends to modify the other.The parser determines the best dependency structure by totally optimizing the values in a sentence under several constraints.Therefore,our main task is to precisely evaluate the modification matrix from corpora.Conventional stochastic dependency parsers define a set of learning features and apply all of them regardless of phrase types.On the contrary,our decision tree based method automatically selects significant and enough number of features according to the phrase types.We can make use of large number of features that may have contrivution to parsing accuracy.The proposed method was tested with EDR corpus and yielded significantly better (4%) performance over a conventional statistical dependency parser.In addition,we tested the following 4 properties of the system;1.relation between parsing accuracy and pruning of decision tree,2.relation between parsing accuracy and amount of training data,3.relation between types of features and parsing accuracy and 4.parsing accuracy when additionally using frequent open class words and thesaurus categories.The results were 1.weak pruning yielded better performance,2.the decision tree learning for dependency parsing required fifty thousands Japanese sentences,3.the type of modifier and the modification distance are particularly effective for parsing accuracy and 4.open class words and thesaurus categories do always improve the accuracy.These findings may offer the important clues to Japanese parser developments and corpus constructions in the future.