著者
宮崎 正弘 白井 諭 池原 悟
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.3, pp.3-25, 1995-07-10 (Released:2011-03-01)
参考文献数
23
被引用文献数
1 3

三浦文法は、時枝誠記により提唱され三浦つとむにより発展的に継承された言語過程説に基づく日本語文法である。言語過程説によれば、言語は対象-認識-表現の過程的構造をもち、対象のあり方が話者の認識を通して表現されている。本論文では、三浦文法に基づいて体系化した日本語品詞体系および形態素処理用の文法記述形式を提案し、日本語の形態素処理や構文解析におけるその有効性を論じた。日本語の単語を、対象の種類とその捉え方に着目し、約400通りの階層化された品詞に分類して、きめ細かい品詞体系を作成した。本論文で提案した品詞体系と形態素処理用文法記述形式に基づき、実際に形態素処理用の日本語文法を構築した結果によれば、本文法記述形式により例外的な規則も含めて文法を簡潔に記述できるだけでなく、拡張性の点でも優れていることが分かった。本品詞体系により、三浦の入れ子構造に基づく意味と整合性の良い日本語構文解析が実現できるものと期待される。
著者
池原 悟 白井 諭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.25, no.2, pp.298-305, 1984-03-15
被引用文献数
15

日本文に含まれる誤字を対象に誤字検出実験と訂正候補抽出実験を行い 誤字の自動検出訂正の可能性を明らかにした.誤字検出実験では 正しい文章の解析のために作成した単語解析プログラムを誤字検出を目的とする日本文チェッカとして使用した結果 68%の誤字検出率を得たが 検出不能の誤字例を分析した結果 文節解析レベルのチェック機構の拡充と構文解析レベルのチェック機構の導入で 誤字検出率はそれぞれ89 93%に向上する見込みを得た.訂正候補の抽出では 誤字検出実験で検出した誤字に対して二次マルコフモデルを適用し 誤字の前後の文字からみて接続確率の高い文字を候捕文字として抽出した.また 誤字検出での検出特性に着目して正解文字の字種を確率的に推定することにより 抽出した候補文字の正解含有率の向上を図った.誤字検出実験では誤りを検出したとき 誤りの位置を正確に知ることは困難で 誤りを含む文字区間とその区間内の文字の誤り確率が与えられる.そこで 訂正候補の抽出では 誤りの検出された区間に対して訂正文字列候補を抽出した.その結果 抽出された訂正文字列候捕は上位15位までで約60%の正解含有率をもつこと 誤りの位置が正確にわかれば 正解含有率は10?25%向上することなどがわかった.これらの結果は 漢字OCRの誤読文字 リジェクト文字の救済等に応用できるものと期待される.
著者
内野 一 白井 諭 横尾 昭男 大山 芳史 古瀬 蔵
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.1167-1174, 2001-06-01
被引用文献数
1

機械翻訳システムの有効な活用として, 市況速報記事を対象にした日英機械翻訳システムを開発した.システムは, ルール型翻訳とテンプレート型翻訳とのハイブリッド構成であり, 実験では, 文単位で90%, 記事単位で70%の高い翻訳正解率を得ることができた.この評価結果に基づき, 更に対象を決算速報記事に限定し, テンプレート型翻訳による自動翻訳システムALTFLASHを構築した.ALTFLASHは日本語の決算速報を英文で配信する実用システムとして導入され, 従来人手で行われていた翻訳作業に比べ, 処理時間, 翻訳品質, 費用などの面で大幅な改善効果を示した.
著者
白井 諭 池原 悟 河岡 司 中村 行宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.1, pp.12-21, 1995-01-15
被引用文献数
14

最近、言語間の発想法の違いを克服し、機械翻訳の品質を向上させるための方法として、多段翻訳方式や用例翻訳方式が提案され、その効果が期待されている。また、現在、翻訳困難な表現や構文は、人手による原文前編集の対象となっているが、これらの多くは、言語間の発想の違いを反映したものであることを考えれば、前編集も言語間の発想の違いを克服する方法の一つであり、その自動化による訳文晶質の向上が期待される。しかし、自然言語の表現には、同形式異内容の間題があり、副作用の生じないよう、前編集の内容をそのまま自動化することは困難であった。これに対して、本論文では、(1)単語の精密な文法的属性と意味的属性を使用すれば、原文に対する自動書き替え規則の適用条件が詳細に記述できると予想されること、(2)原文解析によって文溝成要素の文法的、意味的性質が明らかになった段階で書き替えを適用すれば、書き替えによる予想外の副作用を排除できると期待されること、の2点に着目して、原文自動書き替え型の翻訳方式を提案する。新聞記事を使用した翻訳実験によれぱ、自動書き替え規則の適用された箇所は102文中、44文、延べ52箇所であり、そのうち訳文品質が明らかに向上した文は33文であった。また、規則の適用された文の構文意味解析の多義の数が平均5.39/文から1.31/文まで減少した。これらの結果、本方式は翻訳品質向上ならびに多義減少の効果の大きいことが分かった。
著者
白井諭 大山 芳史 池原 悟 宮崎 正弘 横尾 昭男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告
巻号頁・発行日
vol.98, pp.47-52, 1998
被引用文献数
4

日英機械翻訳における高品質な意味解析を実現するため, 筆者らは日英機械翻訳システムの開発とともに, それに用いる意味辞書の構築を進めてきた。この意味辞書は, 単語や表現構造の意味を体系的に分類した意味属性体系, 単語に関する知識を収録した単語意味辞書, 用言を核とした表現構造を収録した構文意味辞書の3つから構成される。意味属性体系は, 対象の見方や捉え方が, 一般名詞意味属性, 固有名詞意味属性, および, 表現構造に対する用言意味属性として3種類3, 000属性に分類, 体系化されている。単語意味辞書は, 現代日本語の記述文への適用に耐えるよう, 単語の異表記や固有名詞20万語を含む40万語に対し, 文法情報のほかに, 一般名詞意味属性と固有名詞意味属性が付与されている。構文意味辞書は, 現在, 6, 000用言に対する表現構造が日英対訳形式で16, 000パターン収集され, 日本語パターンの格要素の名詞に対し一般名詞意味属性を用いた制約条件が記述され, 日本語パターン全体に対し用言意味属性が付与されている。本稿では, これらの意味辞書の開発経過と, それに基づいて作成した日本語語彙大系の概要について報告する。
著者
白井 諭 池原 悟 横尾 昭男 木村 淳子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.10, pp.2353-2361, 1995-10-15
被引用文献数
31

従来、述語間の係り受け関係の曖昧さの問題は、長文解析の精度を低下させる大きな要因であった。この問題を解決するため、日本語の意味的な階層的表現構遺に着目した従属節間の係り受け解析方式を提案し、その効果を示した。言語過程説の立場から見ると、日本語述語の間には書き手が対象をとらえて表現していく階層的な過程が反映していると考えられる。そこで、本論文では、日本語表出過程に着目した南不二男の3段階の階層的な従属節分類を、その意味と形式に着目して詳細化し、主節と従属節の述語を基本分類13種、細分類4種に分類した。そして、それらの階層的な順序関係を手がかりに、述語間の係り受け閣係を決定する方法を提案した。新聞記事972文(述語数含計2,327件、そのうち係り先の暖昧な述語は、661件)を対象とした実験結果によれば、従来の方法では、係り先の曖昧な述語が356件残ったのに対して、本論文の方法では、54件に減少し。、その結果、述語問の係り受け関係の解析において、係り先第1侯補の正解率は、92%から98%に向上した。
著者
春野 雅彦 白井 諭 大山 芳史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.39, no.12, pp.3177-3186, 1998-12-15
被引用文献数
15

本稿ではコーパスから決定木を構成し日本語係受け解析に適用する手法を提案する.一般に日本語係受け解析では2文節間の係りやすさを数値で表現し,その数値を1文全体で最適化することによって係受け関係を決定する.したがって,日本語係受け解析の問題は2文節間の係りやすさを正確に計算することに帰着される.提案手法の主旨は2文節の係りやすさの評価と必要な属性の自動選択に決定木を利用するということである.既存の統計的依存解析の研究では,文節の種類によらず,あらかじめ決められた属性すべてによる条件付き確率で係りやすさを評価する.一方,決定木による手法では,係受け関係にある文節とそうでない文節を弁別する属性が,2文節の種類に応じて重要な順に必要な数だけ選択される.したがって,大量の属性をシステムに与えても必要がなければ利用されず,データスパースネスの問題を避けることが可能となる.これによって構文解析の精度向上に効果が期待される属性はすべて採用することができる.EDRコーパスを用いて手案手法の評価実験を行ったところ,既存の統計的係受け解析手法を4%上回る解析精度が得られた.さらに本実験では,1.決定木の枝刈りと解析精度の関係,2.データ量と解析精度の関係,3.種々の属性の解析精度に与える影響,4.文節の主辞に関して頻出単語の表層,分類語彙表カテゴリを属性に加えた場合の影響,の各項目について検討を行った.その結果,1.少なめの枝刈りで解析精度が向上する,2.係受け解析の学習に必要な文数はおよそ2万文である,3.属性のうち特に有効なのは,係り側文節の形と文節間距離である,4.主辞の語彙情報を使っても必ずしも解析精度が上がるわけではない,の4点で明らかとなった.これらの結果は今後日本語係受け解析システムや日本語解析済みコーパスを構築する際に一定の指針となりうる.This paper describes a Japanese dependency parser that uses a decision tree.Jananese dependency parser generally prepares a modification matrix,each value of which represents how a phrase tends to modify the other.The parser determines the best dependency structure by totally optimizing the values in a sentence under several constraints.Therefore,our main task is to precisely evaluate the modification matrix from corpora.Conventional stochastic dependency parsers define a set of learning features and apply all of them regardless of phrase types.On the contrary,our decision tree based method automatically selects significant and enough number of features according to the phrase types.We can make use of large number of features that may have contrivution to parsing accuracy.The proposed method was tested with EDR corpus and yielded significantly better (4%) performance over a conventional statistical dependency parser.In addition,we tested the following 4 properties of the system;1.relation between parsing accuracy and pruning of decision tree,2.relation between parsing accuracy and amount of training data,3.relation between types of features and parsing accuracy and 4.parsing accuracy when additionally using frequent open class words and thesaurus categories.The results were 1.weak pruning yielded better performance,2.the decision tree learning for dependency parsing required fifty thousands Japanese sentences,3.the type of modifier and the modification distance are particularly effective for parsing accuracy and 4.open class words and thesaurus categories do always improve the accuracy.These findings may offer the important clues to Japanese parser developments and corpus constructions in the future.