文献一覧: 池原悟 (著者)

8 0 0 0 2重マルコフモデルを用いたべた書きかな文の仮文節境界の推定方法

著者: 荒木哲郎池原悟土橋潤也笹島伸一
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.38, no.6, pp.1116-1125, 1997-06-15
被引用文献数: 4

べた書きかな文のかな漢字変換精度を向上させるためには,変換の過程で正解を漏らさないように,辞書から,かな文字列に含まれる単語候補をすべて抽出して組み合わせて評価することが必要であるが,文の長さが長くなるにつれて単語候補の組合せの数が増大し解析が困難となる問題がある.従来,べた書きの漢字かな混じり文の場合は,字種の変化点に着目して仮文節境界を決定する方法が提案されているが,この方法は字種が,かな文字に限定されるべた書きかな文には適用できない.かな文の場合も,何らかの方法で仮文節境界を見つけることができれば,解析の困難さの問題は解決できると期待される.本論文では,かな文字列の連鎖確率の変化点に着目した仮文節界の推定法を提案する.具体的には,マルコフ連鎖確率モデルによる仮文節境界の推定法を,(1)文節境界の学習の有無,(2)連鎖確率の変化点の再評価の有無,および(3)マルコフ連鎖確率の適用法の違いの3点に着目して,8通りに分けて評価した.その結果,文節境界を学習したデータを用いて連鎖確率の落ち込む点を抽出し,その点に文節境界の存在を仮定して再評価する方法が最も優れていること,また,その際,マルコフ連鎖確率は前方向,後方向を組み合わせて使用するのが良いことが分かった.この方法によって推定された仮文節境界の精度は,適合率94.0%,再現率76.8%で,従来,漢字かな混じり文の解析で使用されている仮文節境界推定法(字種の変化点に着目する方法)の精度よりも良ことから,提案したマルコフ連鎖確率モデルの方法はべた書きかな文の解析に有効と判断できる.In order to improve the precision to translate from the non-segmented "Kana" sentences into "Kanji-Kana" sentences,it is necessary to examine all of the word candidates extracted from the dictionary for the sentence.However,the amount of computer memories required for the translating processing explodes in many times,because the number of the combinations of candidated for "Kanji-Kana" words grows rapidly in propotion to the length of the sentence.The memory explosion can be prevented if a sentence is separated into "bunsetsu".Therefore,a method to correctly find the boundaries of bunsetsu are considered to be a key technique to improve the precision of "Kana"-"Kanji" translation.However,the useful method to find them are not known yet.This paper proposes a new method of finding provisional boundaries of "bunsetsu" for non-segmented "Kana" sentences using 2nd-order Markov model."Precision factor" and "Recall factor" for provisional boundaries of "bunsetsu" determined by this method,were experimentally evaluated using the statistical data for 70 issues of a daily Japanese newspaper.

https://ci.nii.ac.jp/naid/110002721564

3 0 0 0 OA 漫画における表情に着目した情緒タグ付きテキスト対話コーパスの構築

著者: 徳久雅人村上仁一池原悟
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.14, no.3, pp.193-217, 2007-04-10 (Released:2011-03-01)
参考文献数: 15
被引用文献数: 2 4

信頼性の高い情緒タグ付きテキスト対話コーパスを実現することを狙い, 漫画の対話文を対象に, 登場人物の表情を参照する方法によって情緒タグを付与した. また, 得られた対話コーパスの信頼性を評価した. 通常, 言語表現と話者の情緒とは, 必ずしも直接的な対応関係を持つとは限らず, 多義の存在する場合が多いため, 対話文に内包された情緒を言語表現のみによって正しく判定することは難しい. この問題を解決するため, 既に, 音声の持つ言語外情報を活用する方法が試みられているが, 大量の音声データを収集することは容易ではない. そこで, 本稿では, 漫画に登場する人物の表情が持つ情報に着目し, タグ付与の信頼性向上を図った. 具体的には, 漫画「ちびまる子ちゃん」10冊の対話文 (29, 538文) を対象に, 1話につき2人のタグ付与作業者が一時的な「表情タグ」と「情緒タグ」を付与した後に, 正解とする表情タグと情緒タグを両者が協議して決定するという手順で, コーパスを構築した. 決定された正解の情緒タグは16, 635個となった. 評価結果によれば, 付与された一時的な情緒タグの作業者間での「一致率」は78%で, 音声情報を使用した場合 (81. 75%) と比べて遜色のない値を示していること, また, 最終的に決定した情緒タグに対する作業者以外の者による「同意率」は97%であることから, タグ付与の安定性が確認された. また, 得られたコーパスを「情緒表現性のある文末表現の抽出」に使用したところ, 3, 164件の文末表現が清緒の共起割合とともに抽出され, 自然で情緒的な文末表現が得られたことから, 本コーパスに対しての「言語表現と情緒の関係を分析する上での1つの有効性」が示された. 以上から, 情緒判定において, 漫画に登場する人物の表情は, 音声に匹敵する言語外情報を持つことが分かり, それを利用したタグ付与方法の信頼性が確認された.

2022-05-18 22:33:19
3 + 0 Twitter

3 0 0 0 IR 日英機械翻訳のための意味解析用の知識とその分解能

著者: 池原悟宮崎正弘横尾昭男
出版者: 情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.34, no.8, pp.1692-1704, 1993-08-15
被引用文献数: 33

自然言語処理において意味処理を実現するには、意味処理の目的と範囲を明確にすること、また、それに合わせて必要な知識の種類とその分解能を見定めて収集整理することが大切である。本論文では、言語過程説の立場から言語表現の意味を「表現」に結びつけられた「対象」と話者の「認識」の関係と捉え、「意味処理」を言語表現に用いられた言語規範の種類を判別する「意味解析」と、話者と対象世界とを関係づける「意味理解」の二つに分けることを提案した。このうち目本語の「意味解析技術」を実現するために必要な言語知識について、さらに語彙に関する知識と用言を核とした表現構造に関する知識に分け、それぞれ単語意味辞書(名詞語約37万語)、構文意味辞書(文型数約1.3万文型)として収集整理することを試みた。両者は名詞の単語意味属性による記述を介して相互に結合されるため、それら辞書の記述能力は単語意味属性の分解精度で決まる。そこで、単語意味属性の分解精度と用言文型の記述能力との関係を調べると、従来の50?500種の意味属性分類では記述不能な用言の文型頻出するのに対して、約3000種に分類した場合は、一部の用言(補助用言など抽象度の大きいもの)を除いて、訳し分けに必要な文型がほぼ記述できることがわかった。文型記述能力向上の効果は、和語系の用書と専門用語の用言の持つ文型において著しく、記述能力はいずれも数倍以上となった。また、これによって記述された言語知識は機械翻訳において、用言と体言の訳し分けに効果があるだけでなく、複合語解析や文脈処理、訳しやすい日本文への自動書き換えなどの実現に有効であることがわかった。

2014-09-12 01:14:11
3 + 1 Twitter

https://ci.nii.ac.jp/naid/110002722538

3 0 0 0 m重マルコフ連鎖モデルを用いた日本語の誤字・脱落・誤挿入誤り文字列の検出と訂正法

著者: 荒木哲郎池原悟塚原信幸小松康則田川崇史橋本憲久
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.83, no.6, pp.1516-1528, 2000-06-25
被引用文献数: 10

漢字OCR, ワープロ, 音声認識装置などの入力装置を使用して計算機に入力された日本語文には, 通常, 誤字, 脱落・誤挿入文字などの誤りが含まれるため, これらの誤りを自動的に検出し訂正する技術が期待されている.本論文では, 誤字誤り, 誤挿入誤り, 及び脱落誤り(いずれも誤りは1文字以上)を対象に, m重マルコフ連鎖モデルを用いて誤りの種別を識別し, 誤り文字列を訂正する方法を提案する.また, 本手法の効果を検証するため, 2重マルコフ連鎖モデルを利用して, 漢字仮名交じり表記された新聞記事文(1, 200文)を対象に, それらが誤字, 脱落文字及び誤挿入文字を含む場合(いずれも誤りは, 擬似的に生成された1文字または2文字)について, 誤り種別及び文内の誤り位置と文字数を自動的に検出, 並びに訂正する実験を行った.その結果, オープンデータの誤字, 誤挿入, 脱落の誤りを, 単に, 誤りとして検出(これらの3種のいずれかの誤りとして検出)する精度は, それぞれ, 1文字の誤字または誤挿入誤りの場合は適合率77.2%, 再現率95.0%, 2文字の誤字または誤挿入誤りの場合は適合率79.3%, 再現率99.5%, また, 脱落誤りの場合は適合率61.3%, 再現率36.5%の精度で検出できることがわかった.更に, 誤りの種別や誤り長を含めた検出精度は, 誤字または誤挿入の1文字誤りの場合は, 検出が適合率60.1%, 再現率73.0%で行うことができ, 更に訂正は誤字の場合が適合率41.2%, 再現率50.0%, また誤挿入の場合が適合率41.9%再現率52.0%の精度で自動的にできることがわかった.これと比べて, 脱落誤りの検出と訂正は容易ではないが, 検出が適合率54.6%, 再現率32.5%, また訂正が1文字の場合には適合率29.4%, 再現率17.5%の精度で行えることがわかった.オープンデータとクローズドデータによる適合率, 再現率の差は, 標本量の増加に伴い, 新聞記事文5年分の付近で, かなり接近してくることがわかった.

2011-09-14 22:47:34
3 + 1 Twitter

https://ci.nii.ac.jp/naid/110003223937

2 0 0 0 OA 言語過程説に基づく日本語品詞の体系化とその効用

著者: 宮崎正弘白井諭池原悟
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.2, no.3, pp.3-25, 1995-07-10 (Released:2011-03-01)
参考文献数: 23
被引用文献数: 1 3

三浦文法は、時枝誠記により提唱され三浦つとむにより発展的に継承された言語過程説に基づく日本語文法である。言語過程説によれば、言語は対象-認識-表現の過程的構造をもち、対象のあり方が話者の認識を通して表現されている。本論文では、三浦文法に基づいて体系化した日本語品詞体系および形態素処理用の文法記述形式を提案し、日本語の形態素処理や構文解析におけるその有効性を論じた。日本語の単語を、対象の種類とその捉え方に着目し、約400通りの階層化された品詞に分類して、きめ細かい品詞体系を作成した。本論文で提案した品詞体系と形態素処理用文法記述形式に基づき、実際に形態素処理用の日本語文法を構築した結果によれば、本文法記述形式により例外的な規則も含めて文法を簡潔に記述できるだけでなく、拡張性の点でも優れていることが分かった。本品詞体系により、三浦の入れ子構造に基づく意味と整合性の良い日本語構文解析が実現できるものと期待される。

2021-10-02 13:36:33
1 知恵袋
1 + 0 Twitter

2 0 0 0 OA 自然言語処理における意味解析と意味理解

著者: 池原悟
雑誌: 情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日: vol.1992, no.87(1992-FI-028), pp.31-40, 1992-11-09

最近、自然言語処理においては、意味処理、意味解析、意味理解などに関する研究が盛んであるが、意味そのものについて、考察や議論を提起した研究はまれである。自然言語処理は社会的産物である自然言語が研究対象であるため、従来の自然科学と異なる困難さがあり、統一的な見解が得られない状況にあるが、意味処理の研究を促進するには、常識的な感覚に頼るだけでなく、言語表現の意味について言語処理の観点からあらためて考察を加え、定義を明確にして研究することが望まれる。本稿では、言語過程説の立場から、従来の言語哲学の分野での議論を振り返り、言語表現の意味とその処理について考察する。具体的には、言語表現には、対象の姿とそれに対する話者の認識が対応づけられていることに着目して、「対象」と「認識」「表現」の3者の関係を意味と考える。そして「意味処理」を、表現に使用された言語上の約束を特定するための「意味解析」と、言語表現と対象世界の対応付けを行う「意味理解」の二つの過程に分けることを提案する。また、この内の「意味解析」の例として、日英機械翻訳システムALT?J/Eの翻訳方式と意味辞書の関係について紹介する。

2018-02-23 05:38:22
2 + 3 Twitter

http://id.nii.ac.jp/1001/00040810/

2 0 0 0 単語解析プログラムによる日本文誤字の自動検出と二次マルコフモデルによる訂正候補の抽出

著者: 池原悟白井諭
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.25, no.2, pp.298-305, 1984-03-15
被引用文献数: 15

日本文に含まれる誤字を対象に誤字検出実験と訂正候補抽出実験を行い誤字の自動検出訂正の可能性を明らかにした.誤字検出実験では正しい文章の解析のために作成した単語解析プログラムを誤字検出を目的とする日本文チェッカとして使用した結果 68%の誤字検出率を得たが検出不能の誤字例を分析した結果文節解析レベルのチェック機構の拡充と構文解析レベルのチェック機構の導入で誤字検出率はそれぞれ89 93%に向上する見込みを得た.訂正候補の抽出では誤字検出実験で検出した誤字に対して二次マルコフモデルを適用し誤字の前後の文字からみて接続確率の高い文字を候捕文字として抽出した.また誤字検出での検出特性に着目して正解文字の字種を確率的に推定することにより抽出した候補文字の正解含有率の向上を図った.誤字検出実験では誤りを検出したとき誤りの位置を正確に知ることは困難で誤りを含む文字区間とその区間内の文字の誤り確率が与えられる.そこで訂正候補の抽出では誤りの検出された区間に対して訂正文字列候補を抽出した.その結果抽出された訂正文字列候捕は上位15位までで約60%の正解含有率をもつこと誤りの位置が正確にわかれば正解含有率は10?25%向上することなどがわかった.これらの結果は漢字OCRの誤読文字リジェクト文字の救済等に応用できるものと期待される.

https://ci.nii.ac.jp/naid/110002723880

1 0 0 0 日英機械翻訳における原文自動書き替え型翻訳方式とその効果

著者: 白井諭池原悟河岡司中村行宏
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.36, no.1, pp.12-21, 1995-01-15
被引用文献数: 14

最近、言語間の発想法の違いを克服し、機械翻訳の品質を向上させるための方法として、多段翻訳方式や用例翻訳方式が提案され、その効果が期待されている。また、現在、翻訳困難な表現や構文は、人手による原文前編集の対象となっているが、これらの多くは、言語間の発想の違いを反映したものであることを考えれば、前編集も言語間の発想の違いを克服する方法の一つであり、その自動化による訳文晶質の向上が期待される。しかし、自然言語の表現には、同形式異内容の間題があり、副作用の生じないよう、前編集の内容をそのまま自動化することは困難であった。これに対して、本論文では、(1)単語の精密な文法的属性と意味的属性を使用すれば、原文に対する自動書き替え規則の適用条件が詳細に記述できると予想されること、(2)原文解析によって文溝成要素の文法的、意味的性質が明らかになった段階で書き替えを適用すれば、書き替えによる予想外の副作用を排除できると期待されること、の2点に着目して、原文自動書き替え型の翻訳方式を提案する。新聞記事を使用した翻訳実験によれぱ、自動書き替え規則の適用された箇所は102文中、44文、延べ52箇所であり、そのうち訳文品質が明らかに向上した文は33文であった。また、規則の適用された文の構文意味解析の多義の数が平均5.39/文から1.31/文まで減少した。これらの結果、本方式は翻訳品質向上ならびに多義減少の効果の大きいことが分かった。

2013-11-05 05:00:06
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002721757

1 0 0 0 日本語語彙大系について

著者: 白井諭大山芳史池原悟宮崎正弘横尾昭男
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告
巻号頁・発行日: vol.98, pp.47-52, 1998
被引用文献数: 4

日英機械翻訳における高品質な意味解析を実現するため, 筆者らは日英機械翻訳システムの開発とともに, それに用いる意味辞書の構築を進めてきた。この意味辞書は, 単語や表現構造の意味を体系的に分類した意味属性体系, 単語に関する知識を収録した単語意味辞書, 用言を核とした表現構造を収録した構文意味辞書の3つから構成される。意味属性体系は, 対象の見方や捉え方が, 一般名詞意味属性, 固有名詞意味属性, および, 表現構造に対する用言意味属性として3種類3, 000属性に分類, 体系化されている。単語意味辞書は, 現代日本語の記述文への適用に耐えるよう, 単語の異表記や固有名詞20万語を含む40万語に対し, 文法情報のほかに, 一般名詞意味属性と固有名詞意味属性が付与されている。構文意味辞書は, 現在, 6, 000用言に対する表現構造が日英対訳形式で16, 000パターン収集され, 日本語パターンの格要素の名詞に対し一般名詞意味属性を用いた制約条件が記述され, 日本語パターン全体に対し用言意味属性が付与されている。本稿では, これらの意味辞書の開発経過と, それに基づいて作成した日本語語彙大系の概要について報告する。

2011-10-24 15:24:02
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110002946985

1 0 0 0 m重マルコフモデルによる日本語の誤字、脱落及び挿入誤りの検出法

著者: 荒木哲郎池原悟塚原信幸
雑誌: 全国大会講演論文集
巻号頁・発行日: vol.47, pp.109-110, 1993-09-27

漢字OCRやWP(ワードプロセッサー)さらには音声認識装置などの入力装置を用いて計算機入力を行った日本語文には、一般に誤字、脱落及び挿入誤りが含まれるために、これらの誤りを自動的に検出し正しい日本語文に訂正する技術が必要となる。これまでに、日本語の誤字を対象に単語解析プログラムを用いた誤字検出法並びに1重マルコフモデルによる訂正方法がありまた、日本語文節内の連続した脱落、挿入誤りに対して、m重マルコフ連鎖確率を用いて誤り位置の検出並びに正しい日本語文に訂正するアルゴリズムが提案されている。本論文では、更に、誤字に対しても誤り位置の検出並びに訂正が行えるように、そのアルゴリズムを拡張する方法を示す。さらにその有効性を確認するために、1文字並びに2文字の置換誤りを埋め込んだ新聞記事400文節を用いて、文節内の誤り位置を検出し、訂正する実験を行う。

2011-08-28 15:45:23
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110002884581

1 0 0 0 2重マルコフモデルの全域法と局所法による日本語の誤字訂正効果

著者: 荒木哲郎池原悟土橋潤也堂元一頼
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1993, no.61, pp.9-16, 1993-07-09
被引用文献数: 2

2重マルコフモデルを用いた日本語誤字の誤り訂正法を、マルコフモデルを適用する位置に着目して分類すると、検出された誤り音節または、漢字かな文字に限定してマルコフモデルを一回適用する方法(局所法)と、誤り音節または漢字かな文字を含む文字列全体に適用する方法(全域法)があり、前者は後者に比べて少ない処哩時間で行える特徴がある。これまでに局所法については、文節並びに単語境界で検出された音節、漢字かな文字の誤りを訂正する問題に対して、誤り位置に応じて順方向、中間、逆方向タイプの2重マルコフモデルを適用する方法の有効性が報告されている[9]。本論文では、全域法の誤り訂正能力を定量的に評価し、局所法との比較を行う。全域法においては、三つのマルコフ連鎖確率がそれぞれ中心的な役割を果たすことに着目して、これらのマルコフ連鎖確率を単独に用いて誤り訂正を行う三つのタイプの局所法について、文節境界における誤り文字の位置(文節の先頭誤り、2番目及び3番目以降)に関する誤り訂正の評価を行い、全域法と局所法の比較を行う。新聞記事77日分の統計データを用いて、順方向、逆方向並びに中間タイプの2重マルコフ連鎖確率を求め、日本語音節文及び漢字かな交じり文の2000箇所の誤りに対して、局所法と全域法による誤り訂正実験を行った。その結果、()全域法では、順方向タイプの2重マルコフモデルが、常に他のタイプよりも優っていること、また ()全域法は局所法よりも優っていることなどがわかった。This paper investigates two methods to correct erroneous syllables and kanji-kana characters located at the boundaries of "bunsetsu" using three types of 2nd-order Markov model, called as forward, backward and middle type respectively. One is called the local method which is to correct erroneous characters using Markov model only once. The other is the global method which is to correct erroneous syllables and kanji-kana characters by applying Markov model to all the string of syllables and of kannji-kana characters. According to the experiment using 70 issues of a daily Japanese newspaper, the following results was obtained. 1. In the case of global method, the method to correct erroneous syllables and kanji-kana characters using Markov model of foward type is always superior to that of the other types. 2. The capability of error correction using the global method is always superior to that of the local method.

2011-08-25 00:21:48
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110002934648

1 0 0 0 テキスト対話コーパスからの発話対と情緒の分析(言語とコーパス,思考と言語一般)

著者: 徳久雅人村上仁一池原悟
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日: vol.108, no.50, pp.41-46, 2008-05-16
被引用文献数: 2

本稿では,テキスト対話から情緒を推定するための言語知識べースの構築を目指して,発話対と情緒の関係についての分析を行う.日本語の文末表現に情緒が表されやすいと言われているが,文末表現のみでは情緒を断定し難い.そこで,対話の状況を考慮に入れて情緒を推定する方法が考えられる.本稿では,対話の状況を発話対でとらえて情緒推定を行うことを目指す.その推定方式を検討するために,テキスト対話コーパスから,情緒タグ,対話行為タグ,および,文末表現パターンを発話対として抽出し,これらの共起関係を分析する.本コーパスから発話対を抽出したところ2.7万対が得られ,対話行為と文末表現の組に対して聞き手の情緒の傾向が確認できた.

2010-10-15 13:54:42
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110006825073

1 0 0 0 情緒傾向値付きパターン辞書を用いた文末表現の分析(感情と言語/思考と言語一般)

著者: 前田浩佑徳久雅人村上仁一池原悟
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日: vol.108, no.353, pp.19-24, 2008-12-06

本稿では,情緒傾向値の付けられた文末表現パターン辞書を用いることで,メール文章の口調のきつさを判定することを試みる.本辞書のパターンが文にマッチすることで,その文から解釈される情緒の傾向が解析される.そこで,口調(やわらかい・中立・きつい)を変えた3種類のメール文章を32名に作成してもらい,それらの各文章に対する情緒の傾向を,本辞書を用いて解析した.その結果,「やわらかい」および「中立」の口調で作成された文章と,「きつい」口調で作成された文章との間に,情緒傾向値の違いが見られ,それは,人間により口調の違いを識別する精度と同様の傾向であることが,実験的に確認された.こうして,本辞書を用いて,文章の口調のきつさを判定することの可能性が確認できた.

2010-07-20 23:15:11
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110007114652

1 0 0 0 階層的認識構造に着目した日本語従属節間の係り受け解析の方法とその精度

著者: 白井諭池原悟横尾昭男木村淳子
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.36, no.10, pp.2353-2361, 1995-10-15
被引用文献数: 31

従来、述語間の係り受け関係の曖昧さの問題は、長文解析の精度を低下させる大きな要因であった。この問題を解決するため、日本語の意味的な階層的表現構遺に着目した従属節間の係り受け解析方式を提案し、その効果を示した。言語過程説の立場から見ると、日本語述語の間には書き手が対象をとらえて表現していく階層的な過程が反映していると考えられる。そこで、本論文では、日本語表出過程に着目した南不二男の3段階の階層的な従属節分類を、その意味と形式に着目して詳細化し、主節と従属節の述語を基本分類13種、細分類4種に分類した。そして、それらの階層的な順序関係を手がかりに、述語間の係り受け閣係を決定する方法を提案した。新聞記事972文(述語数含計2,327件、そのうち係り先の暖昧な述語は、661件)を対象とした実験結果によれば、従来の方法では、係り先の曖昧な述語が356件残ったのに対して、本論文の方法では、54件に減少し。、その結果、述語問の係り受け関係の解析において、係り先第1侯補の正解率は、92%から98%に向上した。

2010-02-03 14:15:14
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002721956

1 0 0 0 IR 複合語の構造化に基づく対訳辞書の単語結合型辞書引き

著者: 宮崎正弘池原悟横尾昭男
出版者: 情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.34, no.4, pp.743-754, 1993-04-15
被引用文献数: 14

機械翻訳システムにおいて、大規模辞書を効率的に構築し、維持管理することはきわめて重要である。本論文では、機械翻訳システムの解析辞書(日本語辞書)と変換辞書(対訳辞書)にどのような基準、条件で見出し語を収録したらよいかについて論じ、各種辞書の単語収録単位の違いを吸収するものとして単語結合型辞書引きを提案した。複合語は短単位語(語基)を組み合わせて数限りなく生成される。従って、このような複合語は、解析辞書には原則として収録せず、複合語は語基の組合せとして、その内部構造を解析する。一方、変換辞書には目的言語に応じて適切な訳を生成するため語基のほかに複合語を収録し、複合語の内部構造の解析により生成された部分複合語を基に、複合語内の語基を組み合わせて変換辞書引きを行う。この過程により、複合語は変換辞書にある見出し語の最適な組合せに再構成される。本方法により、数限りなく生成される複合語を原則として解析辞書に収録する必要がないので解析辞書のコンパクト化が図れ、解析辞書と変換辞書の独立性を確保でき、大親模辞書の効率的な構築・維持管理が可能になると共に、日本語の複含語に対する解析と変換処理の調和が実現できた。

2010-01-02 06:15:10
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002722445

1 0 0 0 想起型情報検索方式の提案

著者: 飯田敏幸松澤和光松田晃一池原悟石野福弥今井賢一
雑誌: 全国大会講演論文集
巻号頁・発行日: vol.53, pp.153-154, 1996-09-04
被引用文献数: 1

印刷物やインターネットを通じて提供される情報の量は日々増加し,我々人間が利用できる能力をはるかに越えている.そこで,必要な情報を適切に,しかも簡易に選択できるための新しい情報検索システムが必要である.今迄,情報検索のためのシステムが多数開発されてきたが,余り使い易いものではなかった.情報検索システム(ここでは文献検索システムを想定する)の利用の仕方には以下に示す各種のレベルがある.【レベル1】文献の題名,あるいは,文献を特徴付けるキーワードが分かっている.【レベル2】題名,キーワードは明確ではないが,探したい対象は明確である. 例:こんなことが書いてある.【レベル3】対象が漠然としている. 従来の情報検索システムでは,いくつかの質問キーワードの羅列,あるいは,それぞれに重みづけがされた論理式を利用者が与えなければならなかった.即ち,従来の情報検索システムは,レベル1または2の利用者を前提としていた.そこで,レベル3の利用者も同じインタフェースで利用しなければならず,これが使いにくさの原因の1つである.また,キーワード方式の従来の情報検索システムでは,システムに入力する質問キーワードの個数が少ないと,検索対象の絞り込みが十分にはできないために,検索の効率が落ちてしまう.そこで,検索効率向上のためには,沢山のキーワードが必要となるが,人手で沢山のキーワードを指定するには限界があるという問題がある.

2008-09-24 17:36:50
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110002887870