著者
吉村 賢治 日高達 吉田 将
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.24, no.1, pp.40-46, 1983-01-15
被引用文献数
31

文節内における単語間の連接規則を記述した文法規則を用いるべた書き日本語文の形態素解析では 日本語文としては不適当な解析を含む多くの解析結果が生じる.これらの解析結果から正しい解析を効率的に得る方法として ヒューリスティックな構報が利用される.従来 この手法としては最長一致法が用いられているが 根拠が明らかでないうえに解析結果に尤度による優先順位をつけることができないという根本的な欠点がある本論文では 解析結果の文節数によってその尤度を評価する文節数最小法を提案し この手法に適した表方式の形態素解析アルゴリズムを与える.アルゴリズムの能率は 最悪の場合に必要とするステップ数 メモリ数ともに入力文字列の長さnに対してΟ(n^2)である.また 1 000文の入力文に対して解析実験を行い 文節数最小法の有効性を確認した.その結果 960文については文節数が最小となる解析に正解が存在し 残り40文も一つ文節数が多い解析に正解が存在した.その他 能率 最初に出力される解析結果の誤り率 尤度による順位付けの能力についても最長一致法と比較実験を行った.最初に出力される解析結果の誤り率は 文節数最小法で7.0% 最長一致法で12.4%であり このことも文節数最小法の有効を十分示している.
著者
冨浦洋一 日高達 吉田 将
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.32, no.1, pp.42-49, 1991-01-15
被引用文献数
5

本格的な意味処理を行うためには 単語の意味に関する知識が必要であることは言うまでもないその中で 語彙間の上位-下位関係は 最も基本的な知識の1つである本研究では 動詞間の上位-下位関係を国語辞典から抽出する手法を開発することを目的とする動詞は第一階述語論理ではn項述語に対応するまた 動詞は一般に多義であり 語義が異なれば 上位-下位関係にある動詞も異なるそこで 動詞をその語義ごとに述語に対応させ 動詞間の上位-下位関係を述語間の関係として捉えるしたがって 動詞間の上位-下位関係の抽出では 単に見出し動詞と上位-下位関係にある動詞(定義動詞)を抽出するだけでなく 定義動詞の語義の選択 および 見出し動詞と定義動詞の変数の対応も考慮しなければならない本稿では まず (1)動詞間の上位-下位関係を論理的に定義し (2)見出し動詞とその語義文の論理的関係 および 語義文の統語構造と論理的性質について述べ (3)動詞間の上位-下位関係を示す情報は語義文の統語構造中のどこに現れるかについて述べるさらに (4)定義動詞の語義 および 見出し動詞との変数の対応を適切に選択するための必要条件とヒューりスティックについて述べ 最後に (5)抽出結果について述べる
著者
市丸 夏樹 飛松 宏征 日高達
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.23, pp.43-48, 2004-03-04
被引用文献数
3

本稿では,論説文を読みやすいinformativeな要約文へと自動的に要約するための手法を提案する.まず,文章を段階的に段落分けし,階層的な結束構造を構築する.その際,文間,段落間の繋がりを計測するために,従来の語彙結束性に代えて話題間の連想による話題の流れのよさを表す値を用いる.論説文中の段落列に着目すると,導入部を表す段落から展開部を通って結びへ至る大きな話題の流れが見られることが多い.そこで,我々の要約システムはその大きな流れこそが書き手の主張を表す文脈の本流であるとみなす.最後に,流れを構成する文とその流れへの寄与度が高い文を抽出することによって,流れのよい読みやすい要約文が得られる.In this paper, we propose a method of automatic summarization to produce easy-to-read, informative summaries of editorial articles. Firstly, the document is segmented hierarchically to form a multi-layer paragraph structure. Instead of lexical cohesion, associative relations between subjects are used to measure subject-flow consistency between sentences and between paragraphs. In a paragraph, the most significant subject-flow stream runs from an introductory subparagraph to conclusive one through some intermediates. Thus, our system regards this flow as the contextual main stream of the document. Finally, several sentences which have greater contribution ratio in the flow are extracted gradually, to form a multistage summary which has maximum consistency.