著者
吉村 賢治 日高達 吉田 将
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.24, no.1, pp.40-46, 1983-01-15
被引用文献数
31

文節内における単語間の連接規則を記述した文法規則を用いるべた書き日本語文の形態素解析では 日本語文としては不適当な解析を含む多くの解析結果が生じる.これらの解析結果から正しい解析を効率的に得る方法として ヒューリスティックな構報が利用される.従来 この手法としては最長一致法が用いられているが 根拠が明らかでないうえに解析結果に尤度による優先順位をつけることができないという根本的な欠点がある本論文では 解析結果の文節数によってその尤度を評価する文節数最小法を提案し この手法に適した表方式の形態素解析アルゴリズムを与える.アルゴリズムの能率は 最悪の場合に必要とするステップ数 メモリ数ともに入力文字列の長さnに対してΟ(n^2)である.また 1 000文の入力文に対して解析実験を行い 文節数最小法の有効性を確認した.その結果 960文については文節数が最小となる解析に正解が存在し 残り40文も一つ文節数が多い解析に正解が存在した.その他 能率 最初に出力される解析結果の誤り率 尤度による順位付けの能力についても最長一致法と比較実験を行った.最初に出力される解析結果の誤り率は 文節数最小法で7.0% 最長一致法で12.4%であり このことも文節数最小法の有効を十分示している.
著者
吉村 賢治 武内 美津乃 津田 健蔵 首藤公昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.30, no.3, pp.294-301, 1989-03-15
被引用文献数
24

実用的な日本語文解析システムにおいて 入力文中に存在する未登録語の位置や文法情報等の推定は不可欠な処理である.日本語文の解析手順は 形態素解析 構文解析 意味解析などの各解析を段階的に行うものと これらを融合的に行うものとに大きく分類できる.本論文では前者の方式を想定し,形態素解析の段階における未登録語の処理について述べる.本論文で示す形態素解析アルゴリズムは基本的に解析表を利用した横型探索のアルゴリズムであり 入力文中の一文字の漢字 平仮名や英字列 片仮名列を自立語と同等に扱うことにより未登録語の処理を可能にしている.このとき入力文の一文字ごとに自立語辞書を検索するという効率の問題やシステムにとっては正しいが本質的には誤っている膨大な数の解析が発生するという尤度評価の問題が生じる.これに対して本アルゴリズムでは 字種情報に基づいた文節末の可能性と解析の単位に対するコストの付与という二つのヒューリスティック情報を利用している.アルゴリズムの能率は入力文の文字数nに対して時間計算量 領域計算量ともにO(n)である.また このアルゴリズムにより入力文中の未登録語の90.9%を正しく処理できることを実験により確認した.
著者
田辺 利文 吉村 賢治 首藤 公昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.188, pp.65-72, 2008-11-19
参考文献数
15

本論文では、深層格の種類が比較的多いとされる格助詞「に」を対象にし、格助詞「に」を介した係り受け関係にある名詞と述部によって深層格を推定する1モデルを提案する。予備的実験の結果、設定した深層格は43種と多種であるにもかかわらず、再現率は約95%に達し、提案する格助詞「に」の深層格推定モデルはおおむね妥当であることが示された。
著者
西 雅大 石田 雅子 田辺 利文 乙武 北斗 吉村 賢治
雑誌
第81回全国大会講演論文集
巻号頁・発行日
vol.2019, no.1, pp.105-106, 2019-02-28

Webカタログの商品説明文では商品名に代表される固有名詞が多く含まれ、一般に利用されている機械学習を用いた機械翻訳では誤った翻訳結果を出力することが多い。商品説明文では類似した言い回しや表現が用いられることが多く、それらを表現パターンとして収集することにより品質の高い翻訳結果を得ることができる。本稿では、未知語の影響を受けやすい形態素解析や構文解析を用いない表現パターンベースの翻訳手法について報告する。本システムでは利用者が逐次的に単語や表現パターンを登録できることを目的に、文脈自由文法の非終端記号に相当する表現パターン上の変数の種類を極力少なくしている。
著者
石田 雅子 西 雅大 田辺 利文 乙武 北斗 吉村 賢治
雑誌
第81回全国大会講演論文集
巻号頁・発行日
vol.2019, no.1, pp.107-108, 2019-02-28

Webカタログの商品説明等を翻訳する場合、商品名など多くの固有名詞が原因で誤った解析が行われ、期待する結果が出力されない場合が多い。本研究では、形態素解析や構文解析を行わない表現パターンベースの翻訳支援システムにおいて、ユーザが逐次的に未知語や新しい表現パターンを追加して翻訳の質を高めることを目的としている。言語学の知識を持たない一般のユーザがこの機能を利用するには、できるだけ正確な未知語情報の検出が必要になる。本稿では、既存の表現パターンを利用した未知語検出の手法について報告する。
著者
鶴田 直之 吉村 賢治 橋本 浩二 高橋 伸弥 廣嶋 道子
雑誌
研究報告コンピュータと教育(CE)
巻号頁・発行日
vol.2012-CE-117, no.14, pp.1-8, 2012-12-01

深さ優先探索とスタックの利用を学習する CS アンプラグド教材を試作した.高等学校への出張講義で実践した結果を主に用いて評価を行い,その有効性について報告する.具体的には,迷宮に隠されている宝物を全て集めて帰ってくるアクティビティを試作した.これを導入として用いることにより,逆ポーランド表記の四則演算がスタックを用いて省スペース (少ないメモリ) で計算できることの理解を高めることができた.
著者
中村 みなみ 乙武 北斗 吉村 賢治
出版者
電気・情報関係学会九州支部連合大会委員会
雑誌
電気関係学会九州支部連合大会講演論文集 平成28年度電気・情報関係学会九州支部連合大会(第69回連合大会)講演論文集
巻号頁・発行日
pp.290, 2016-09-21 (Released:2018-02-16)

観光客が興味をもつ観光ルートを作るためには、巡る観光地に何らかのストーリー性があることが望ましい。本稿では、観光地の案内文を使ってストーリー性がある観光ルートを作成するために必要な観光地のグルーピング手法について提案する。文書のグルーピング手法としてはTF/IDFを使って文書をベクトル化したうえで、類似度を計算する手法がある。しかしながら、TF/IDFに基づくベクトル空間では軸の直交性が保証できないため、グルーピングの精度が低下する原因となる。本稿では、Word2Vecに基づく単語の分散表現を利用してこの問題を改善する手法を提案する。