著者
大熊智子 増市 博 吉岡 健
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.1(2006-NL-171), pp.61-66, 2006-01-13

Lexical Functional Grammar(LFG),Head Phrase Structure Grammar(HPSG) などの句構造文法を用いたパーザでは、入力された自然言語文に対し、f(unctional)-structureやminimal recursion semantics(MRS)などの統語意味構造を出力する。このプロセスを逆に辿ることによって、つまり統語意味構造を入力することによって同じ文法を用いて自然言語文を出力として得ることができる。パーザに用いられた文法をそのままジェネレータに適用することが可能である。LFGに基づく処理系であるXerox Linguistic Enviroment(XLE)やHPSGの代表的な処理系LKBも、ジェネレータ機能を有している。このような生成技術が適用される応用として代表的な研究は、中間木を利用した翻訳システムがあるが、最近注目を集めている「言い換え」に対しても生成技術を適用できる可能性は高い。これ以外にも、QAシステムや対話システムなど、生成技術は様々な言語処理アプリケーションに適用可能な基礎技術である。ところが、実際には解析用の日本語文法をそのまま生成に適用しようとすると、解析の段階では問題にならなかった事柄が顕在化する。本研究では、我々が研究開発を進めてきた解析用文法を用いて生成を行う際の課題を分析し、それを解決するための手段について提案する。さらに文の生成実験を行ってそれらの妥当性について検証した。その結果、例外ルールの付加と語彙の選択という二つの手法を用いて、解析用文法を生成に適応させる手法を提案し、両者が解析成功率の向上に寄与することを確認できた。
著者
大熊 智子 梅基 宏 三浦 康秀 増市 博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_51-3_80, 2009 (Released:2011-09-01)
参考文献数
31

事物の数量的側面を表現するとき,数詞の後に連接する語を一般に助数詞と呼ぶ.英語などでは名詞に直接数詞が係って名詞の数が表現されるが,日本語では数詞だけでなく助数詞も併せて用いなければならない.名詞と助数詞の関係を正しく解析するためには,助数詞が本来持つ語彙としての性質と構文中に現れる際の文法的な性質について考慮する必要がある.本稿では,数詞と助数詞の構文を解析するための Lexical-Functional Grammar (LFG) の語彙規則と文法規則を提案し,その規則の妥当性と解析能力について検証した.提案した規則によって導出される解析結果 (f-structure) と英語,中国語の f-structure をそれぞれ比較することによって,日本語内での整合性と多言語間との整合性を有していることが確認できた.また,精度評価実験の結果,従来の LFG 規則に比べて通貨・単位に関する表現では 25%,数量に関する表現では 5%,順序に関する表現では 21% の F 値の向上が認められた.
著者
増市 博 大熊 智子 鷹合 基行
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.106, no.299, pp.1-8, 2006-10-13

本稿では,深い言語処理のための言語理論の一つであるLexical Functional Grammar(LFG)を取り上げ,LFGに基づく日本語文法記述および日本語文解析/生成システムの研究,開発の現状とその応用技術について述べる.日本語LFGシステムの解析カバー率はEDRコーパスを対象とした場合で97.3%であり,適合率85.9%,再現率83.9%の係り受け精度を実現している.また,LFGに基づく文生成では95.7%の生成成功率を実現している.このように深い言語処理は精度およびカバー率の点で実用化のレベルに近づいてきている.さらに,宣言的な文法規則に基づく深い言語解析システムを用いれば,通常の係り受け解析システムよりも豊富な情報を持つ解析結果を得ることができる.今後深い言語処理技術は,より高度な言語処理アプリケーションを構築していく上で重要な役割を担っていくと考えられる.本稿では,このような深い言語処理の応用例として,日本語LFGシステムを用いた,医療テキストを対象とする情報抽出手法について説明を行う.
著者
大熊 智子 増市 博 吉岡 健
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.1, pp.27-52, 2006-01-10 (Released:2011-03-01)
参考文献数
19

本稿では, 意味判定ルールを段階的に適用することにより, 副助詞「まで」, 「など」, 「だけ」が生来的に持つ曖昧性を自動的に判別する手法を提案し, その有効性を検証した.本手法では, まず着目する副助詞の前後の形態素を参照する形態素ルールを優先度に応じて適用し, 意味を決定する.次に, 形態素ルールだけではうまく判別できない構文に対して日本語LFGシステムによる構文意味解析を行い, LFGの出力結果であるf-structureの意味機能を参照する意味機能ルールを適用して多義性の解消を行う.EDRコーパスを用いた実験では, 殆どの形態素ルールで高精度の多義性解消が可能であることを実証することができた.さらに, この実験で判別精度が低かった5種類の構文 (「まで」2種, 「など」2種, 「だけ」1種) に対して, 意味機能ルールを用いて多義性の解消を行うことで, 形態素ルールよりも, 高い精度の多義性解消を確認できた.「まで」の多義性解消では, 69.6%から73.2%と58.4%から61.8%への向上, 「など」の多義性解消では29.6%から72.5%と47.2%から60.3%への向上, 「だけ」の多義性解消では55.8%から76.1%への向上を確認することができた.
著者
三浦 康秀 増市 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.158, pp.139-144, 2007-07-17
被引用文献数
1

本稿では,専門分野コーパス内に出現頻度の低い専門用語の候補文字列があるときに,その文字列を構成する部分文字列および専門分野コーパス内での周辺文字列のパープレキシティ用いて,専門用語としてのスコア付けを行う手法を提案する.文字列が与えられたときに,文字列を構成するn-gramの部分文字列を抽出しレそれらの専門分野コーパスでのパープレキシティを計算する.また同時に,専門分野コーパス内で文字列の周囲に現れるn-gramの周辺文字列のパープレキシティを計算し,これらの比を文字列のスコアとして設定する.本手法の評価実験として,インターネット上で公開されている病名辞書および解剖学用語辞書の見出し語を構成する文字列で,約6,7000件の医療テキスト内での出現回数が5回以下の文字列についてスコア付けを行い,上位200文字列の用語としての成立の可否を医師が確認した.また,比較のため名詞の出現頻度および連接頻度を用いるTerm Extractでも同様の実験を行った.結果として平均で,1-gramでは正解率70.4%,2-gramでは正解率83.5%が得られ,Term Extractによる正解率,70.6%と比較して良好な結果が得られた.
著者
山澤美由起 吉村宏樹 増市博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.15-20, 2006-05-19
参考文献数
8
被引用文献数
2

商品や映画について その感想などを記述した主観的な評価文書はインターネットなどを通して容易に入手可能となっている.評価文書はその商品の購入 あるいはその映画の鑑賞を検討する人(ユーザー)にとって 有用な情報を含む.しかし その数は膨大であり 書き手の性質や趣向がわからないことも多い.そこで本研究では 書き手の性質や趣向がわからなくても ユーザーが内容を信用して利用できる文(有用文)を自動抽出することを目的とした.ユーザーの視点を中心に据えたSVMによる有用文分類実験を実施した結果 形態素情報のみを用いた場合でも 我々の提案するスクリーニング手法を用いることによって最大で82%のAccuracyで有用性判別が可能であることがわかった.This paper presents a new approach to review sentence classification that aims for distinguishing whether the sentence in a review is useful or not from the users' point of view. Amazon customer reviews for instance,are easily collected but the amount is huge and the author's character is not clear to the users. We define users as persons that try to use the infbrmation in the reviews to determine whether to purchase the product or not.We propose a screening technique in order to improve the accuracy of useful sentence extraction.In experunents on Amazon review datasets,our SVM classifiers using screened morpheme information obtained 82% inaccuracy.
著者
杉原 大悟 増市 博 梅基 宏 鷹合 基行
出版者
一般社団法人情報処理学会
雑誌
研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.57-64, 2009-01-15
参考文献数
16
被引用文献数
1

本稿では,Wikipedia の記事タイトルを機械学習手法を用いて固有名詞クラスへと分類する際に Wikipedia のカテゴリ階層を分類器の素性として用いた場合の効果について報告する.ある記事タイトルに関連する Wikipedia のカテゴリネットワーク情報を分類器の素性として用いるために,あるカテゴリのカテゴリ階層構造をシンプルな基準 「主要カテゴリからの最短経路」 によって Wikipedia のカテゴリネットワークから抽出した.Wikipedia の語を関根の拡張固有名詞階層へ機械学習手法を用いて分類する実験において,得られたカテゴリ階層構造の効果を確認した.固有名詞クラスの粒度は荒いクラス分類 (固有名詞階層の深さ 2 ) と細かいクラス分類 (固有名詞階層の深さ 4 ) の 2 種類を用意し,荒い固有名詞分類においては 7 クラスおよび 15 クラスへと分類する実験,細かい固有名詞分類においては 118 クラスへと分類する実験を行った.カテゴリ階層構造を用いない場合と比較して,カテゴリ階層構造を用いた場合に,より良い F 値が得られた.最良の分類器による精度はそれぞれ F 値 91.33,F 値 89.68,F 値 84.06 であった.また,カテゴリ階層構造は Recall の向上に特に効果的であり,その効果は分類先の固有名詞分類の粒度が細かくなれば減少することが分かった.We consider the effect of hierarchical category structures of Wikipedia in experiments for named entity categorization based on machine learning methods. We extracted hierarchical category structures of each category simply based on the shortest path from " Category:Main Category" of Wikipedia. We checked the effect of the hierarchical category structure in categorization of term of Wikpedia to named entity class defined by Sekine's Extended Named Entity Hierarchy. We prepared 3 types of experimental settings on the number and granularity of named entity classes: The first one is categorization to rough-grained 7 classes of named entity, the second is categorization to rough-grained 15 classes of named entity and the third is categorization to fine-grained 118 classes of named entity. The classifier learned with the hierarchical category structure got better than those without hierarchical category structure in F-measure. The F-measures of our best classifier are respectively 91.33%, 89.68% and 84.06% in above 3 experimental settings. Our study found that hierarchical category structures are especially effective in the recognition of named entities in categorization to rough-grained classes of named entity and its effect declines in categorization to fine-grained classes of named entity.