著者
浅原 正幸 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2003, no.4(2002-NL-153), pp.49-56, 2003-01-20

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる.形態素解析出力結果をそのままチャンカーの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカーにより決定的に固有表現となる語の語境界を推定する.この手法により,1次解のみを用いる場合より豊かな素性をチャンカーに与えることができ,固有表現抽出の精度を向上させることができた.CRL 固有表現データを用いて評価実験(交差検定 5-fold)を行った結果,F 値約 88% という高精度の結果が得られた.
著者
井手 厚 東 藍 松本 裕治
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.7, pp.1-6, 2010-05-20

Web 上の文章には,意図的に誤変換された漢字などを含む,多くの表記ゆれ表現が存在しており,Web フィルタリングを行う上では表記ゆれに対応したシステムを構築することが有効である.本論文では表記ゆれ表現を同定する方法として,KAKASI による漢字かな変換機能と MeCab の分かち書き機能という 2 つの技術を利用した手法について提案する.意図的に誤変換された表記を抽出するために,KAKASI を用いた読み候補の作成を行い,その読み候補が妥当かどうかについての判断を MeCab を利用して行う.本手法の効果を実験によって確認した.Web documents tend to include a number of spelling variations. Especially, in Japanese pages, some variations are intentionally used to hide improper words or expressions. This paper proposes to cope with this problem in two steps: expansion of possible pronunciation by KAKASI and morphological analysis by MeCab. Alter an exhaustive expansion of pronunciation of Kanji characters by KAKASI, and matching with the dictionary of improper expressions, Japanese morphological analyzer MeCab analyses the original sentence assuming the matched expressions existed in its system dictionary. We verify the effectiveness of our idea through experiments using sentences extracted from a real BBS.
著者
松本 裕治 杉村 領一
出版者
一般社団法人日本ソフトウェア科学会
雑誌
コンピュータソフトウェア (ISSN:02896540)
巻号頁・発行日
vol.3, no.4, pp.308-315, 1986-10-15
被引用文献数
8 1

構文解析システムSAXは,DCG (Definite Clause Grammars)で記述された文法を対象とする自然言語処理用のシステムで,DCGをPrologのプログラムに変換するトランスレータより成る.変換の手法自体は,DCGで記述された文法規則から並列論理型言語への変換を目的として考えられたものであるが,逐次型言語の上で実現されても効率のよい構文解析システムとして利用することができる.SAX (Sequential Analyzer for syntaX and semantiCS)は,特に逐次型言語の上で開発されたシステムの呼び名である.並列論理型言語の上で実現されたシステムは,PAX (Parallel AX)と呼ばれる.変換によって得られたPrologプログラムは,Prologに完全にコンパイルされたものになっており,副作用を用いないことやプログラムの動作が決定的になっていることなどの特徴がある.本システムは,特に,コンパイラを有するPrologに向いた構文解析システムである.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

我々は統計的機械翻訳の手法を使い,学習者の作文誤り訂正を行ってきた.これまでの研究では,単語から単語への訂正ではなく,文字から文字への訂正を行なう文字単位の手法を用いて性能を向上させた.一方で,文字単位を用いることで単語の情報は失われ,訂正できなくなる場合もあった.そこで本研究では,これまで行ってきた研究の文字単位の手法を発展させ,文字単位と単語単位を組み合せることで性能が向上することを確かめた.
著者
松本 裕治 浅原 正幸 岩立 将和 森田 敏生
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.18, pp.1-6, 2010-11-11
被引用文献数
1

科研費領域研究研究 「日本語コーパス」 の一環として開発してきたコーパス管理ツール 「茶器」 の機能と現状について報告する.茶器は,形態素解析 (品詞情報),係り受け解析のアノテーション (注釈) が付与されたコーパスを格納し,様々な検索,検索結果や統計情報の表示,注釈誤りの修正などの機能をもつツールであり,注釈付きコーパスの格納,検索,作成,修正のための環境を提供する.主な機能は,文字列,形態素列,文節係り受け構造などを指定したコーパスの検索と,検索結果の KWIC 表示と係り受け木の表示,種々の統計情報の表示,注釈付けエラーの修正などである.現在は,茶筌/ MeCab による形態素解析,南瓜による係り受け解析結果をデータベースに取り込む機能を提供するが,特に言語には依存せず,任意の言語の品詞/依存構造注釈付きコーパスを扱うことができる.This paper introduces a annotated corpus management system ChaKi that has been developed under the auspices of the Japanese Corpus Project (Grantin-Aid for Scientific Research in Priority Areas). The system handles morphologican and dependency structure annotated corpora and facilitates various functions such as storing, retrieving, creating and error-correcting annotated corpora. String, word and dependency structure based corpus retrievals are possible, and the results are shown as KWIC format or as dependency trees. While the current system transfers corpora with the ChaSen/MeCab or CaboCha output format into databases, it is language independent and can be applied flexibly to any POS/dependency structure annotated corpora.
著者
小嵜 耕平 新保 仁 小町 守 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.4, pp.400-408, 2013 (Released:2013-06-20)
参考文献数
30

Graph construction is an important step in graph-based semi-supervised classification. While the k-nearest neighbor graphs have been the de facto standard method of graph construction, this paper advocates using the less well-known mutual k-nearest neighbor graphs for high-dimensional natural language data. To evaluate the quality of the graphs apart from classification algortihms, we measure the assortativity of graphs. In addition, to compare the performance of these two graph construction methods, we run semi-supervised classification methods on both graphs in word sense disambiguation and document classification tasks. The experimental results show that the mutual k-nearest neighbor graphs, if combined with maximum spanning trees, consistently outperform the k-nearest neighbor graphs. We attribute better performance of the mutual k-nearest neighbor graph to its being more resistive to making hub vertices. The mutual k-nearest neighbor graphs also perform equally well or even better in comparison to the state-of-the-art b-matching graph construction, despite their lower computational complexity.
著者
水本智也 松本裕治
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.4, pp.1-5, 2014-05-15

第 2 言語を学習する人が増え,コンピュータによる第 2 言語学習支援に関する研究が盛んに行なわれている.その中でも特に英語の文法誤り訂正の研究が行なわれており,文法誤り訂正の性能を競う世界規模の Shared Task が 4 年連続で開催される.学習者の犯す誤りは様々なタイプがあり,全ての誤りタイプを訂正するために,統計的機械翻訳を用いた誤り訂正が提案されている.本稿では,統計的機械翻訳による誤り訂正結果の n-best の中に,1-best の場合よりもよい訂正が含まれていることに注目する.実際の出力結果を分析することで,リランキングによる性能向上が可能であるかを議論する.
著者
水本智也 松本裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.4, pp.1-5, 2014-05-15

第 2 言語を学習する人が増え,コンピュータによる第 2 言語学習支援に関する研究が盛んに行なわれている.その中でも特に英語の文法誤り訂正の研究が行なわれており,文法誤り訂正の性能を競う世界規模の Shared Task が 4 年連続で開催される.学習者の犯す誤りは様々なタイプがあり,全ての誤りタイプを訂正するために,統計的機械翻訳を用いた誤り訂正が提案されている.本稿では,統計的機械翻訳による誤り訂正結果の n-best の中に,1-best の場合よりもよい訂正が含まれていることに注目する.実際の出力結果を分析することで,リランキングによる性能向上が可能であるかを議論する.
著者
立石 健二 福島 俊一 小林 のぞみ 高橋 哲朗 藤田 篤 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.93, pp.1-8, 2004-09-16
被引用文献数
14

本稿では、Web文書から意見を抽出し、それらをレーダーチャートの形式で要約/視覚化する意見抽出分類システムを提案する。Webの意見は、商品購入の際の情報収集、市場調査等のマーケティング、企業のリスク管理等、さまざまな目的での利用が考えられる。Webの意見の収集/分析に関する研究には2つの課題がある、対象とするWeb文書から意見に該当する箇所を抽出すること、抽出した意見を要約/視覚化することである。本システムは、この2つの課題を3つ組{対象物 属性 評価}のモデルと情報抽出の手法を用いて解決する。本システムを車に関するレビューサイトの100記事を対象として評価したところ抽出精度が適合率82% 再現率52%であり、システムが出力したレーダーチャートと人手で作成したレーダーチャートが類似することを確認した。This paper proposes an opinion extraction and classification system, which extracts people's opinions from Web documents and summarize/visualizes them in the form of "radar charts". People's opinions on the Internet are available for many purposes such as surveys before purchasing products, market research and risk management for enterprises. There are two issues on this area. One is to locate opinion sentences from Web documents, and the other is to summarize/visualize the extracted opinions. The proposed system solves them by employing an opinion model {object name, attribute expression, evaluative expression} and information extraction techniques. The experimental result conducted with 100 articles on the car domain showed that the system performed 82% on precision and 52% on recall, and that both radar charts created by the system and by the hand are similar to each other.
著者
前川 喜久雄 山崎 誠 松本 裕治 傳 康晴 田野村 忠温 砂川 有里子 田中 牧郎 荻野 綱男 奥村 学 斎藤 博昭 柴崎 秀子 新納 浩幸 仁科 喜久子 宇津呂 武仁 関 洋平 小原 京子 木戸 冬子
出版者
大学共同利用機関法人人間文化研究機構国立国語研究所
雑誌
特定領域研究
巻号頁・発行日
2006

当初の予定どおりに、5000万語規模の現代日本語書籍均衡コーパスを構築して2011年に公開した。同時に構築途上のコーパスを利用しながら、コーパス日本語学の確立にむけた研究を多方面で推進し、若手研究所の育成にも努めた。現在、約200名規模の研究コミュニティーが成立しており、本領域終了後も定期的にワークショップを開催するなど活発に活動を続けている。
著者
北村 美穂子 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.4, pp.727-736, 1997-04-15
参考文献数
9
被引用文献数
30

特定分野の文書を翻訳する場合,その分野に特有の専門用語や定型表現の訳語が適切でないと翻訳結果の内容を把握することができない.専門用語や定型表現の訳語は翻訳品質を決める重要な要因であり,それらに関する対訳辞書の構築技術が求められている.本論文は,文対応の付いた対訳コーパスから共起する単語列を対応付けることにより,対訳表現を自動的に抽出する方法を提案する.各言語の単語列が独立して出現する回数とその単語列組が対訳文内に同時に出現する回数から単語列組の対応関係の強さを計算し,対応関係の強い単語列組から順に対訳表現として抽出する.出現回数による閾値を徐々に下げながら計算対象を増やしていく方法により,単語列の組合せ爆発を仰えることができ,高精度で対訳表現を抽出することができる.分野の異なる3種類のコーパスを用いた実験では,閾値が高い場合では100%の適合率で抽出でき,閾値が低下しても80?90%の適合率で対訳表現が抽出できるという結果が得られた.As for translation in specific fields,technical terms and idiomatic expressions appear frequently,which should be translated appropriately to get comprehensible translation.It is important to find a systematic technique to compile or to augment a translation dictionary for each specific field.This paper proposes a method of extracting translation patterns automatically from parallel corpus.Translation candidates of pairs of Japanese and English word sequences are evaluated by a similarity measure between the sequences defined by their co-occurrence frequency and independent frequency.The pairs of the sequences with higher similarity value are identified in earlier stage.An iterative method with gradual threshold lowering is proposed for preventing combinational explosion and for getting a high quality translation dictionary.The method is tested with parallel corpora of three distinct domains.The result achieved 100% on high threshold,and preserved 80縲鰀90% as the decline of the threshold.
著者
山田 寛康 工藤 拓 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.1, pp.44-53, 2002-01-15

本稿では,機械学習アルゴリズムSupport Vector Machine(SVM)を用いて日本語固有表現抽出を学習する手法を提案し,抽出実験によりその有効性を検証する.固有表現抽出規則の学習には,単語自身,品詞,文字種などを素性として使用するため,その素性空間は非常に高次元となる.SVMは汎化誤差が素性空間の次元数に依存しないため,固有表現抽出規則の学習においても過学習を起こすことなく汎化性能の高い学習が実現できる.また多項式Kernel関数を適用することで複数の素性の組合せを考慮した学習が計算量を変えることなく実現できる.CRL固有表現データを用いてIREX固有表現抽出タスクに対して実験を行った結果,語彙,品詞,文字種,およびそれら任意の2つの組合せを考慮した場合,交差検定によりF値で約83という高精度の結果が得られた.
著者
進藤 裕之 松本 裕治 永田 昌明
雑誌
研究報告数理モデル化と問題解決(MPS)
巻号頁・発行日
vol.2013-MPS-93, no.6, pp.1-6, 2013-05-16

自然言語処理分野における統計的文法獲得では,確率文法モデルの学習にGibbsサンプリング法が広く用いられている.しかしながら,木構造データを扱う場合には,Gibbsサンプリング法のように変数の値を一つずつ順番に更新していく方法では局所解に留まりやすく,十分に尤度の高い解を得られないという問題がある.この問題を解決するために,我々は新たな部分木のブロック化サンプリング法を提案する.本手法は,データ中に現れる共通の部分木まとめてブロック化し,ブロックに含まれる変数の同時分布からサンプリングを行う.そして,その部分木ブロック化サンプラーを従来のマルコフ連鎖モンテカルロ法と組み合わせて交互に実行することにより,目的関数の最適解を効率良く探索することができる.シンボル細分化文脈自由文法を用いて統計的文法獲得の実験を行ったところ,提案手法は既存手法よりも尤度の高い文法規則が獲得できることを確認した.
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.77-84, 2003-03-06
被引用文献数
26

近年,Web上に多数存在する掲示板などの文書から,意見情報を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には,評価を表す表現が重要な手がかりとなるが,評価表現には「コクがある」「液晶がきれい」といった領域依存の表現が多数存在するため,人手で書き尽くすことは困難である.そこで,我々は,テキストマイニングの技術を応用し,評価対象表現,属性表現,評価表現の共起パタンを利用して,これら領域依存表現を効率的に収集することを試みた.本稿では,共起パタンに基づく属性・評価表現の半自動的収集方法を提案し,「コンピュータ」と「ビール」の2つの領域を対象に行った経験的評価を報告する.It has been receiving increasing interest how to extract opinions from tremendous piles of Web documents. To automate the process of opinion extraction, a collection of evaluative expressions like "the monitor is fine" would be useful. However, it can be prohibitively costly to manually create an exhaustive list of evaluative expressions for each domain since they tend to be domain-dependent. Motivated by this background, we have been exploring how to accelerate the process of collecting evaluative expressions by applying a text mining technique. This paper proposes a semi-automatic method where we use particular patterns of cooccurrences between an evaluated subject, focused attribute and orientation expression, and reports the results of our empirical evaluation on the computer and beer domains.
著者
飯田 龍 小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.1, pp.21-28, 2005-01-11
被引用文献数
12

本稿では,文章に記述されている意見を抽出するタスクについて述べる.我々は,意見を<対象,属性,評価値>の3つ組として定義し,文章からその3つ組を抽出する手法を提案する.具体的には,意見抽出の問題を,(a)辞書に存在する属性候補集合と評価値候補集合から評価値候補と対となる属性を同定する問題と,(b)同定した対が意見性を持つか否かを判定する問題の2つの問題に分解し,それぞれ機械学習に基づく手法を用いて解析することにより,属性-評価値対を同定する.提案手法を用いて評価実験を行った結果を報告するとともに,今後の展望についても議論する.This paper addresses the task of extracting opinions described in a given document collection. Assuming that an opinion can be represented as a tuple < Subject, Attribute, Value>, we propose a computational method to extract such tuples from texts. In this method, the major task is decomposed into (a) the process of extracting Attribute-Value pairs from given texts and (b) the process of judging whether each extracted pair is expressed as an opinion of the author, to both of which we apply machine-learning techniques. We also report on the present results of our experiments discussing future directions.
著者
飯田 龍 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.45-52, 2008-09-17
被引用文献数
4

ゼロ照応解析の問題を結束性と首尾一貫性の観点から検討する.結束性の観点からは,Walker [21] のキャッシュモデルの実現方法を検討し,統計的機械学習に基づく実装を提案する.このキャッシュモデルを用いて文間ゼロ照応の先行詞候補削減を試み,評価実験を通じて先行詞同定時に解析対象とする先行詞候補を激減できたことを報告する.また,首尾一貫性の観点からは,含意関係認識で利用される推論知識獲得の手法を照応解析の手がかりとすることで解析精度にどのように影響するかについて調査する.新聞記事を対象に先行詞同定の実験を行い,導入した推論規則が解析に有効に働くことを示す.This paper approaches zero-anaphora resolution in the perspectives of cohesion and coherence.From the perspective of cohesion, we examine how to use the cache model addressed by Walker [21], and propose a machine learning-based approach for implementing the cache model. Empirical evaluation is conducted in order to reduce the number of antecedent candidates by the proposed cache model, and this results show that the number of the antecedent candidates of each zero-pronoun is dramatically reduced on the task of antecedent identification. From the perspective of coherence, on the other hand, we investigate whether or not the clues introduced in the area of the automatic inference rules acquisition on entailment recognition improve the performance of anaphora resolution. Through the experiments of the antecedent identification task, we demonstrate the impact of incorporating the inference rules into zero-anaphora resolution.
著者
大石 亨 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.29, pp.15-20, 1997-03-21
被引用文献数
4

日本語のアスペクトの研究は,継続相,完成相というような分類とそれぞれの意味を記述していく段階から,副詞的成分などの関わりを含め,アスペクト的な意味の決まり方のプロセスを整理する方向へと発展してきている.本稿では,アスペクト形式や副詞句の意味を時間軸におけるズーミングや焦点化といった認知的プロセスを表示するものとしてとらえ,動詞句の意味に対する動的な操作であると考える.その上で,動詞の意味を素性によって六種類のカテゴリーに分類し,コーパスに現れた表層表現によってこれを推定する実験を行なった.実験の結果,対象とした動詞のうち,96%のカテゴリーを一意に決定することができた.得られた分類を評価するために,最も基本的なアスペクトの形態である「シテイル」形の意味を自動的に決定する処理を行なった.200文における正解率は71%であった.これらの情報は,動詞句のアスペクト的な意味のあり方の類型を与えるだけではなく,文間の関係をとらえる際の手がかりを提供するものであると考える.The study on aspect in Japanese has evolved from the description of the meaning for each type such as "progressive" or "perfective" into the process of the determination of the aspectual meaning including adverbial phrases etc. In this paper, we consider the meaning of the aspectual markers or adverbs as the indicators of the cognitive processes such as "zooming" or "focusing" on the time-line and define them as the dynamic operations on the meaning of the verb phrases. We estimate the aspectual meaning of verbs from surface expressions in a corpus and represent them as a bundle of features. A unique category is identified for 96% of the target verbs. To evaluate the result of the experiment, we examine the meaning of si-teiru which is one of the most fundamental aspectual markers, and obtained the correct recognition score of 71% for the 200 sentences.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.95, no.168, pp.13-19, 1995-07-20
被引用文献数
5

日本語の形態素解析は自然言語処理を行なう上で最も基本的でかつ重要な処理である。我々の研究室で開発している形態素解析システムJUMANは、品詞の連接と単語に対してコストによる制約を与えることで曖昧性の絞り込みを行なっている。コスト値はJUMANの品質に大きな影響を与えるにも関わらず、人手で付与されるため最適化する機構は存在しなかった。そこで、本研究では、英語のタグづけなどで効果を発揮しているHMM(Hidden Markov Model)を用いて、コーパスによる学習を行なうことでJUMANのコスト値、すなわちパラメータの最適化を行なう。HMM学習の結果、現在のJUMANの解析精度を改善する結果が得られた。
著者
北内 啓 宇津呂 武仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.21, pp.41-48, 1998-03-12
被引用文献数
2

本研究では、日本語形態素解析の確率モデル学習におけるパラメータ推定の精度を上げるための有効な品詞分類を自動的に学習した。解析誤りをもとに詳細化する品詞分類を素性として取り出し、品詞分類を段階的に細かくしていく。学習によって得られた品詞分類を用いてbi-gramのマルコフモデルに基づくパラメータ推定を行うことにより、形態素解析の精度を向上させた。実験により、人手で調整して決めた品詞分類に比べ、より少ないパラメータ数でより高い精度を得ることができた。また、品詞分類によってパラメータ数や精度がどのように変化するかといった、品詞分類全体の性質をとらよることができた。This paper proposes a method of an learning optimal set of part-of-speech tags which gives the highest performance in morphological analysis. In our method, considering patterns of errors in the morphological analysis, first, candidates of more specific part-of-speech tags to be included in the model of morphological analyzer are generated. Then, the most effective candidate which gives the greatest decrease in errors is employed. In the experimental evaluation of the proposed method, we achieve a morphological analyzer of higher performance compared with a model with a hand-tuned set of part-of-speech tags, and with much smaller number of parameters.