著者
脇田 早紀子 奥村 薫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.79, pp.135-142, 1993-09-16
被引用文献数
2

日本語の場合、単純に見えるタイプミスでも機械に発見させようとするとけっこう難しい。タイプミスを検出するには、形態素解析を行いその失敗箇所を警告する方法が一般的だが、誤り文でも形態素解析ができてしまうことが多いので、この方法だけでは不十分である。本研究は、「形態素解析失敗」では発見できないミスタイプ文を発見することを目的としている。ミスタイプ文の特徴を記述した検出ルールの原型と、それを実用レベルにまで高めるために必要な修正作業について述べる。It is hard to make useful Japanese spell-checker. General way to detect typographical error is to regard failure of morphological analysis as the indicator of error position, but it's not perfect. In this paper, we propose rules to detect typographical error which can't be detected by the general method.
著者
Bond Francis 藤田 早苗 橋本 力 笠原 要 成山 重子 Nichols Eric 大谷 朗 田中 貴秋 天野 成昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.1, pp.83-90, 2004-01-13
被引用文献数
1

本稿では、基本語彙知識ベース構築の一環として構築した、ツリーバンク「檜」を紹介する。「檜」は、HPSGで書かれた日本語文法JaCYに基づいて辞書の語義文を解析したものであり、詳細な統語情報と意味情報の両方が付与されている。本稿では、「檜」構築の目的や理論的基盤などについて述べる。 また、「檜」の有効性を示す一例として、知識獲得の予備実験を行なった結果について報告する。In this paper we present the motivation for the construction of the Hinoki treebank. It is a rich and dynamic treebank of dictionary definition sentences parsed using a Japanese HPSG. We show how the treebank is being used to build an ontology, and outline plans for further work.
著者
丸川 雄三 岩山 真 奥村 学 新森 昭宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.87, pp.23-28, 2002-09-17
被引用文献数
1

従来のDPマッチングでは難しかった交差の存在するテキスト間の対応付けを行う手法を提案する.提案手法の特徴は以下の二点である.まずはテキスト間における部分文字列同士のアラインメント,すなわちローカルアラインメントの概念と,その計算手法としてローカルアラインメントDPマッチングを導入した点であり,もう一点はローカルアラインメントの順位付けを行い,対応付けに利用した点である.前者の工夫により,DPマッチングの利点である類似度の最適化と計算量の削減を実現し,後者の工夫により,交差にも対応したテキスト間の柔軟な対応付けを実現した.提案手法の適用例として,公開特許公報全文における「請求項」と「発明の詳細な説明」との対応付けを紹介し,本手法の有効性を議論する.A method of aligning a text with another text, in which the partial alignments include crossovers and overlaps, is proposed. This method has the following two characteristics. One is to introduce the concept of the local alignment between sub-strings and use the dynamic programming to enumerate the possible local alignments. Another is to extract sub-optimal local alignments in addition to the optimal one. The former realizes efficient enumeration of local alignments and the latter realizes flexible text matching, where the partial alignments have crossovers and overlaps. We show an example of applying the method for finding alignments between "claims" and "embodiments" in a patent application, and discuss its effectiveness.
著者
立石 健二 福島 俊一 小林 のぞみ 高橋 哲朗 藤田 篤 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.93, pp.1-8, 2004-09-16
被引用文献数
14

本稿では、Web文書から意見を抽出し、それらをレーダーチャートの形式で要約/視覚化する意見抽出分類システムを提案する。Webの意見は、商品購入の際の情報収集、市場調査等のマーケティング、企業のリスク管理等、さまざまな目的での利用が考えられる。Webの意見の収集/分析に関する研究には2つの課題がある、対象とするWeb文書から意見に該当する箇所を抽出すること、抽出した意見を要約/視覚化することである。本システムは、この2つの課題を3つ組{対象物 属性 評価}のモデルと情報抽出の手法を用いて解決する。本システムを車に関するレビューサイトの100記事を対象として評価したところ抽出精度が適合率82% 再現率52%であり、システムが出力したレーダーチャートと人手で作成したレーダーチャートが類似することを確認した。This paper proposes an opinion extraction and classification system, which extracts people's opinions from Web documents and summarize/visualizes them in the form of "radar charts". People's opinions on the Internet are available for many purposes such as surveys before purchasing products, market research and risk management for enterprises. There are two issues on this area. One is to locate opinion sentences from Web documents, and the other is to summarize/visualize the extracted opinions. The proposed system solves them by employing an opinion model {object name, attribute expression, evaluative expression} and information extraction techniques. The experimental result conducted with 100 articles on the car domain showed that the system performed 82% on precision and 52% on recall, and that both radar charts created by the system and by the hand are similar to each other.
著者
島津 明 川森 雅仁 小暮 潔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.41, pp.65-72, 1993-05-20
被引用文献数
9 3

日常作業における実際の対話について,間投詞的応答に着目した分析を報告する.ここで,間投詞的応答とは「はい」「ええ」「うん」などの発話である.「はい」などは,疑問・依頼に対する返答として用いられるとともに,あいづちに用いられる.従来,「はい」などは,感動詞と分類されている.しかしながら,そのような分類では「はい」などの働きを適切に捉え切れていなという観点から,本報告では間投詞的応答と呼ぶ.分析は,ドキュメント作成システムLATEXによるテキスト・データ等の作成に関連した電話対話が中心である.現象の分析をとおして,間投詞的応答は,単なる理解の表示とは限らないこと,話し手と聞き手の調整(ordinati)に寄与していること,対話の促進に寄与していること,対話文の処理に対する手掛かりとなることを示す.This paper describes an analysis of interjectory responses in usual Japanese dialogues. Interjectory responses are utterances such as hai, ee, and un, corresponding roughly to 'yes' or 'uh-huh' in English. They are uttered in response to yes-no questions and requests, and are interjected while the partner is making utterances. Although hai, ee, and un are usually classified as interjections, this classification does not appropriately reflect their functions, and so we call them in this paper 'interjectory responses'. Our analysis is mainly on telephone dialogues about using LATEX, a document preparation system. Based on the analysis, it is claimed that interjectory responses do not necessarily show understanding of the partner's utterances, that they contribute to coordination of dialogue participants, that they advance dialogue, and that they are keys to an utterance processing model.
著者
山崎 啓介 張諾 渡辺 俊典 古賀 久志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.35-40, 2007-09-25

高次元特徴空間を用いるテキスト分類等において不必要な次元軸を排除することは計算量などの面から重要な問題である.この問題を解決するためには不要と考えられる次元を見出し,類性能を保つ範囲でその次元を削除していくことを繰り返せば良い.本稿では,まずテキストをその圧縮率ベクトルに着目して特徴付ける方式を示し,そこでの次元縮小法と次元縮小に必要なパラメータ設定を支援する指標関数を提案する.指標関数を参考にしながら対話的に次元縮小を行うことで,分類精度を保ったまま約 50 %の次元縮小が可能となった.When text classification is implemented in high-dimension space, removing unnecessary dimensions becomes important to reduce computation cost. This problem can be solved by finding out unnecessary dimensions and removing them , keeping the classification power of the space. In this paper, we express texts by compression ratio vectors. After introducing it, we propose an interactive dimension reduction method with an index function. The index function is used to judge whether reduction should be continued or not. By removing unnecessary dimensions by using the interactive processing , we clould achieve 50% dimension reduction while keeping the classification accuracy of the space.
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.77-84, 2003-03-06
被引用文献数
26

近年,Web上に多数存在する掲示板などの文書から,意見情報を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には,評価を表す表現が重要な手がかりとなるが,評価表現には「コクがある」「液晶がきれい」といった領域依存の表現が多数存在するため,人手で書き尽くすことは困難である.そこで,我々は,テキストマイニングの技術を応用し,評価対象表現,属性表現,評価表現の共起パタンを利用して,これら領域依存表現を効率的に収集することを試みた.本稿では,共起パタンに基づく属性・評価表現の半自動的収集方法を提案し,「コンピュータ」と「ビール」の2つの領域を対象に行った経験的評価を報告する.It has been receiving increasing interest how to extract opinions from tremendous piles of Web documents. To automate the process of opinion extraction, a collection of evaluative expressions like "the monitor is fine" would be useful. However, it can be prohibitively costly to manually create an exhaustive list of evaluative expressions for each domain since they tend to be domain-dependent. Motivated by this background, we have been exploring how to accelerate the process of collecting evaluative expressions by applying a text mining technique. This paper proposes a semi-automatic method where we use particular patterns of cooccurrences between an evaluated subject, focused attribute and orientation expression, and reports the results of our empirical evaluation on the computer and beer domains.
著者
飯田 龍 小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.1, pp.21-28, 2005-01-11
被引用文献数
12

本稿では,文章に記述されている意見を抽出するタスクについて述べる.我々は,意見を<対象,属性,評価値>の3つ組として定義し,文章からその3つ組を抽出する手法を提案する.具体的には,意見抽出の問題を,(a)辞書に存在する属性候補集合と評価値候補集合から評価値候補と対となる属性を同定する問題と,(b)同定した対が意見性を持つか否かを判定する問題の2つの問題に分解し,それぞれ機械学習に基づく手法を用いて解析することにより,属性-評価値対を同定する.提案手法を用いて評価実験を行った結果を報告するとともに,今後の展望についても議論する.This paper addresses the task of extracting opinions described in a given document collection. Assuming that an opinion can be represented as a tuple < Subject, Attribute, Value>, we propose a computational method to extract such tuples from texts. In this method, the major task is decomposed into (a) the process of extracting Attribute-Value pairs from given texts and (b) the process of judging whether each extracted pair is expressed as an opinion of the author, to both of which we apply machine-learning techniques. We also report on the present results of our experiments discussing future directions.
著者
田中 康仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.73, pp.1-6, 1999-09-10
被引用文献数
1

機械翻訳システムが日本に於いて本格的に研究開発され始めて約20年弱の年月が経過した。しかし、機械翻訳には色々な問題点がある。 ここでは、機械翻訳の現状を概観し、品質向上にあたっての問題点、方法を検討する。Almost 20 years have passed since the first steps were taken in Japan toward serious R&D in machine translation (MT) systems. Over these two decades, translation software developers have come up against a vast range of problems. In this paper, I shall give an overview of the current state of machine translation, and examine the problems developers are facing in improving the quality of machine translations, and how they are tackling those problems.
著者
原 正巳 中島 浩之 木谷強
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.27, pp.1-6, 1995-03-09
被引用文献数
14

本方式は、記述項目と内容が定められている定型フォーマットのテキストを対象に、単語の共起情報や語の部分一致などの情報を利用して、内容把握のためのキーワードを抽出する手法である。提案する方式では、まず、キーワード抽出の対象とする項目をテキストから抜粋し、字種の接続関係を利用して、複合語の分割を極力避けなからわかち書きを行なう。次に、わかち書き結果から不要語を削除して得たキーワード候補に対して、出現頻度および他の語との共起情報、語の部分一致などの情報を利用して重要度の順位づけを行なう。本検討では、記述項目が統一されている特許明細書を処理対象として、プロトタイプを試作し評価を実施した。評価の結果、本手法により特に出現頻度の低い語に高い重要度を付与できることが明らかになった。また、十分高速なキーワード抽出が期待できることがわかった。This paper describes a method for extracting keywords from Japanese text in which fields of content and the text structure are predefined. The proposed method uses information about word co-occurrences and partial word matching to extract keywords which are used to help users quickly understand the text. The method first identifies fields to be processed in the text. Second, it divides the sentences into words referring to a table which defines whether or not a word boundary must be inserted between adjacent characters. The word separation is based on the transition of character kinds, which works to keep compound words unseparated often comprising of a few Kanji characters. Third, possible keywords are selected by removing ones inappropriate as keywords. Finally, they are ranked in the likely order based on the information about word frequency, word co-occurrences, and partial word matching obtained from the text. A prototype system is developed and evaluated to process patents whose fields of content and the structure are predefined. According to the evaluation results, this method is proved to be effective particularly in giving a high priority to important words appearing infrequently in the text. The results also prove that the system is expected to extract keywords fast enough to be used as a practical system.
著者
鷲山 真澄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.79, pp.1-7, 1993-09-16

談話処理において対人関係は重要な要素であり、社会言語学観点より、親族名称のシソーラスを示す。親族名称の分析方法について、3つの人類学的手法について、説明をする。()親族例による分析、()成分分析、()プロトタイプの分析で、さらに、日本語の親族名称の壱称詞、他称詞の言語的制約について述べさらに、虚構的用法について、英語、アジアの言語についても多少説明をくわえながら、日本語の親族名称の虚構的用法についても検討する。I discuss the analysis of Japanese kinship. There are three ways of the analysis in Japanese kinship. (1)The analysis of kinship's examples, (2)compositional analysis, (3)Prototype analysis. Moreover, I explain the linguistic constraint of Japanese kinship in the usage of Japanese terms for self or address terms. And I consider the fictive usage of Japanese kinship.
著者
トニー・マレン ロバート・マルフ
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.113, pp.1-7, 2007-11-19

インターネットの知的環境の特徴として、インフォーマルな政治的談話はますます重要度を増している。そのやりとりから意味のある情報を自動的に抜き出すことは、依然困難な課題である。我々が得た結果によると、投稿自体の意見内容よりも投稿者間の修辞学上の関係が、分類のためには有益である。本論文では、インフォーマルの政治的領域の感情分析を用い、書き手の政治的志向によってテキストを分類する目的で進行中のいくつかの実験について解説する。有名な感情分析方法論に基づくアプローチを使用した実験および、これらを活用する動機、起こりうる障害を記述する。Informal political discourse has become an ever more important feature of the intellectual landscape of the Internet, automatic extraction of meaningful information from such exchanges remains a formidable challenge. Past results we have achieved indicate that rhetorical relationships between posters are much more salient and useful for classification purposes than the actual opinion content of the posts themselves. In this paper we describe our ongoing experiments in classifying texts by the political orientation of the writers by means of sentiment analysis for the informal political domain. Experiments with several approaches based on well-known sentiment analysis methodologies are described, along with the motivations for applying them in this domain and a description of the possible difficulties we anticipate.
著者
望月 源 岩山 真 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.82, pp.39-46, 1998-09-17

計算機上の文書データの増大に伴い,膨大なデータの中からユーザの求める文書を効率よく索き出す文書検索の重要性が高まっている.最近の文書検索では,ユーザの入力したクエリーと関連の高い文書の一部分を取り出して類似度を計算するパッセージレベルの検索が注目されている.パッセージ検索におけるパッセージとは,文書中でクエリーの内容と強く関連する内容を持つ連続した一部分のことを言う.パッセージ検索では,このパッセージをどのように決定するかが問題となる.良いパッセージを決定するためには,パッセージ自体が意味的なまとまりを形成し,パッセージの位置やサイズがクエリーや文書に応じて柔軟に設定される必要があると考えられる.本稿では,文書中の文脈情報である語彙的連鎖を利用し,クエリーと文書の適切な類似度を計算できるパッセージ決定手法について述べる.また,このパッセージを使用し,検索精度を向上させる検索手法について述べる.The importance of document retrieval systems which can retrieve relevant documents for user's needs is now increasing with the growing availability of full-text documents. The passage-level document retrieval has been received much attentions in the recent document retrieval task. The definition of a passage is considered as a sequent part of document which contain a relating content to a content of a query. In the passage retrieval, it is a problem how to decide the passages. It is considered that the passages which form meaning coherent units are effective in the improvement of the accuracy. Furthermore, it is also effective that the size and location of each passage is calculated flexibly with each query and document. In this paper we describe a definition of a passage calculation which can be able to calculate a similarity between each content of user's query and each part of document, using lexical chains which denote local document contexts. We also present a passage-level document retrieval method which improve the accuracy.
著者
飯田 龍 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.45-52, 2008-09-17
被引用文献数
4

ゼロ照応解析の問題を結束性と首尾一貫性の観点から検討する.結束性の観点からは,Walker [21] のキャッシュモデルの実現方法を検討し,統計的機械学習に基づく実装を提案する.このキャッシュモデルを用いて文間ゼロ照応の先行詞候補削減を試み,評価実験を通じて先行詞同定時に解析対象とする先行詞候補を激減できたことを報告する.また,首尾一貫性の観点からは,含意関係認識で利用される推論知識獲得の手法を照応解析の手がかりとすることで解析精度にどのように影響するかについて調査する.新聞記事を対象に先行詞同定の実験を行い,導入した推論規則が解析に有効に働くことを示す.This paper approaches zero-anaphora resolution in the perspectives of cohesion and coherence.From the perspective of cohesion, we examine how to use the cache model addressed by Walker [21], and propose a machine learning-based approach for implementing the cache model. Empirical evaluation is conducted in order to reduce the number of antecedent candidates by the proposed cache model, and this results show that the number of the antecedent candidates of each zero-pronoun is dramatically reduced on the task of antecedent identification. From the perspective of coherence, on the other hand, we investigate whether or not the clues introduced in the area of the automatic inference rules acquisition on entailment recognition improve the performance of anaphora resolution. Through the experiments of the antecedent identification task, we demonstrate the impact of incorporating the inference rules into zero-anaphora resolution.
著者
中野 正寛 渋木 英潔 宮崎 林太郎 石下 円香 森 辰則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.107-114, 2008-09-17
被引用文献数
3

本稿では情報信憑性の判断に役立つ要約について扱う.プロードバンド化の進展やブログの普及に伴って爆発的に増加する情報の中には利用者に不利益をもたらす情報も含まれており,情報の信憑性判断を支援する技術の実現は重要な課題である.我々は情報信憑性の判断に役立つ要約の自動生成に向けて,複数の作業者の人手により情報信憑性判断のための要約を作成する実験を行った.そして,得られた要約文章の安定性や複数作業者間の一致度を分析し,情報信憑性の判断に役立つ要約を作成する際に人間が重要視する情報を調査した.実験結果では,要約対象として収集した文書から要約に必要な記述を抜き出すまでの何段階かの絞り込みで中程度の一致が期待できる事がわかった.事後の作業者へのアンケート調査によれば,要約として適当な長さと考えたのは 1 000 から 3 000 文字程度であり,作業者がまとまっていることである.また,情報信憑性の判断に役立つ要約の自動生成に向けて,作業者が作成した要約を参照要約とし,それに対応する原文からの文の抜粋に関するデータを整備した.In this paper, we investigated processes of text summarization that supports the judgment of the information credibility. The realization of technology that supports the judgment of the information credibility is one of important issues, because information harmful to users creeps into the huge amount of available information in the era of information explosion. Aiming at automated summarization, we conducted experiments in which multiple subjects manually created text summaries from the viewpoint of the judgment of the information credibility. We studied the stability of the summarization and the degree of agreement in the results of extraction of important information. We also investigated the information that subjects supposed to be important in the process of the creation of summaries, by using questioners after the experiments. The experimental results show that moderate agreement can be expected in the result of extraction of important information. The length of summaries was between about 1,000 and 3,000 characters. According to the questioners, the documents that were well-organized and information about information holders were supposed to be important. Aiming at the automated summarization, we also prepared the information of the extracted sentences that correspond to the created summaries.
著者
鈴木 潤 藤野 昭典 磯崎 秀樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.21-28, 2007-09-25
参考文献数
9

本稿では,半教師あり条件付確率場(Semi supervised conditional random fields)について議論をおこなう.自然言語処理の多くのタスクでは )効果的なモデル学習のために単語やその連接といった特徴を利用する必要があり,一般的に数万次元以上という高次元かつスパースな特徴空間を用いて学習をおこなう必要がある。よって,これらのタスクでは,半教師あり学習の枠組みにおいても,高次元スパース特徴空間に頑健な枠組が求められるそこで。本稿では文献[1]の枠組をベースにし,高次元スパース特徴空間に対して頑健な半教師あり条件付確率場を新たに提案する.また,固有表現抽出およびチヤンキングタスクを用いて半教師あり条件付確率場の性能と性質について検証をおこなった提案法により,従来の教師あり条件付確率場[2],エントロピー正則化に基づく半教師あり条件付確率場[3]と比較して大幅に良い結果が得られたまた,エントロピー、正則化に基づく半教師あり条件付確率場は,理論的にも実験的にも,高次元スパース特徴空間を用いた学習では性能の向上が期待できないことを明らかにする.This paper proposes a novel semi-supervised conditional random field which provides good characteristics with respect to handling the large and sparse feature spaces. Experiments on two real NLP tasks with extremely large feature spaces, such as named entity recognition and syntactic chunking, show that our proposed method significantly improves the state-of-the-art performance obtained from supervised CRFs[2], and semi-supervised CRFs employing the entropy regularization approach[3]. Moreover, this paper reveals that, theoretically and experimentally, semi-supervised CRFs based on the entropy regularization approach[2] cannot work well for improving the performance of tasks with large and sparse feature spaces.
著者
藤畑 勝之 志賀 正裕 森 辰則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.86, pp.119-125, 2001-09-10
被引用文献数
1

本稿では,質問応答に用いる数量表現の取り扱いについて考察する.数値表現はそれ自身は単独では意味をなさず,どの事物のどの属性に関しての値であるかが判明して初めて有用な情報になり得る.そのため,それぞれの数値表現に関して,数値が対応する事物とどのような係り受け構造で結び付くかを考慮する必要がある.そこで,数量表現の出現する文脈について考察し,数値情報の構造を考慮した係り受けの制約と優先規則に基づく抽出規則を提案する.さらに新聞記事を対象とする実験により,本規則が数値情報を含む文書中から数値およびそれに付随する情報を抽出するうえで精度の向上に役立つことを示す.In this paper, we study the treatment of numerical expressions in question-answering systems. Numerical expressions themselves do not convey enough information, because they are only some attribute values. In combination with the objects and the attribute names, numerical expressions convey useful information. Therefore, we propose a set of extraction rules for numerical expressions, which extract numerical expressions along with the supplementary expressions. The set of rules consists of the constraints and preference rules of dependencies among numerical expressions and the supplementary expressions. An experiment of extraction we conducted with news paper articles shows that our rules are useful for improving the accuracy of extraction.
著者
持橋 大地 菊井 玄一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.36, pp.47-53, 2006-03-27
被引用文献数
2

文書があるトピックの持つ確率分布から生成されたと仮定し その確率分布パラメータと文書のトピックへの帰属確率を求めるモデルに ナイーブベイズ法を Polya 分布を用いてベイズ的に精密にとらえ直した混合ディリクレモデル(DM)があるが この方法はトピック数を事前に与える必要があるという欠点があった.これに対し 本論文では可算無限個の混合比にディリクレ過程事前分布を与えることにより データの複雑さに合わせて混合数を自動推定するディリクレ過程混合モデルによる方法を検討する. モデル選択により混合数を決定する方法と異なり この方法は混合数の事後分布をパラメータと同時に推定し 期待値を取ることで予測を行うことができる. 実験の結果 必要な混合数の上限を推測することができ 特に小規模データに対しては性能がさらに上昇することがわかった.This paper proposes a Dirichlet process mixture modeling approach to Dirichlet Mixtures (DM). Endowing a prior distribution on an infinite number of mixture components, this approach yields an appropriate number of components as well as their parameters at the same time. Experimental results on amino acid distributions and text corpora confirmed this effect and show comparative performance on large datasets and better performance on small datasets avoiding overfitting.
著者
張玉潔 尾関 和彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.85, pp.1-8, 1997-11-12
被引用文献数
3

従来の文節分割法では,人手で規則を与えていたため,規則全体の一貫性を保持するのが困難であり,また規則の適用順序の定め方に問題があった.ここでは形態素解析された日本語文を,分類木により文節単位に分割する方法を提案する.この方法によれば,分割規則をコーパスから自動的に獲得することができる.また,統計的な側面と論理的な側面から同時に分割規則を捉えることにより,効率の良い規則適用順序が得られる.さらに対象領域や形態素の分類体系などが変更されたときも,学習データを入れ替えるだけで,新しい状況に対応する分割規則を容易に獲得することができる.ATRコーパスとEDRコーパスを用いた実験により,この方法の有効性を確認した.In conventional bunsetsu segmentation methods of Japanese sentences, segmentation rules have been given manually. This causes difficulties in maintaining the consistency of the rules, and in deciding an efficient order of rule application. This paper proposes a method of automatic bunsetsu segmentation using a classification tree, where the knowledge about bunsetsu boundaries can be automatically acquired from a corpus without the need of handwork on rule making. It can also adapt quickly to a new task domain and a new system of morpheme classification. Results of experiments on ATR corpus and EDR corpus show the effectiveness of this method.
著者
滝澤 修 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.110, pp.13-20, 1995-11-17
被引用文献数
1

自然言語における修辞的表現の一種である「同語反復表現」を計算機で検出する一手法を提案する.同語反復表現とは,「彼は彼,私は私だ」や「建物という建物が倒壊した」のように,一文中で同じ語(反復語)が繰り返され,かつ表層的な処理では意味解析できない表現のことである.本稿で提案する手法は,形態素解析によって品詞の同定を行い,反復語とその周辺の単語の品詞の並びに関するテンプレートを学習データから予め人手で作成しておき,そのテンプレートとのマッチングによって,対象とする文から同語反復表現を検出するものである.新聞記事データを用いた予備的な実験では,本手法によって,80.6%の呼出率で検出できることが示された.This report proposes a method for mechanically detecting tautological expressions in the Japanese language. Tautological expressions are defined here as "rhetorics in which same words are appeared at two positions in one sentence", e.g., "A promise is a promise". In the proposed method, tautological expressions are detected by matching with templates; each template is a chain of POS (part of speech) of repeated words and the neighbouring words. The templates are created manually beforehand. Preliminary experiments using a newspaper corpus show the appropriateness of the proposed method.