著者
加藤 輝政 小川 清 佐良木昌
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.69, pp.65-70, 1997-07-24
被引用文献数
2

英語複文を4パターンに分類した。典型(プロトタイプ)・定型(ステレオタイプ)・従属接続詞を伴わない型(ポテンシャルタイプ)・句形態に従属節構造が潜む型(レイテンタイプ)。この4パターンの複文は、単文結合に還元可能である。分割するのではなく、接続副詞などにより媒介される単文結合に還元する。English complexes are classified into four main types: prototype, stereotype, potential type, and latent type, The conception of clause is herein interpreted in a broad sense and thus the potential and latent types include NEXUS defined by Otto Jespersen. Hypotaxis which means subordination can be reduced to Parataxis with couplers such as conjunctive adverbs, hence the organization of unconnected coordinated sentences, Parataxis, have been developed to subordination expressing complex relationship between main thought and constituent parts thereof.
著者
伊東 秀夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.2, pp.27-34, 1999-01-20

Suffix arrayは文字列索引の一種であり、suffix treeに比べ単純でコンパクトなデータ構造で実装できる。文字列処理に対して多くの優れた性質を持つsuffix arrayだが、特に大規模なテキストに対しては索引構築に多大な記憶量と計算コストを必要とし実用上の問題なっている。我々は、高速かつコンパクトなsuffix array構築法を提案する。そのキーとなるアイデアは、任意のsuffix間の関係ではなく、隣接するsuffix間の関係のみを利用する点にある。このアルゴリズムを二段階ソート法と呼ぶ。514MBの毎日新聞記事を含む様々なデータセットを用いた評価実験により、我々のアルゴリズムはQuicksortの4.5?6.9倍高速であり、また、今までで最も高速なアルゴリズムとして知られているSadakaneの方法に対し2.5?3.6倍高速であることが示される。The Suffix array is a string indexing structure and a memory efficient alternative of the Suffix tree. It has myriad virtues on string processing. However, it requires large memory and computation to build suffix arrays for large texts. We propose an efficient algorithm for sorting suffixes. One of the key ideas is to use specific relationships between an adjacent suffix pair. We call this algorithm the Two-Stage Suffix Sort. Our experiments on several text data sets (including 514MB japanese newspapers) demonstrate that our algorithm is 4.5 to 6.9 times faster than the popular sorting algorithm Quicksort, and 2.5 to 3.6 times faster than Sadakane's algorithms which is known as the fastest one.
著者
西野 文人 落谷亮 木田 敦子 乾 裕子 桑畑 和佳子 橋本 三奈子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.21, pp.95-102, 1998-03-12
被引用文献数
7

新聞における企業活動に関するの記事など事象が明確に記述される文書では、情報抽出における抽出精度の向上や処理の複雑さを低減するために、事象構造の制約により名称抽出などの部分構造抽出を行なうのが効果的と考えられる。このようなに考えに基づき、トップダウン処理のパターン解析により事象構造を決定し、事象構造を制約として名称認識を行ない,さらには実世界との対応付けを行なうシステムを作成した.このシステムを用いて新聞の組織合併情報,新製品情報からの情報抽出の実験したところ,組織名適合率80?90%,合併事象の抽出率55?715%を得た.The information on the event structure improves the quality of information extraction and reduces the complexity of the process for the documents that express the events clearly, such as newspaper articles on corporate activities. We developed an extraction system that generates event structures by the topdown pattern analysis and extracts named entities based on the restriction given by the event structures. After the pattern analysis, the system relates the extracted entities with the real world entities. An experiment of extraction from news articles on corporate mergers and new products shows 80-90% precision for the name of organizations and 55-75% precision for the merger events.
著者
植木 正裕 徳永 健伸 田中 穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.85, pp.45-51, 1997-11-12

本論文は、GLR法における圧縮共有の効率を改善する手法を提案する。GLR法では、圧縮共有統語森により解析の高速化をはかつているが、冨田によるGLR法の実誇では、アクションのコンフリクトによって枝分かれした複数のスタックの間で解析のタイミングがずれるために、共有できるシンボルの生成のタイミングもずれることがある。このため、スタックの完全な圧縮共有ができているとは限らず、同じ解析動作が重複して行なわれたり、完全な圧縮共有統語森が生成できないこともある。本論文で提案するGLRパーズの手法では、枝分かれしたスタックの間での解析のタイミングを制御し、スタックの共有化のタイミングを早め、完全な圧縮共有統語森を作成することができる。これにより、解析の高速化と使用メモリ空間の削減を同時に実現できる。In this paper we propose a method to improve efficiency of GLR parsing. Tomita's GLR implementation uses two data structures, graph-structured stack and packed-shared parse forest. Both structures help us avoid applying same parsing action repeatedly to save parsing time and memory space. However, his implementation misses a chance to share data structures. To the contrary, our method not only keeps the advantage of Tomita's implementation but also allows data structures to be completely shared. Experiments show our method exceeds in both time and space efficiency compared to Tomita's method.
著者
乾 健太郎 脇川 浩和
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.62, pp.87-94, 1999-07-22
被引用文献数
2

近年,信頼性の高い品詞・構文タグつきコーパスに対する需要の増大にともなって,コーパスを共有・再利用することの重要性がますます大きくなっている.しかし,既存のタグつきコーパスでは基礎とする品詞体系が統一されておらず,そのことが共有・再利用の障害となっている.このような背景から本稿では,既存のコーパスの品詞・構文タグを別の品詞体系に基づく品詞・構文タグに変換するアルゴリズムについて論じる.本稿で提案する手法では,ターゲット側品詞体系に基づく文法・辞書でコーパスを形態素・構文解析することによって半自動的にタグ付けを行う.このとき生じる曖昧性は,ソース側タグ情報を最大限に利用することによって高い精度で解消することができる.The problems in reusing the POS-tag information of an existing corpus are in the gap between different tag sets; corpora are annotated in terms of different tag sets. While the recent efforts for standardizing tags are important, we still need to explore techniques for the (semi-)automatic conversion between different tag sets in order to maximally reuse the existing tagged corpora. This paper presents an NLP-based method for the conversion between Japanese POS-tag sets, and reports the results of our preliminary experiment.
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.107, pp.9-16, 2000-11-21
被引用文献数
18

本稿では,Support Vector Machine (SVM)に基づく一般的なchunk同定手法を提案し,その評価を行なう.SVMは従来からある学習モデルと比較して,入力次元数に依存しない極めて高い汎化能力を持ち,Kernel関数を導入することで効率良く素性の組み合わせを考慮しながら分類問題を学習することが可能である.SVMを英語の単名詞句とその他の句の同定問題に適用し,実際のタグ付けデータを用いて解析を行なったところ,従来手法に比べて非常に高い精度を示した.さらに,chunkの表現手法が異なる複数のモデルの重み付き多数決を行なうことでさらなる精度向上を示すことができた.In this paper, we apply Support Vector Machines (SVMs) to identify English base phrases (chunks). It is well-known that SVMs achieve high generalization performance even with input data of very high dimensional feature space. Furthermore, by introducing the Kernel principle, SVMs can carry out the training in a high-dimensional space with smaller computational cost independent of their dimensionality. In order to achieve higher accuracy, we also apply majority voting of 8 SVM-based systems which are trained using distinct chunk representations. Experimental results show that our approach achieves better accuracy than other conventional frameworks.
著者
森 信介 伊藤伸泰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.69, pp.47-54, 2001-07-16

確率的言語モデルを基礎とする自然言語処理において、タグが付与された学習コーパスは重要であり、これを増量することが精度向上につながることがわかっている。しかしながら有意な精度向上のためには、学習コーパスを指数関数的以上に増加させる必要があり、このために必要なコーパスにタグを付与するコストは無視できない程度になっている。このような背景のもと、本論文では、タグなしコーパスの利用による形態素解析と仮名漢字変換の精度向上について述べる。実験では、タグなしコーパスの利用により、確率的言語モデルの予測力やそれに基づく仮名漢字変換の精度は有意に向上し、タグなしコーパスは0.87倍の量のタグつきコーパスに匹敵したが、形態素解析の精度向上は微小であった。A tagged corpus plays an important role in natural language processing based on a stochastic language model and increasing the corpus size improves the accuracy. It is, however, necessary for a meaningful improvement to incerase a corpus size more than expornentially and an annotation cost needed for it is not negligiable. In this paper, we discuss the usage of an untagged corpus. In the expreriments, using an untagged corpus improved the predictive power of a stochastic language model and the accuracy of a kana-kanji converter based on it. But for a tagger the improvement was slight.
著者
加藤 直孝 有澤 誠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.22, pp.39-46, 2005-03-10
被引用文献数
2

本稿はソフトウェアのローカライゼーションにおける文字列の翻訳に関するものである。現在の多くのアプリケーション・システムはユーザーとのインターラクションを前提としており、ユーザーとの意思疎通のためにテキストを用いる。このテキスト情報のうちプログラムに統合した情報をProgram Integrated Information (PII)とよぶ。PIIはプログラム中に埋め込まず、プログラムとは分離した外部テキストファイル上に置く。これによりPIIの翻訳者はプログラムのコードとは別に文字列を翻訳できる。ただしPIIを外部テキストファイルにしても、PIIの翻訳には多くの問題が残っている。プログラムの国際化に関して、従来は文字コードやファイルフォーマットと言ったPIIのプログラミングの側面のみを議論してきた。PIIの翻訳や自然言語処理の側面は論じてこなかった。本稿はPIIの自然言語、特に翻訳、の側面に焦点をあてる。まず、PIIには「相」があることを指摘するとともに、PIIのモデルを構成する「Feature」を導入する。そして、それら「相」や「Feature」がPIIの文脈とどのような関係にあるかを提示することにより、PIIの概念構築を行った。今後は構築した概念モデルを活用して、プログラム開発言語、プログラム開発環境、翻訳支援ツール、および自動翻訳プログラムがいかに協調してPIIの翻訳の問題を解くかを議論できる。Most of the application systems require interaction with users. Such applications use text strings to communicate with users. Those strings are integrated in a software and are called "Program Integrated Information (PII)." This paper focuses translation of those text strings from the point of software localization. PII is separated into text files from application system programs. Although this separation enables translators to translate PII without referring the coding of the application system program, it does not solve all the problems that translators face when they translate PII. Computer scientists and engineers that were engaged in the design of PII have not discussed the natural language aspect of PII, but discussed only the programming aspect of PII such as character coding and PII file format. This paper introduces the PII concept of "So" and "Feature" to understand PII from both aspects. Then the conceptual model of PII is presented by relating the "PII Context" to the "So" and "Features."
著者
小田 誠雄 川端 晋一郎 横田 将生
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.27, pp.37-42, 1995-03-09

我々は心像意味論(DST:MentalImage Directed Semantic Theo)に基づいて図形などの非言語的知識を援用した自然言語の概念学習システムの作成を試みている.本論文では,触覚に関連する概念の学習システムについて述べる.まず,市販のシソーラスに記述された触覚に関する自然言語の概念を分析し,6つの属性空間上の12個の事象パターンを得た.次にロボットアームと4種類のセンサー素子を用いたシステムを設計し,その上で事象パターンをどの様に分別するか考察し,分析された概念のほとんどを扱えるという結論に達した.現在,システムは作成の途上であるが,温覚センサーについては完成し,予備実験をおこない,例えば「熱い」と「暑い」の違いを区別できることを確かめた.Basing on MIDST(MentalImage Directed Semantic Theory), the authors have been constructing a learning system of natural language concepts, which is supported by non-linguistic media such as pictures. In this article, we report a learning system of concepts associated to tactile sense organs. First, we analyzed natural language concepts concerning tactile qualities in a thesaurus on the market and have got twelve event patterns in six attribute spaces. Second, we designed a system composed of a robot arm and four kinds of sensor, and studied how the event patterns were aquired and recognized in the system. We have arrived at the result that the system handles most of concepts analyzed in the way above. Although the whole system is under construction at the moment, we have already equipped the system with the thermo sensor and our preliminary experiments have confirmed that the system can tell "hot" for hot coffee from "hot" for hot weather, for example.
著者
北村 順平 青野 雅樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.113, pp.45-50, 2008-11-19

ウェブスパムでは、より多くのトラフィックを集めることを目的に様々なスパミング手法が用いられている。ウェブの専門家がウェプスパムを識別することは不可能ではないが、膨大な数のウェブスパムを 1 つ 1 つ識別することは非現実的である。そこで我々は、機械学習を用いることで半自動的にウェブスパムを検出する手法を提案した。本手法では訓練用のウェブサイトとテスト用のウェプサイト間の類似度を求めることでウェブスパムの検出を行う。類似度は KNN と SVM を組み合わせた SVM-KNN を拡張したものを用いた。WEBSPAM-UK2007 データセット [1] を用いて本手法の評価を行った結果、効率的にウェブスパムを検出できることを確認した。Web spams use many kind of techniques to achieve more traffic from search engines. A web specialist can identify a webspam from websites but it's a distant idea to identify all webspams from a huge number of websites. We propose a method which can semi-automatically detect webspams by applying machine learning techniques. Our method uses similarity of websites to detect webspams. Similarities are determined by KNN, SVM and SVM-KNM. Experimental results on WEBSPAM-UK2007 datasets [1] show that we can efficiently identify webspams.
著者
森 大毅 阿曽 弘具 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.63, pp.89-96, 1994-07-21
被引用文献数
5

trigramモデルは自然言語の局所的性質の良い近似となっており、パターン認識全般において広く用いられている。本報告では、日本語文書中の文字系列のtrigramモデルを用いた文字認識後処理の手法について述べ、実際に文字認識実験を行うことでその有効性を明らかにする。新聞の社説を統計処理することによりモデルを構築し、そのしぼり込み効果をパープレキシティを用いて評価する。その際2種類のスムージング法を導入し、削除補間法を用いた場合の予測性能が優れていることを示す。3種類の文書に対して文字認識後処理を適用した結果、誤字の回復率が75%から90%以上と高い効果が得られた。Being a good representation of local feature of natural languages, trigram model is widely applied to various pattern recognition system. In this report, a postprocessing method for character recognition using the trigram model of the character sequences in Japanese documents is described, and its advantage is revealed by practical experiments. The model is trained by statistical processing of leading articles, then the ability to reduce ambiguity is evaluated by the perplexity. In this procedure, two smoothing methods are introduced, and the predictive power of deleted interpolation method is shown to be superior. Experimental results of postprocessing for three kinds of documents show that the correction rates are 75 to over 90 percent.
著者
山本 英子 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.61-66, 2006-11-22
参考文献数
7

本稿では,上位語下位語や同義語 反義語といった分類的関連を持つ単語集合ではなく,連想関係や因果関係といった主題的関連を持つ単語集合をテキスト集合から抽出することを試みる.後者の単語集合が持つ関連は,前者と違って,シソーラスのような知識ではなく,辞書に載っていない知識である.本研究では,そのような知識が発想支援に利用できるのではないかと考え,得られた関連語集合を用いて実際にWeb検索をすることにより,提案手法によって得られた関連語集合が発想支援に適用できることを示す.In this paper, we tried to extract sets of related word with thematic relations such as associated relation and causal relation, which are not taxonomical relations such as hypernym-hyponym relation and synonym, acronym. The relations between words composing the latter related word set can be regarded as knowledge which is not thesaurus-like knowledge and which there is not in the dictionaries. We think such related word sets can be used to support creativity. Then, we estimate the availability for creativity support that the related word sets we extracted can be had, through verification of their availability to Web retrieval.
著者
加藤 一民 松尾 啓志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.22, pp.87-93, 2005-03-11
被引用文献数
3

Webコミュニティとは、共通のトピックを扱うWebページの集合を意味する。KleinbergのHITSアルゴリズムは、Webページ間のリンク関係を解析することにより、特定のトピックに関連するWebコミュニティを発見する。しかし、一般に広い意味を持っているトピックにおいては、トピックに関連するコミュニティは1つだけでなく、複数存在するため、単一のコミュニティを抽出するHITSアルゴリズムでは、ユーザが意図するWebコミュニティを抽出することができない場合がある。そこで本研究では、Markov Cluster Algorithmを用いて、ユーザから与えられたキーワード(トピック)から、それに関連する複数のWebコミュニティを発見する手法を提案する。A web community is a set of web pages created by individuals or associations with a common interest on a topic. Kleinberg's HITS algorithm find a web community on a query topic by link analysis. For multiple meanings of query terms, there might be multiple web communities related to the query topic. However, HITS algorithm can't always extract web community which users would expect or prefer, because it can only extract single community on a query topic.In this paper, we propose a method for discovering web communities on a query topic, using Markov Cluster Algorithm.
著者
水田 貴章 柴田 雅博 冨浦洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.113, pp.91-98, 2008-11-19

コーパスベースで言語知識を獲得する場合には,その言語の大規模なコーパスが必要となる.Web 上には多種の言語で書かれた膨大な数の文書が存在するため,そこから文書を収集することによって様々な言語の大規模コーパスの構築が可能である.このとき,言語ごとのコーパスを構築するためには,まず,収集文書がどの言語で書かれているかを識別する必要がある.本論文では,仮説検定を導入した言語識別手法を提案する.この手法により,長い byte 列を用いた場合でも統計的な揺らぎの影響が小さい言語識別が可能となる.実験の結果,従来手法では識別が難しかった小さなサイズの文書に対しても高い精度で言語識別を行えることが確認できた.To get language knowledge based on a corpus, we need a large number of documents written in the language. In the web, there are a huge number of documents written in various languages, and we can construct corpora of various languages easily by gathering each language's documents from the web.The first step to construct corpora in this way is to identify the language of each gathered document.In this paper, we propose a language identification method using statistical hypothesis testing. The method is robust against the statistical fluctuation even when we use long and low-frequency symbol sequences as language features. Through experiments, the proposed method identified languages of short documents accurately, which the previous methods could not.
著者
矢野 純司 荒木 健治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.35, pp.21-28, 2007-03-28
参考文献数
11

本研究では自動要約の対象として、コールセンターにおける音声対話に着目し、営業日報を自動的に生成する手法を提案する。コールセンターにおいて電話内容を営業日報として簡潔に記載する作業は、時間と作業量のどちらの観点からも非常に大きなコストとなっている。そこで、本手法では音声データをテキスト化し重要箇所の抽出、そして文体変換を行うことで、営業日報をシステムによって自動生成することを目的とする。本稿では、過去の対話内容とその営業日報から帰納的学習により再帰的に規則獲得を行い、それらの規則を用いて未知の対話内容に対して重要箇所の決定、文体変換を行うシステムを提案し、その性能評価を行った。In this research, we propose a summarization method for generating business reports from call center speech dialogues. It is costly laborious and time-consuming to write a business report at call centers by hand. Therefore, we propose a method for generating business reports from speech dialogues using text conversion, extraction of important parts and paraphrasing. This method recursively acquires rules from previous dialogues and business reports by using Inductive Learning and applies them to new dialogues to determine important parts and paraphrase them. In this paper, we describe our system and introduce the evaluation of its performance.
著者
清水 友裕 野村 浩郷
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.87-92, 2007-01-26
参考文献数
11

自然言語対話において,音声認識や文章解析での誤りによって適切な応答が困難になるという問題がある.本稿では,そのような誤りを訂正する対話を対話全体の一部として自然な形で埋めこみ,誤り訂正をしながら対話を適切に進行させる対話処理について述べる.対話のドメインとしては,便宜的に,パソコン技術サポートを行うコールセンターでの質問応答を取上げ,既存の大量な質問応答データから取得したドメイン知識などを適用して,誤り訂正を行う対話処理について考察する.In a natural language dialog, there is a problem that a suitable response becomes difficult by the mistake in speech recognition and/or the error in text analysis. In this paper, the dialog which corrects such errors is incorporated in a form natural as a part of whole dialog, and the dialog processing which advances a dialog appropriately carrying out an error correction is discussed. As a domain of the dialog, the question-answering at the call-center which performs personal computer technical support is taken up, for our convenience. The domain knowledge is acquired from large amount of question-answering data, and is applied to the dialog processing which performs an error correction.
著者
野本 忠司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69, pp.1-6, 1995-07-20
参考文献数
13

本稿では日本語テキストにおける主題の自動抽出に向けて、新しい手法を提案する。本稿では、主題抽出を一種の文書分類(ext Categorizatio)と捉え、従来の文書分類の技術を応用した確率的な主題抽出方式を提案する。また、本稿では、格助詞を利用し主題抽出における文法情報の効果について検討する。CD?ROM版日本経済新聞(992年1?6月)の42,401件の記事をデータとして利用し、格情報あり、格情報なしの条件下で主題抽出の実験を行った。また、評価の基準としてベースラインを導入した。実験の結果では、格情報を利用したモデルが他の場合に比べ優位であることが確認された。しかし、本方式は記事が長くなるにつれ精度が急速に低下するなどの問題が見られ、改善の余地があることも分った。The paper describes a new method for discovering topical words in discourse. It shows that text categorization techniques can be turned into an effective tool for dealing with the topic discovery problem. Experiments were done on a large Japanese newspaper corpus. It was found that training the model on annotated corpora does lead to an improvement on the topic recognition task.
著者
福井 義和 北 研二 永田 昌明 森元 逞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.27, pp.111-118, 1996-03-14
参考文献数
7
被引用文献数
2

確率・統計的手法に基づいた対話のモデル化について研究し、このような対話モデルを大規模言語データベースであるコーパスから自動的に生成するための実験を行なった。実験に用いたコーパスは、ATR対話コーパスであり、各発話には話者ラベルおよび発話行為タイプ(FT; Illocutionary Force Typ)が付与されている。Ergodic HMMおよびALERIGIAアルゴリズムを用いて、話者ラベルおよびIFTの系列をモデル化することにより、話者の交替や質問・応答・確認といった会話の基本的な構造を確率・統計的にモデル化することができた。In the work described here, we automatically deduce dialogue structures from a corpus with probabilistic methods. Each utterance in the corpus is annotated with a speaker label and an utterance type called IFT (Illocutionary Force Type). We use an Ergodic HMM(Hidden Markov Model) and the ALERGIA algorithm, an algorithm for learning probabilistic automata by means of state merging, to model the speaker-IFT sequences. Our experiments successfully extract typical dialogue structures such as turn-taking and speech act sequencing.
著者
萩原 正人 小川 泰弘 外山 勝彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.22, pp.71-78, 2005-03-11
参考文献数
16
被引用文献数
2

大規模コーパスから語の類似関係を得るためには,語の共起関係や文脈などの特徴を利用する方法が一般的である.しかし,語に関する表層的な特徴をそのまま用いる手法には,ノイズの混入やスパースネスなどの問題がある.本稿では,確率論・情報理論に基づく潜在意味モデルであるPLSIを用い,語の潜在意味を推定することによって名詞間の類似関係を求める.評価実験の結果,tf・idfやLSIなどの従来手法と比較してPLSIの性能が最も高く,シソーラス自動構築におけるPLSIの有用性を明らかにした.また,PLSIを類義語の自動獲得へ適用する際の様々な基礎的利用技術についても報告する.A common way to obtain synonym relationships from large corpora is to utilize the features such as cooccurrence and words' context. However, methods based on direct use of surface information concerning to words suffer from noises and sparseness. This paper describes how to utilize PLSI, which is a latent semantic model based on probability theory and information theory, to infer the meaning of words and obtain synonym relationships between nouns. An experiment has shown that PLSI achieves the best performance compared to conventional methods such as tf・idf and LSI, which shows the effectiveness of PLSI for automated construction of thesauri. Various useful techniques when applying PLSI to automatic acquisition of synonyms are also discussed.
著者
永田 昌明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.85, pp.9-16, 1997-11-12
参考文献数
14
被引用文献数
4

本稿では、小さな単語リストと大量のプレーンテキストから日本語の単語分割プログラムを作成する方法を提案する。本手法は、単語単位の統計的言語モデル、初期値推定手続き、再推定手続きから構成される。まず文字種に関するヒューリスティクスを用いて訓練テキストから抽出した単語候補を単語リストに加え、単語リスト中の単語と最長一致する訓練テキスト中の文字列の頻度から単語頻度の初期値を推定する。次に単語頻度に基づく統計的言語モデルを用いて訓練テキストを単語分割し、単語リストと単語頻度を再推定する。1719個の単語と390万文字のテキストに対して本手法を用いて単語分割プログラムを訓練したところ、単語分割精度は再現率86.3%,適合率82.5%であった。We present a self-organized method to build a stochastic Japanese word segmenter from a small number of basic words and a large amount of unsegmented training text. It consists of a word-based statistical language model, an initial estimation procedure, and a re-estimation procedure. Initial word frequencies are estimated by counting all possible longest match strings between the training text and the word list. The initial word list is augmented by identifying words in the training text using a heuristic rule based on character type. The word-based language model is then re-estimated to filter out inappropriate word hypotheses. When the word segmenter is trained on 3.9M character texts and 1719 initial words, its word segmentation accuracy is 86.3% recall and 82.5% precision.