著者
辻河亨 吉田 稔 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.1, pp.155-162, 2004-01-14
被引用文献数
4

文書中から用語抽出を行う手法としては様々なものが提案されているが,多くはコーパスにおける用語候補の使用における統計量を利用するものであった。本稿では,これまで光が当てられていなかった用語を構成する語基間の関係について,そのグラフ構造に着目する。まずグラフにおける局所的ないし大域的構造を反映する用語抽出の指標を新たに提案し,その上で提案した用語抽出のいくつかの指標,およびそれらの組み合わせを,複数のコーパスを用いて実験的に評価した結果について報告する。Many methods to evaluate termhood of word sequences extracted from documents have been proposed. The majority of them use the statistics of term candidates appearing the corpus. The ignored side, however, is the graph structure whose nodes are basic terms that consist of complex terms. That is exactly what we focus on in this paper. We propose term extraction algorithms which utilize this graph structure. More precisely, the proposed methods assume the whole set of compound terms as a graph and applies web mining method to term extraction. The nodes are element words, the edges coincide with modifying relations between words in the definition of graph, and the importance of terms are ones used to find web communities or in ranking pages by Web search engines. Finally we experimentally evaluate the proposed algorithms with terminology dictionaries on Web.
著者
吉田 稔 杉浦 隆博 山田 剛一 増田 英孝 中川 裕志
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

本発表では、テキストに記述された数値情報を、その属性名とともに抽出し、複数記事間の数値情報を関連付けることにより、自動的にグラフを作成するシステムを紹介する。数値情報どうしの関連付けのさい、(属性、数値)のペアについてクラスタリングを行う。また、入力された属性名に対して、生成されたグラフから自動的に適切なグラフを選択し提示する手法についても述べる。
著者
佐藤 一誠 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.43, pp.25-28, 2007-05-17

Unigram Mixture(UM) は教師無し文書分類などで幅広く使われている確率的生成モデルである。UM は、混合モデルであり、実際の適用にはユーザーは混合数決定問題を常に抱えている。近年、このような混合モデルにおいて、Dirichlet Process(DP) を用いたノンパラメトリックベイズモデルが注目を集めている。DP を用いることでデータに合わせてモデル構造(混合数)を変化させることができる。本研究では、DP により拡張した UM に対して、collapsed Variational Bayes inferense を用いてモデル学習する手法を示す。対数尤度と F-score による評価により従来手法に対する有効性を確認した。UnigramMixture(UM) is a probabilistic generative model that is widely used in unsupervized clustering of documents. UM is a mixture model and have a problem of how to determine the number of clusters. Recently, a nonparametric Bayes model using Dirichlet Process(DP) has gotten a lot of attention in this problem. Models using DP can determine the number of cluster corresponding to data. In this paper, we expand UM by DP and present a scheme that learns the model by Collapsed Variational Bayes inference.
著者
王玉馨 清水 伸幸 吉田 稔 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.46, pp.7-14, 2008-05-15
被引用文献数
3

コーパスから同義語の対を抽出するための一般的な方法では、通常二つ単語間の類似度 (例えば、cosine 類似度) が必要である。類似度を使用することで、特定のクエリ単語に対しての類似語ランキングが可能になり、同義語候補リストから正しい同義語が認定できる。この論文では、それに加えて、単語類似度ネットワークを分析する新しい方法を提案する。単語類似度ネットワークでは閾値以上の類似度をアークとして、単語をノードとして定義する。提案する自動同義語候補選択ためのランク閾値(Rank Threshold for synonym candidate Selection RTS) によって類似度の順位が閾値以内のアークが構成される単語類似度ネットワークはスケールフリーグラフである。 この性質に基づいて、我々は新しい同義語候補のリランキング手法を提案する。これを相互リランキング法 (Mutual Re-ranking Method MRM) と呼ぶ。同義語獲得における提案手法の有効性を示すために MRM 方法を Reuters-21578 に適用した。 実験結果によって、RTS と MRM が同義語抽出の品質の向上させることが示された。Popular methods for acquiring synonymous word pairs from a corpus usually require a similarity metric between two words, such as cosine similarity. This metric enables us to retrieve words similar to a query word, and we identify true synonyms from the list of synonym candidates. Instead of stopping at this point, we propose to go further by analyzing word similarity network that are induced by the similarity metric for the edges with the similarities that are ranked as top threshold number. By introducing the rank threshold for synonym candidate selection method (RTS), our analysis shows that the network exhibits a scale-free property. This insight obtained from the network leads us to a method for re-ranking the synonym candidates -a mutual re-ranking method (MRM). We apply our methods to Reuters-21578 to show the generality of the methods on synonym acquisition. The results show that RTS and MRM boosts the quality of acquired synonyms.