著者
阿久津 達也 深川 大路 高須 淳宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. COMP, コンピュテーション (ISSN:09135685)
巻号頁・発行日
vol.106, no.63, pp.17-24, 2006-05-17

木の類似度の尺度として、木の編集距離が20年以上前に提案され、それ以来、多くの研究が行われてきた。順序木に対する編集距離計算アルゴリズムとしては(入力の木のサイズをO(n)として)O(n^3 logn)のものが現時点で最速であるが、文字列の編集距離がO(n^2)時間で計算できることが知られている。そこで本研究では、木を文字列に変換して文字列の編集距離を計算することにより、木の編集距離を近似する方法を提案する。そして、入力される木の次数が限定されており、かつ、編集操作には単位コストがかかるという場合には、木の編集距離が変換後の文字列の編集距離の1/6以上かつ、O(n^<3/4>)以下となることを示す。
著者
柳瀬 隆史 高須 淳宏 安達 淳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.57, pp.117-124, 1998-07-08
参考文献数
7
被引用文献数
1

音楽データベースの大規模化が進む中、従来の書誌情報からによる検索以外に、演奏内容からの検索への要求が高まっている。本稿では、音楽演奏情報の内容からの検索において、インデクシングを自動で行う手法を提案する。提案手法では、楽曲の主旋律(メロディ)を自動的に分割して得られるフレーズをインデクシングの単位する。フレーズへの自動分割においては、楽曲中に類似したフレーズが繰り返し現れるという特徴を利用し、DPマッチングを用いた手法を提案し、MIDIデータを用いた実験によりその有効性を評価する。As music databases grow, needs to retrieval capabilities based on contents of musical performances are also increasing in addition to a traditional method based on bibliographical information of songs. In this paper, we propose an auto-indexing method in retrieval based on contens of digital information of musical performances such as MIDI. To this end, we first extract phrases, which are assumed as a unit for indexing, from automatically segmenting melodies into "Sub-melodies". In the proposed method of automatic segmentation into phrases, DP matching is employed, exploiting repeated occurrences of similar phrases in a song. The effectiveness of our method was evaluated through an experiment using MIDI data.
著者
正田備也 高須 淳宏 安達 淳
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.SIG11(TOD34), pp.14-26, 2007-06-15

文書分類のための代表的な確率論的手法にナイーヴ・ベイズ分類器がある.しかし,ナイーヴ・ベイズ分類器は,スムージングと併用して初めて満足な分類精度を与える.さらに,スムージング・パラメータは,文書集合の性質に応じて適切に決めなければならない.本論文では,パラメータ・チューニングの必要がなく,また,多様な文書集合に対して十分な分類精度を与える効果的な確率論的枠組みとして,混合ディリクレ分布に注目する.混合ディリクレ分布の応用については,言語処理や画像処理の分野で多く研究がある.特に,言語処理分野の研究では,現実の文書データを用いた実験も行われている.だが,評価は,パープレキシティという純粋に理論的な尺度によることが多い.その一方,テキスト・マイニングや情報検索の分野では,文書分類の評価に,正解ラベルとの照合によって計算される精度を用いることが多い.本論文では,多言語テキスト・マイニングへの応用を視野に入れて,英語の20 newsgroupsデータ・セット,および,韓国語のWebニュース文書を用いて文書分類の評価実験を行い,混合ディリクレ分布に基づく分類器とナイーヴ・ベイズ分類器の,定性的・定量的な違いを明らかにする.
著者
相澤 彰子 高須 淳宏 深川 大路 高久 雅生 安達 淳
出版者
国立情報学研究所
雑誌
Progress in informatics : PI (ISSN:13498614)
巻号頁・発行日
vol.6, pp.41-47, 2009-03

本研究では,学術情報に焦点をあて,2 層構造を持つ情報同定システムを提案する.まず,同一の事物や人物を参照する断片化した情報をつなぎあわせる情報同定の考え方について述べ,次に,特に書誌および研究者の同定機能を組み合わせた情報同定システムを提案する.応用例として,共著関係ネットワーク分析結果をあわせて示す.
著者
正田備也 高須 淳宏 安達 淳
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.11, pp.14-26, 2007-06-15
被引用文献数
4

文書分類のための代表的な確率論的手法にナイーヴ・ベイズ分類器がある.しかし,ナイーヴ・ベイズ分類器は,スムージングと併用して初めて満足な分類精度を与える.さらに,スムージング・パラメータは,文書集合の性質に応じて適切に決めなければならない.本論文では,パラメータ・チューニングの必要がなく,また,多様な文書集合に対して十分な分類精度を与える効果的な確率論的枠組みとして,混合ディリクレ分布に注目する.混合ディリクレ分布の応用については,言語処理や画像処理の分野で多く研究がある.特に,言語処理分野の研究では,現実の文書データを用いた実験も行われている.だが,評価は,パープレキシティという純粋に理論的な尺度によることが多い.その一方,テキスト・マイニングや情報検索の分野では,文書分類の評価に,正解ラベルとの照合によって計算される精度を用いることが多い.本論文では,多言語テキスト・マイニングへの応用を視野に入れて,英語の20 newsgroupsデータ・セット,および,韓国語のWebニュース文書を用いて文書分類の評価実験を行い,混合ディリクレ分布に基づく分類器とナイーヴ・ベイズ分類器の,定性的・定量的な違いを明らかにする.The naive Bayes classifier is a well-known method for document classification. However, the naive Bayes classifier gives a satisfying classification accuracy only after an appropriate tuning of the smoothing parameter. Moreover, we should find appropriate parameter values separately for different document sets. In this paper, we focus on an effective probabilistic framework for document classification, called Dirichlet mixtures, which requires no parameter tuning and provides satisfying classification accuracies with respect to various document sets. Many researches in the field of image processing and of natural language processing utilize Dirichlet mixtures. Especially, in the field of natural language processing, many experiments are conducted by using real document data sets. However, most researches use the perplexity as an evaluation measure. While the perplexity is a purely theoretical measure, the accuracy is popular for document classification in the field of information retrieval or of text mining. The accuracy is computed by comparing correct labels with predictions made by the classifier. In this paper, we conduct an evaluation experiment by using 20 newsgroups data set and the Korean Web newspaper articles under the intention that we will use Dirichlet mixtures for multilingual applications. In the experiment, we compare the naive Bayes classifier with the classifier based on Dirichlet mixtures and clarify their qualitative and quantitative differences.
著者
小島 秀一 高須 淳宏 安達 淳
出版者
国立情報学研究所
雑誌
NII journal (ISSN:13459996)
巻号頁・発行日
vol.4, pp.23-35, 2002-03-29
被引用文献数
6

Web上に散在する情報を扱い易くするための手段として,サイト上のページをグループ化するという方法を提案する.意味的に関連した文書をひとまとまりにすることにより,サイトの全体像をユーザへ提示することなどが可能となる.従来の文書の自動分類などでは文書間の類似度を利用して処理が行われているが,本手法ではページ間のリンク構造に着目してサイト内のページ集合をWebグラフとみなし,強連結成分をグループとして抽出することを試みている.またグループは階層的な構造をしているので,その階層構造を抽出するために強連結成分の分割を行っている.
著者
倉沢 央 正田備也 高須 淳宏 安達 淳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.36, pp.147-154, 2007-04-06

ビア・ツー・ビア(P2P)ネットワークを用いた情報検索では、低コストでありながら負荷分散や高いスケーラビリティが簡単に実現可能である。従来のノード単位でキーワードのインデキシングを行う手法では、ノードの評価が影響するため検索漏れを引き起こしやすい。また、同一ファイルの区別をしにくいためファイルの冗長化が難しい。そこで本稿では、P2P 情報検索における索引とファイルの分散配置手法、Concordia を提案する。(k n)閾値法を用いてファイルを分散符号化し、文書におけるキーワードの重みに応じてキーワードに対応付けする分散情報の数を決め、DHT 上にインデックスと分散情報を統合して配置することで、ファイルのクエリとの適合度を考慮した検索と、ファイルの総量を抑えた負荷分散とノードの離脱への対策を備えた効率の良い冗長化を実現する。Many Peer-to-Peer information retrieval systems use keyword-peer index and require peer selection techniques. Peer selection tends to fail the most relevant file and cannot identify replica files. We propose Concordia, a new distributed index and data allocation scheme for P2P information retireval, that searches and gathers relevant files based on its relevance to the query and realizes efficient redundancy for load balance and node departure. Our system makes n pieces from a data with (k, n) threshold scheme and places pieces based on the weight of a keyword on the peer related to the keyword index in DHT.
著者
金沢 輝一 高須 淳宏 安達 淳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.57, pp.165-172, 1998-07-08
参考文献数
12
被引用文献数
4

情報検索においては自然言語の意味曖昧性が大きな問題となっており,ベクトル空間モデル上で問合せ表現のベクトルを拡張するquery expansionなどの手法が存在する.しかし問合せ表現は情報量が小さいために,検索者の意図を汲み取って的確にベクトルを拡張することは難しい.著者らは文書関連性を用いて文書ベクトルを拡張することで検索性能を向上させる手法を提案する.提案手法では検索テーブル作成時に文書関連性に基づいて文書集合を作り,この集合を単位として補う要素を決定することで精度の向上を図る.評価実験として,学術論文に予め付与されているキーワードを情報源として文書間の関連性を抽出,この関連性を元にベクトルを補って,tf・idfモデルやquery expansionとの性能比較を行う.Ambiguity of meaning is a serious problem in information retrieval, and query expansion in the vector space model is one of the typical methods, which expands the query vectors to cope with this problem. However, queries tend to have less information for fitting query vectors to the latent semantics, which are difficult to express in a few query words given by users. We propose a document expansion method which expands the document vectors based on relevance of documents. The proposed method, in which document sets are prepared based on the relevance of documents at the time search table is constructed by adding words for each set, is expected to increase the query precision. In this paper, we evaluate our method through retrieval experiments in which the relevance of documents extracted from scientific papers, and the comparison with tf・idf and query expansion methods is described.