- 著者
-
池田 大輔
山田 泰寛
廣川 佐千男
- 雑誌
- 情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
- 巻号頁・発行日
- vol.46, no.SIG2(TOM11), pp.56-66, 2005-01-15
本論文では,複数の文字列に共通な部分を見つける問題を考察する.まず,この問題をパターンから生成された文字列の集合が与えられたときに,そのパターンの定数部分を見つける問題(テンプレート発見問題)として定式化する.パターンとは定数と変数からなる文字列で,パターンが生成する語は変数を定数文字列で置きかえて得られる.置きかえに用いられる文字列中の部分文字列の頻度分布はベキ分布に従うことを仮定し,高確率でテンプレート発見を解くアルゴリズムを構築する.共通部分の発見問題の1 つである最長の共通部分列を探す問題はNP 完全であることが知られているが,問題の再定式化,部分文字列の集合による定数部分の表現方法,部分文字列の頻度と総出現数から共通部分を発見する手法により,テンプレート発見問題は高確率でO(n) 時間で解けることを示す.ここで,n は入力文字列の長さの和である.さらに,このアルゴリズムがノイズに対し頑健であることと,複数のテンプレートが混在する場合でも有効であることを,Web 上の実データに適用することで実証する.