北上 始 館野 義男 五條堀 孝
vol.1994, no.44, pp.17-26, 1994-05-27

三大国際DNAデータバンク(日、米、欧)で利用されている生物分類樹データベースは、全て、コンピュータを用いた生物学の研究に有用な電子化辞書である。しかしながら、それらの生物分類樹データベースは、無矛盾に統合化されていない。もし、それらが統合化されれば、統合化された電子化辞書を用いて、生物研究結果の間の比較や既存の研究結果から将来の研究方向の選択などに利用することができる。また、形態学上のデータから計算された生物分類樹と分子データから推論された分子進化系統樹との間を比較するのにも有効である。ここでは、生物分類樹データベースの無矛盾な統合化のために、既存の生物分類樹データベースを無矛盾にする方法について述べられている。データベースの矛盾は、生物学が、近年、急速に発展していることにより生じている。即ち、この急速な発達により、生物分類樹の再構成が頻繁に行われてるが、現存のデータベースにはそれが十分に行われていないのである。この矛盾解消のために、近傍検索によるエラー診断、統合性制約による矛盾ノード抽出、エラー修正ツールなどについて述べられている。また、分散環境における矛盾抽出方法についても述べられている。以上は、全て、関係データベース管理システムを用いて実現されている。All the taxonomy databases constructed with the DNA databases of the international DNA data banks are powerful electronic dictionaries which aid in biological research by computer. The taxonomy databases are, however not consistently unified with a relational format, If we can achieve consistent unification of the taxonomy databases, it will be useful in comparing many research results, and investigating future research directions from existent research results. In particular, it will be useful in comparing relationships between phylogenetic trees inferred from molecular data and those constructed from morphological data. The goal of the present study is to unify the existent taxonomy databases and eliminate inconsistencies (errors) that are present in them. Inconsistencies occur particularly in the restructuring of the existent taxonomy databases, since classification rules for constructing the taxonomy have rapidly changed with biological advancements. A repair system is needed to remove in consistencies in each data bank and mismatches among data banks. This paper describes a new methodology for removing both inconsistencies and mismatches from the databases on a distributed computer environment. The methodology is implemented in a relational database management system, SYBASE.
中村 聡史 水口 充 田中 克己
vol.2005, no.6, pp.71-78, 2005-01-21

本稿では,日々の生活での利用に適したウェブ閲覧手法として,漸次的ウェブ閲覧システムを提案する.漸次的ウェブ閲覧は,ユーザや環境のコンテキストを考慮して,ウェブコンテンツを徐々に提示することにより,能動的かつ受動的なコンテンツ閲覧を可能とするものである.また,本稿では漸次的ウェブ閲覧環境におけるコンテンツの閲覧性向上をはかるため,コンテンツ変換システムを導入する.ウェブコンテンツに含まれる広告やメニューなどの,目的とするコンテンツとは直接関係の無い領域を排除することで閲覧における無駄を低減し,行間や文字サイズを変更することでコンテンツ自体を演出する.In this paper, we propose the gradual web browsing system which is suitable for everyday usage. The gradual web browsing system renders web contents incrementally according to context of user and environment. It enables casual web browsing. In addition, we implement the content conversion mechanism which removes unnecessary parts such as frames, banner advertisements and navigation links and changes the line space and font size in order to increase readability and enjoyment.
芝口 誠仁 稲場 太郎 川口 信隆 田原 慎也 塩澤 秀和 岡田 謙一
vol.2008, no.7, pp.55-60, 2008-01-24

近年では情報化社会の発展に伴い,情報を電子ファイルで扱うことが増えた.しかし電子ファイルは設定ミスや誤操作,管理ミスなどのヒューマンエラーで誤って情報を漏らしてしまう危険性がある.そこで本稿では各ホストのシステムコールを監視することによってエンタープライズネットワーク内で重要な電子ファイルを保持しているホストを把握し,伝搬経路を視覚化する手法を提案する.具体的には,CreateFileやsendなどのWindowsAPIをフックすることにより実現した.本システムを利用することにより,実際に情報が漏洩したとき,電子ファイルを漏洩をした疑いのある犯人の絞り込みや,電子ファイルの移動に関わっていなかったホストの無実証明などができる.すなわちデジタルフォレンジック行使の際の支援ツールとしての活躍が期待できる.In recent years, information technology has been developed and we have come to use electoric files very often. Along with this development, information leakage due to human errors has been increasing. In this paper, we propose a visualization system that identifies where confidential files are in an enterprise network. Our system shows not only hosts that have confidential files, but also transmission routes of the files in the network. The proposed system monitors system calls executed on each internal host by hooking WindowsAPIs, such as CreateFile and send to detect the transmission of files to the network and removable disks. We can use the system as a digital forensic tool, which indentifies the criminal that leaked important information, or to prove the innocence of hosts that didn't concern confidential files.
吉原 潤 加藤 和彦 奈良崎 清彦
vol.2000, no.69, pp.41-48, 2000-07-26

suffix arrayはテキストの接尾辞のポインタを接尾辞の辞書順に並べたもので,任意の部分文字列検索を高速に行うことができるが,更新のオーバーヘッドが大きい.本論文ではsuffix arrayを効率的に更新する方式として,我々が以前提案したインクリメンタルな更新方式を分散並列化をした方式を提案する.この方式ではsuffix arrayに含まれる接尾辞を辞書順のある範囲で分割し,各ノードに担当区間を割り当てる.繰り返される更新に伴い各ノードの担当区間のサイズの不均衡が生じるため,動的に担当区間の変更を行ない更新処理の負荷を均等化する.また,単純に均等なサイズに分割して連続した区間をノードに割り当てた場合に検索要求の分布に偏りが生じることを示し,検索要求の偏りを軽減する分割方法を提案した.A suffix array is a full-text index data structure which is efficient for retrieving any substring of text, but requires a lot of overhead for updating it. In this paper, we propose an efficient updating scheme of suffix arrays. In this scheme, a suffix array is split into some sections and each section is assigned to a node. When updating, the incremental updating scheme which we already proposed runs in parallel on each node. To balance the sizes of sections after repeated updating, boundaries of sections are changed dynamically. Furthremore we propose the spliting scheme of suffix arrays to balance the retrieval prosessing load.
高橋 慎 吉原 潤 加藤 和彦
vol.2001, no.70, pp.53-60, 2001-07-17

suffix arrayはテキストの接尾辞のポインタを辞書順に並べかえたもので,任意の部分文字列を高速に検索できるが,静的なデータ構造のため,更新のオーバーヘッドが大きい.我々は以前,インクリメンタルな更新方式を提案したが,この方式が残す問題の一つは,差分情報を用いて作成したsuffix arrayを一つにまとめる再構成処理のオーバーヘッドが大きいことである.本論文ではsuffix arrayを分散配置することでsuffix arrayのサイズを小さくし,再構成処理の高速化を図る分散並列処理方式について述べる.実装を用いた実験結果により,再構成処理の高速化と検索時の性能の向上についての評価を行なう.Suffix array is a full-text index structure efficient to retrieve any substring of the indexed text, but requires significant overheads to update. Previously we proposed an incremental updating scheme for suffix arrays. One of the remaining problems is the overheads to reconstruct large suffix arrays. Frequency of the reconstruction operation is reduced in the incremental updating scheme, but requires considerable overheads. This paper presents a scheme to incorporate parallel and distributed processing into the incremental updating scheme. In the scheme, decomposed suffix arrays are distributed to several machines, so that the reconstruction overheads are reduced and throughput for the retrieval operations is increased. We show some experimental results performed to evaluate the proposed scheme.
難本 明代 田中 克己
vol.2004, no.71, pp.183-190, 2004-07-13

これまで我々は,Webページを「容易に」「楽しく」「片手間に」取得することを目的とし,平叙文でかかれているWebページから対話文を生成し,漫才メタファを用いてテレビ番組のような放送型コンテンツを生成する手法を提案してきた.本論文では,この放送型コンテンツへの変換技法の更なる提案を行い,よりわかりやすく親しみのある放送型コンテンツへ変換する変換機構の提案を行う.この漫才メタファを用いた放送型コンテンツを漫才型コンテンツと呼ぶ.実際には,コンテンツの再利用を考え,台本部分と演出部分に分けて漫才を体系化し漫才型コンテンツを生成する.台本の生成は変換元となるWebページの話題の構造を示す主題語と内容語からなるTopic Structureに注目し,長い文の分割,2人の掛け合いによる質問応答の生成,親しみのあるコンテンツへの言い換えの手法を検討し,対話文の生成技法の提案を行う.演出部は,実際の漫才に基づきキャラクタの振る舞いとカメラワークの提案を行う.We have proposed a new way of automatic transformation from a web page to a broadcast type content by using Manzai-metapha. The system transform a declarative web content into a dialog-base a broadcast type content. We call the broadcast type content by using Manzai-metapha "Manzai-type content". In this paper, we propose a new metod of transforming more familiar Manzai-type content. We systematize the Manzai-type content the scenario-part and the direction-part for reuse the content. In the scenario-part, we describe how to divide a sentence, how to generate a question and answer, and how to generate paraphrase based on topic structure. Furthermore, we describe the behavior of CG characters and camerawork in the direction-part.
大島 裕明 小山 聡 田中 克己
vol.2004, no.72, pp.345-351, 2004-07-14

個人のコンピュータには,その個人がどのような知識を持っているか,どのような考え方をしているか,ということが分かる情報が含まれている.しかし,それらはコンピュータに利用できるような状態にはなっていない.現在,さまざまな分野でシソーラスのような一般的な概念体系が用いられているが,個人のコンピュータに存在するコンテンツから個人的な概念体系が作成されれば,さまざまな分野におけるパーソナライザーションが可能になる.本稿では,個人コンピュータに存在する文書とその分類の方法から,個人的な概念体系を作成する手法について提案を行い,作成された個人的な概念体系を用いてウェブ情報検索におけるパーソナライゼーションを行う手法について提案を行う.A personal computer has a lot of documents. Those include much information that shows what the user is interested in, knows, and so on. However, the computer just has the information and it can not be used automatically. Now, common concept classification like thesaurus is used in many fields, so if the personal concept classification is created automatically based on the personal contents in the personal computer, it will be possible to be personalized in many fields. In this paper, we propose the way to create the personal concept classification from the personal contents and the method of the Web search personalization.
齋藤耕一 大幢 勝利 櫻井 成一朗 寺野 隆雄
vol.2005, no.42, pp.17-24, 2005-05-19

安全を守る為の安全対策でもWeb上のリスクコミュニケーションが、盛んに行われている。しかし、Web上で参加者は、共通の認識がかけている場合があり、共通の危険に直面したときでも人それぞれの対応を示す。対応によっては、大きな事故の発生の要因になる。本文では、共通認識を前提としないメッセージの意図をくみ取るためのコンピュータによるリスクコミュニケーションの支援の方法を提案する。支援の方法の一つは、コミュニケーションのテキスト文をキーワードで表すことである。しかし、立場によってキーワードの意味が異なる。この問題を解決するために、共通認識の前提としない人の関わり合いの対話をモデル化し、この対話モデルによる分類学習を提案しここで現れた、メッセージの優先順序を立場の違いを表すメッセージの意図をとする。実験によってこの方法の有効性を示す。The conventional Risk Communication on web is a well-known method for creating safety programs、 and it is widely used for safety plans. We usually require a construction site to use a safety plan、 but problems usually arise in the application of the conventional Risk Communication on web to the safety plan due to various factors such as the difference in constructers' perceptions of the cause of construction accidents. This paper describes an idea for the execution of a safety plan by introducing various perspectives、 which are added to the background model of interest based on the empathic recognition with covering. The background models based on the empathic recognition with covering、 which is defined by the difference in constructers' perceptions of Risk recognition、 are explained on the basis of a machine learning method for classification learning. These models are assigned to each perspective. The safety plan can be determined even by an unskilled supervisor using the models obtained in this study.
片山 紀生 孟 洋 佐藤真一
vol.2002, no.41, pp.17-24, 2002-05-21

映像インデクシング研究のさらなる発展のためには,実用規模での映像アーカイブを対象とすることが求められる.そこで,我々のグループでは,テラバイトオーダの放送映像アーカイブシステムを設計,試作したので,その概要について報告する.このシステムの特徴として,複数の市販製品を緩やかに組み合わせて使っている点があり,メインサーバとしての UNIX ワークステーションに加えて,MPEGキャプチャカードと文字放送デコーダカードを装備したPCを複数台使うことでシステムを構築している.また,我々は,保存された映像にアクセスするためのツールとして,Java によるビデオブラウザを試作した.このブラウザは,映像インデクシング研究のためのソフトウェアプラットフォームとして利用することを狙っており,応用プログラムのプロトタイピングや,映像インデクシング,映像解析のツールとして有用であると考えている.本稿では,この映像アーカイブシステムの設計上,実装上の考察事項,ならびに,今後の展望について論じる.It is desired to build the realistic scale video archive system for further advancement of video indexing research. Based on this idea, we designed and are constructing a broadcast video archive system. The system is composed of commodities as key components, such as unix workstations, RAID disk arrays, and MPEG capture cards and closed-caption decoder cards installed in PCs. We also developed the experimental video browser system which is intended to be used as the software platform of the system aiming at rapid prototyping of video applications and video analysis software. This paper discusses designing issues, implementation issues, and future directions of the broadcast video archive system.
田中 克幸 滝口 哲也 有木康雄
vol.2007, no.6, pp.59-66, 2007-01-25

情報網・Web2.0の発展や放送のデジタル化により、情報整理が困難なメディア、映像、画像、音などの普及が情報の無秩序な肥大化を促進し情報氾濫を招いている。情報量の爆発とプラットフォームの多様化により、ユーザーが欲しい情報が入手できない状況にあり、効率的にユーザーが欲しい情報だけを入手できる環境が必要とされてきている。そこで、本稿では、NetNewsとTV映像のクロスプラットフォームの動画インデキシングと音声インタフェイスによる、検索システムを構築し、ユーザーが快適に動画観覧でき、疑問解決をできるNetTvシステムを構築し、情報の統合によるユーザーの検索軽減を目指した。The advancement of information technology, which includes such developments as Web2.0, on digital TV and Broadband, enables anyone and everyone to access and participate to access any form of media, like documents, movies, images etc via the internet very easily. However, due to information growth and the decentralization of platforms, users are faced with increasing difficulty in finding the information that they really are interested in. Our research enables the searching of news on the internet (NetNews) and TV by speech interface, thereby offering users a better search of cross-platform videos.
舟橋 卓也 上田 高徳 平手 勇宇 山名 早人
vol.2008, no.88, pp.139-144, 2008-09-14

これまでに検索エンジンのヒット数を利用した研究が数多く行われている.こうした研究では、当該クエリに対するヒット数を用いることにより,翻訳支援や自然言語処理支援など様々なアプリケーション構築を目指している.従来,検索エンジンのヒット数は信頼できるという仮定の下で用いられてきた.しかし検索エンジンが返すヒット数の信頼性に対する検証は筆者の知る限り行われていない.もしもヒット数が不正確な場合,ヒット数を利用した研究の信頼性は疑わしいものとなる.そこで本論文では,検索エンジンのヒット数に対してその信頼性の検証を行う.検証実験では,日本で広く用いられている商用検索エンジンである Google,Yahoo! Japan,Live Search が提供している検索 API を利用した.また実験に利用するクエリとして,日本語 Wikipedia からランダムに選択した 1 000 件の記事タイトルを使用した.検証実験の結果,ヒット数は 5% ~ 50% の確率で,推定を行った理想的なヒット数に対して 5% 以上大きさが異なることがわかった.A number of studies have been using Search Engines' hit count. The goal of these studies is to build applications for translation support or natural language processing support. These studies assume that the hit count is reliable. However, none of the studies have been verifide the reliability of Search Engines' hit count. If the hit count is unreliable, studies using hit count become also unreliable. The purpose of this paper is to verify the reliability of Search Engines' hit count. In this experiment, we used Search APIs provided by Google, Yahoo! Japan and Live Search. Furthermore, we randomelyrandomly extracted 1,000 keywords from the titles of the articles on Wikipedia as queries. The verification experiment shows that hit count is depart from estimated ideal hit count in 5 - 50% of the time.
梶 博行 森本 康嗣 相薗 敏子 山崎 紀之 飯田 恵子 内田 安彦
vol.1999, no.39, pp.97-104, 1999-05-17

電子化されたテキスト情報の増加とともに情報アクセス技術の重要性が高まっている.本稿では,大規模テキストコーパスの探索を支援する,インタラクティブなテキストマイニングシステムを提案する.提案システムは,コーパスから関連シソーラスを自動生成し,コーパスに対応したシソーラスをナビゲーションできるようにする.関連タームのクラスタリング,シソーラスオーバビューの生成,オーバビューから詳細へのズームインという特徴機能によって,漠然とした情報要求しかもたないユーザや専門外のドメインの情報を求めているユーザでも,適切な情報を効率よく獲得することができる.プロトタイプの開発と新聞記事コーパスを用いた実験を通じて,提案システムの有効性を実証した.With the growing amount of textual information available in electronic form, information access technologies have become extremely important. This paper proposes an approach to interactive text mining that facilitates exploration through a large corpus of texts. The proposed system automatically generates an association thesaurus from a corpus, and enables users to navigate through this corpus-dependent thesaurus. Its novel functions, including the clustering of related terms, the generation of an overview of the thesaurus, and the zooming-in from the overview to the details of a specific part, allow users to get information efficiently even when their information needs are vague or they seek information in unfamiliar domains. The effectiveness of the system has been demonstrated through prototyping and an experiment with a newspaper article corpus.
山崎 顕治 都司 達夫 宝珍輝尚
vol.1997, no.7, pp.1-8, 1997-01-21

分散システムには非分散システムとは異なる性質があり、分散システムの性質を十分に活用するためには、プログラミングに際してそのことによく留意する必要がある。分散アプリケーションを作成するための基盤のひとつに、ORB(bject Request Broker;オブジェクトリクエストブローカー)[1]がある。ORBは一般にネットワーク透過かつ言語独立なオブジェクト間通信を実現するためのシステムあり、分散プログラミングで問題となる様々な問題(ネットワーク操作、アーキテクチャ毎の違い、実装言語の違いなど)を隠蔽し、非分散システムの場合と同様のコーディングで分散アプリケーションを作成可能になる点がその大きな特徴である。しかしながら、非分散システムと同様のモデルに基づいてプログラミングを行なうと、分散システムに特有の性質、例えばシステム全体を停止することなくメンテナンスを行なえる必要があるなどの要求に十分に対応することができない。そこで本論文では、動的に分散システムを再構成可能にする機能をORBに付与することでこれらの問題の解決を行なうための考察を行なう。Distributed systems have properties that are not shared with non-distributed system. In order to utilize a distributed system well, we must know them sufficiently. One of the platforms to construct applications is ORB(Object Request Broker)[1]. In general, ORB is a system to guarantee the network transparent and language independent communications among object. Various problems arising in distributed programming (network operations, differencies of architectures, differncies of implementation languages) can be hidden by using ORB. One of the most important features of ORB is that it enables the similar coding of a distributed application as in the case of a non-distributed system. In spite of such advantage, we cannot fully satisfy the requirement specific to a distributed system such as maintainability without stopping the system, if we make a programming based on the similar model as non-distributed system. In this paper, we give several considerations on the functions necessary to reorganize a distributed system dynamically, and we solve the above problems described above by providing these functions on ORB.
楠村 幸貴 神谷 俊之
vol.2008, no.7, pp.39-46, 2008-01-24

近年,電子化された文書の増加によりテキストマイニングのニーズが高まっている.テキストマイニングではシステムの開発時に構造化処理をどのように行うかが課題となっている.そこで我々は対話的なテキストの構造化を可能にする基盤技術の開発を目指している.このためには,タグの追記が容易であり高速に行えること,また,追記されたタグ情報を用いたパターン検索が高速に行えることの両方が重要である.本稿では,この目的のために開発したLRインデックスとタグ付け用検索基盤システムについて述べ,その評価を行う.The demand of text mining system is increasing. We aim at providing a data management system for interactive text mining. For this purpose, the data management system must be able to not only search ttext by the pattern of tags but also update tags. In this paper, we present the LR-index structure, which is an index structure for the fast searching and fast updating of tags.
甲谷優 川島 晴美 藤村 考
vol.2008, no.88, pp.247-252, 2008-09-14

教えて!goo,Yahoo Answers をはじめとする QA サイトの利用が普及してきている. Adamic らは, Yahoo Answers の各カテゴリを分析し異なるタイプのコミュニケーションがとられている 3 つのクラスタに分類した.まず,教えて!goo の各カテゴリをコミュニケーションタイプで 3 種類に分類し, Adamic らと同様の分析を行うことで Yahoo Answers の分析結果と比較する.次に,コミュニケーションは時間とともに変化するという性質に着目する. Adamic らの行った QA ネットワーク分析には時間の尺度が考慮されていないが,本研究では QA ネットワークが時間とともにどう成長していくのかを分析する.Recently, the question-answer (QA) site, such as Oshiete! goo or Yahoo Answers becomes more and more popular. Adamic et al. analyzed question-categories in Yahoo Answers, and they classified the categories into three clusters. The clusters are different from each other in communication types. First, we classify categories in Oshiete! goo into three groups according to the same way as Adamic et al. did, and compare Oshiete! goo with Yahoo Answers. Furthermore, we study the dynamic structure of social interaction pattern which Adamic et al. did not addressed.
湯本 高行 角谷 和俊
vol.2008, no.88, pp.43-48, 2008-09-14

本研究では各コンテンツに対するソーシャルブックマークの時間的な分布を分析し,その結果に基づき,コンテンツライフサイクルを提案する.コンテンツライフサイクルはコンテンツの注目のされ方にライフサイクルがあるとみなし,そのステージを表現するものである.提案するコンテンツライフサイクルは成長期,成熟期,衰退期の 3 つのステージからなり,時間の経過による平均ブックマーク間隔の変化に対して,回帰分析を行い,その際の傾きと決定係数によって,各コンテンツのステージが決まる.また,提案したコンテンツライフサイクルによって,各コンテンツがどのように分類されるかを分析した.その結果,成長期,成熟期には Web 上のサービスや定期的に更新されるコンテンツが多く,衰退期にはブログ記事などの更新されないコンテンツが多いことがわかった.In this paper, we analyze distribution of social bookmark for each Web page. Based on it, we propose a content life cycle, which expresses a status of the content in its life cycle. Content life cycle consists of 3 periods, growth period, maturity period and decline period. Period of content life cycle is judged by slope and determination coefficient of regression line of mean bookmarking interval. We classified some Web contents into 3 periods of content life cycle, and analyzed them. We found that Web contents in growth and maturation periods contain services on the Web and Web pages which are constantly updated. We also found that Web contents in decline period contain unchanged Web contents such as blogs.
江口 浩二 塩崎 仁博
vol.2008, no.56, pp.73-80, 2008-06-12

最近,確率的トピックモデルに基づく情報検索手法が提案され,言語モデルの枠組みにおいて潜在的ディリクレ配分法(LDA)またはその変形を用いた実験で良好な結果が報告されている.しかしながら,アノテーション付き文書を検索するタスクに対しては,LDA に基づく手法ではアノテーションによって特定された属性型を直接利用することができない.本稿では,アノテーション付き文書コレクションのための新たなアドホック検索手法を提案する.提案手法は多重多型トピックモデルに基づく.これは,Wikipedia におけるエンティティ,カテゴリラベル,その他の語を典型とする,複数種の単語型を直接扱うことができる.この多重多型トピックモデルをアドホック検索に適用する方法を新たに提案し,Wikipedia を用いたエンティティ検索に関する実験によって提案手法の有効性を示す.Very recently, topic model-based retrieval methods have produced good results using Latent Dirichlet Allocation (LDA) model or its variants in language modeling framework. However, for the task of retrieving annotated documents, LDA-based methods cannot directly make use of multiple attribute types that are specified by the annotations. In this paper, we explore new retrieval methods using a 'multitype topic model' that can directly handle multiple word types, such as annotated entities, category labels and other words that are typically used in Wikipedia. We investigate how to effectively apply the multitype topic model to retrieve documents from an annotated collection, and show the effectiveness of our methods through experiments on entity ranking using a Wikipedia collection.
吉田 香 加藤俊一
vol.2001, no.44, pp.65-72, 2001-05-21

本稿では,フルカラー絵画データベースART MUSEUMにおける感性モデルについて考察を行った.WEB上に公開しているART MUSEUMは,1998年4月から2001年3月までの3年間に5000件以上のアクセスがある.これらのアクセスログより,利用者のアクセス傾向を調査した.その結果,利用者のうち約半数がシステムへのフィードバックを行っていたこと,フィードバックを行った利用者は感性検索も積極的に行っていたこと,フィードバック回数は大半の利用者が1?3回だったこと,などがわかった.また,各利用者の感性モデルが,平均モデルからどれだけ変化しているのか比較を試みた.利用者プロファイルを用いて解析を行うにはデータが十分ではなかったため,今後の課題として,特にインタフェース部分の改良が挙げられる.This paper describes a study of Kansei modeling on the image retrieval system ART MUSEUM, which can treat Kansei information. We have had over 5,000 access logs on ART MUSEUM since April 1998 till March 2001, and checked these logs. As a results, it's found that half users have operated feedback to the system, they have repeated Kansei retrieval many times, but most of them have operated feedback only a few times. And we tried to compare each user's Kansei model with an average Kansei model. It's not enough data for data mining still now. It's need to develop user interface to feedback more easily.
岩橋 永悟 山名 早人
vol.2003, no.71, pp.327-334, 2003-07-16

データマイニング分野で重要な問題の一つに頻出パターン抽出問題がある。頻出パターン抽出手法では、多くの拡張手法を生んだAprioriが有名である。2000年になるとAprioriよりも高速な手法として、FP-growthが提案されたが、従来の並列化手法の多くは、依然としてAprioriに基づいている。本稿では、並列にディスクアクセスを行い、FP-treeをローカルに構築することによって、FP-growthを並列化する。本手法を32ノードクラスタ上で実験した結果、最小サポートを0.25%とした場合に約2倍の速度向上を得ることができた。また、最小サポートを2%とした場合、約130倍の速度向上を得ることができた。Frequent patterns mining is one of the important problem in data mining research. The Apriori is a prominent algorithm followed by many variants. In 2000, the FP-growth, which is reported to be faster than the Apriori, was proposed. However, many parallel algorithms of frequent pattern mining are still based on the Apriori. In this paper, we propose a parallelized version of the FP-growth, which accesses disks in parallel and constructs local FP-trees on each local memory. As a result of the evaluation using 32 node PC cluster, our method is approximately 2 and 130 times faster than sequential FP-growth, when minimum support is 0.25% and 2%, respectively.
大塚真吾 喜連川 優
vol.2006, no.77, pp.155-162, 2006-07-12

検索技術の進歩により検索精度は向上し,自分が調べたい事柄を検索語として入力するだけで様々な情報を得ることが可能となった.しかし,ユーザがいつでも検索目的に適した検索語を思い付くとは限らない.我々はテレビ視聴率調査と同様,統計的に偏りなく抽出された日本人(パネル)を対象にURL履歴の収集を行う大域ウェブアクセスログ(パネルログ)を用いて,与えられた検索語に関連する語(関連語)群を提示し,ユーザに検索語を想起させるシステムの提案をの提案を行った.本稿では構築したシステムの評価方法についての検討を行う.Due to the improvement of searching accuracy with development of technologies, it the becomes possible that users can get kinds of information by just inputting search word(s) representing the topic which users are interested in. But it is not always true that users can hit upon search word(s) properly. By using Web access logs (called panel logs), which are collected URL histories of Japanese users (called panels) selected without static deviation similar to the survey on TV audience rating, we proposed search keywords remembrance support system in order to show the related search words associated with the search words inputted by users. In this paper, we perform examination about evaluation methods of our system.