宇田 隆幸 藤井 敦 石川 徹也
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
vol.2004, no.3, pp.105-112, 2004-01-16

情報推薦システムは,ユーザの嗜好に関する情報を用いて新規情報に対する嗜好を予測し,嗜好に合うアイテムを提示する.協調フィルタリングに基づくシステムは,アイテムの内容解析をせず,他のユーザからの評価(アイテム-ユーザ評価マトリクス)を用いて推薦アイテムを決定する.対象ユーザと嗜好が似たユーザが好むアイテムは優先され,嗜好が異なるユーザが好むアイテムの優先度は下がる.ユーザがアイテムを選ぶたびに嗜好情報が更新されるため,検索キーワードの入力が必要ない.しかし,評価値疎ら問題や再生起問題により,未評価の(推薦対象にならない)アイテムが多く存在する.本研究は,ユーザの評価とアイテム間の類似度を併用して,推薦対象アイテム数を増やす「擬似投票方式」を提案する.新聞記事を対象にした評価実験の結果,本方式によって,推薦精度を落とすことなく推薦対象アイテム数を増やすことができた.Recommender systems utilize user profiles to predict his/her preference for unseen information items, and present preferable items. The collaborative filtering (CF) method does not analyze the content of items, but utilizes user rating (an item-user matrix) to determine recommending items. CF-based systems (do not) favor items rated highly by the users whose preference is (not) similar to that of a target user. Users can update their profiles by selecting items and do not need to submit search keywords. However, due to the sparsity and recurring startup problems, many items are not rated and thus cannot be recommended to users. To resolve these problems, we propose "pseudo-voting method", which increases the number of rated items by integrating user rating and content-based item similarity. We show the effectiveness of our method by means of experiments.
赤星 祐平 木俵 豊 田中 克己
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
vol.2004, no.71, pp.107-113, 2004-07-13

これまでの単一デバイスによる情報閲覧では,表示画面の制約やコンピュータ上のインタフェースの扱いによって,直観的な操作や閲覧が容易ではなかった.しかし,ユビキタスネットワーク環境下で,ネットワークに接続された複数のデバイスを用いることにより,これらの問題は解消され,多様なコンテンツをユーザの周りに出現させることが可能となる.しかし,ユーザの操作性やコンテンツの理解を容易にするためには,各デバイスの役割を明確化させ,協調的にコンテンツを表示させることが必要となる.本論文では,実空間上に存在する複数のデバイスを用いて,ユーザにより多くの適切な情報を提供することを目的としたコンテンツ閲覧方式を提案する.具体的には,各デバイスの役割を記述するための複合デバイス機能記述言語CDFML(Composite Device Function Mark-up Language)について提案するとともに,表示するコンテンツの内容解析と端末の位置やタイプなどの情報に基づいて,複数端末で適切にコンテンツを表示するための手法について提案する.When browsing contents in traditional style using single device,it is not easy for users to operate device intuitively and to browse contents because of device 's constraints on display capability and user interfaces.In ubiquitous environment,however,we can solve this problem by using multiple devices connected to network,and these ones are used to show variety of contents around users.In such situation,it is necessary to define the role of each device and show contents in a coordinated manner in order to improve users 'operationality and difficulty in understanding contents. In this paper,we propose a content browsing method to provide more proper information to users using multiple devices.In particular,we propose a composite device function mark-up language (CDFML)to describe each device 's role in browsing,and also describe a content browsing mechanism by content analysis and device information such as device position and device type.
中島 伸介 舘村純一 原 良憲 田中 克己
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
vol.2005, no.67, pp.31-38, 2005-07-13

近年,取得可能な情報量の増大に伴い,信頼できる情報を効率的に取得することが困難になっている.我々はWeb上での有識者を発見し,この有識者が発信するコンテンツに基づいた情報フィルタリングを行うことで,信頼できる情報の取得が可能ではないかと考え,重要なbloggerの発見手法の確立を目指した研究を行ってきた.しかしながら,blogスレッドの検出や,重要なbloggerの発見に関して,これまではTrackbackリンクを考慮できておらず,blogエントリ同士の関係を適切に抽出することが十分にできているとはいえない.したがって,Trackbackの利用状況の調査と,この結果に基づくTrackbackの利用方法に関する検討を行った.With rapid spread of amount of information, it become difficult for us to discover trusty information efficiently. Consequently, we try to extract blog threads and to discover important bloggers, because we consider that it is possible to provide trusty information by using information filtering based on important bloggers as learned people. Now, we have not used trackback data of blog entries, so that we could not extract blog threads and could not discover important bloggers. Thus, we investigate influence of trackback links on blog thread formation and use of trackback link for discovering important bloggers.
滝口 哲也 有木 康雄 佐古 淳
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
vol.2005, no.103, pp.25-30, 2005-10-21

本研究では、テレビを見ているその場で知らないことや知りたいこと、関心のあることについてテレビに問い合わせる事が可能な「対話型テレビ」の構築を目的としている。提案する対話型テレビは、バックエンド処理部とフロントエンド処理部から構成される。バックエンド処理部では、あらかじめニュース映像、野球、サッカー映像等からコンテンツ解析を行い、メタ情報の抽出を行う。フロントエンド処理部では、ユーザーの意図を抽出するため、ハンズフリー音声認識、ハンドポインティング認識が行われる。本稿では、現在開発を進めているコンテキストアウェアネスに基づく対話型テレビの実装例、及びフロントエンド処理部について述べる。In this paper, we propose a structure and components of a conversational television set (TV) to which we can ask anything on the broadcasted contents and receive the interesting information from the TV. The conversational TV is composed of two types of processing: back-end processing and front-end processing. In the back-end processing, broadcasted contents are analyzed using speech and video recognition techniques and both of the meta data and the structure are extracted. In the front-end processing, human speech and hand action are recognized to understand the user intention. We show some applications, being developed in this conversational TV with multi-modal interactions, such as word explanation, human information retrieval, event retrieval in soccer and baseball video games with contextual awareness.
松本 圭祐 伊藤雄一 村上 礼繁 北村 喜文 岸野 文郎
情報処理学会研究報告エンタテインメントコンピューティング(EC) (ISSN:09196072)
vol.2006, no.24, pp.121-128, 2006-03-14

本研究では,テキストだけからなるコンテンツに,画像や音声を自動的に付加し,リッチなマルチメディアコンテンツを作り出すシステムについて検討する.まず,テキストを解析し,そのテキストで表現されている内容に適した語句を抽出し,その語句を用いてデジタルデータを取得,付加することで,その内容に最適なマルチメディアコンテンツを自動的に生成した上で利用者に提示する.その結果として,そのテキストの内容理解の促進を図ることができる.テキストとして文章構造に比べ内容が難解で多岐にわたる小説を対象とし,小説内で表現されているシーンに関する画像や音を動的に付加する手法を検討する.We propose a method for generating dynamic multimedia contents to assist users in context understanding.For this purpose,the proposed method enriches simple texts by adding appropriate digital data which are associated with phrases extracted from the context of the text.In this paper, we describe the algorithm of the proposed method and implementation details by utilizing images and sounds as digital data.We also describe an application example applied to novels because its contexts are difficult to understand in spite of their simple sentence structures.
中山 浩太郎 原 隆浩 西尾 章治郎
情報処理学会研究報告電子化知的財産・社会基盤(EIP) (ISSN:09196072)
vol.2006, no.128, pp.115-122, 2006-11-30

Wikipediaは,WWW上に構築された百科事典であり,誰もが簡単にWebブラウザを通じて編集可能であるために,膨大な数の記事が投稿,公開されている.しかし,2005年末から2006年初頭にかけて,虚偽の記事が投稿されるような事件が発端となり,コンテンツの信頼性が大きな問題となってきた.筆者らは,これまでの研究でWikipediaにおける記事同士の関係性を抽出する手法について提案し,その有効性を証明してきたが,このように不特定多数のユーザがコンテンツを管理するような環境においては,信頼性を考慮した解析手法が重要となる.本研究では,Wikipediaのダイナミクスと信頼性の問題を分析するとともに,リンク構造解析アルゴリズムについて検討し,記事関連性抽出における信頼性の高い情報抽出方法を模索する.Wikipedia is a Web-based dictionary that can easily be edited through Web browsers by any Internet user. Thus huge amounts of articles are published and managed on it. However, after a number of article reliability issues, the trust problem on Wikipedia is still in controversy. In previous works, we proved the effectiveness and potential of the article association extraction based on Wikipedia mining. In this paper, we first analyze the link structure of Wikipedia and dynamics of Wikipedia. Then, we present an effective method for link structure mining for Wikipedia and describe how link structure mining for Wikipedia is helpful for extracting trusted information.
阿部 淳也 出石 大志 杉上裕一 堀 幸雄 今井 慈郎
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
vol.2007, no.6, pp.97-102, 2007-01-26

伝統的な木構造を用いたファイルシステムが広範に使用されているが,各ファイルのコンテンツによる分類や関係付けの有効な手法が不足している.そのような単純なファイルシステムでは,キーワードを指定した効果的なファイル検索ができないという問題を抱えている.コンテンツに基づく情報検索を可能にするため,各ファイルに関するタグ情報を活用するファイル管理の新しい手法を設計している.本報告では,我々が作成しているファイル管理システムのGUIを紹介し,併せて,形態素解析によるファイル属性からのキーワード抽出,DBMSによるキーワード操作およびキーワードに基づく情報検索などを用いた,プロトタイプ実装についても言及する.Conventional tree-structured file systems have been widely used, but they have lacked a useful mechanism to classify and relate their files according to the contents of each file. And such simple file systems are suffering from efficient retrieval of their files by specifying keywords. In order to perform content-based information retrieval, a new scheme of file management is designed to utilize tagged information about each file. In this report, we will introduce a GUI of our file management system. And we will describe its prototype implementation by means of keyword extraction from file attributes with morphological analysis, keyword manipulation through DBMS and information retrieval based on keywords.
片岡 信弘 小泉 寿男 高崎 欣也
情報処理学会研究報告マルチメディア通信と分散処理(DPS) (ISSN:09196072)
vol.1997, no.35, pp.87-92, 1997-04-24

協調作業をコンピュータにより支援するCSCW (omputer Supported Cooperative Wor)に関する研究が多数されているが、会議、討議等一般的なテーマについての研究であり、システム開発の仕様決定に関するものは見あたらない。この論文では、統合パッケージソフトウェアを利用した開発の手順と、その中での仕様決定プロセスを支援する遠隔JAD(oint Application Desig)の方式について提案を行う。また、この方式を実際のシステム開発での仕様決定に適用して評価した結果その有効性を確かめることができた。パッケージソフトを利用したシステム開発において、画面を共有しての遠隔JAD、仕様決定プロセスのモデル化により今後このような作業の効率化が期待できる。Computer Supported Cooperative Work(CSCW) use computer and networks to support cooperation between personal. There are many reports of research for CSCW but there are no reports for specification making for system development. We propose process for system development that use integrated package software and remote JAD(Joint Application Design) which support specification making. The proposed method was evaluated in specification making for material management system, where its effectiveness was confirmed. We share windows of application systems between remote side and there no incompatibility for using remote JAD.
荒井 悟 戸田 真志 秋田 純一 岩田 州夫
情報処理学会研究報告ユビキタスコンピューティングシステム(UBI) (ISSN:09196072)
vol.2006, no.14, pp.293-298, 2006-02-17

ウェアラブルコンピュータ向けネットワークシステムであるTextileNetは,電源供給と相互通信の実装に伴うデバイスの配置自由度の損失を解消するために提案された.本稿では,TextileNetの機能再構成についてファームウェア更新に関わる煩雑な手順を問題と捉え,これを解決するためのアーキテクチャの提案・およびプロトタイプの実装と評価を述べる.このアーキテクチャは,ウェアラブルデバイスがTextileNetのデータ通信路を介してファームウェアを受け取り,自身のプログラムメモリを書き換えることを可能にするものである.これにより,ウェアラブルデバイスの配置自由度を損なわずに,TextikNetに機能再構成のためのシステムを組み込むことを可能にする.TextileNet was proposed to resolve the problem about flexibility loss of spatial arrangement that is caused by laying power line and communication line. But TextileNet has a problem, which is cumbersome firmware updating. In this paper, we propose an architecture that resolves the problem. And we implement and evaluate prototype of the system using the architecture. The architecture allows wearable devices to download firmware from network of TextileNet, and the devices can update their program memory by themselves. Implementation of the architecture actualizes functional replacement for devices. And the architecture does not impair nexibility of arrangement in space.
河合 励 池田 幹男 岡田 稔
情報処理学会研究報告グループウェアとネットワークサービス(GN) (ISSN:09196072)
vol.1995, no.103, pp.7-12, 1995-10-27

本論文ではX Window System上で動作するアプリケーションのウィンドウを資料として相手方に提示可能な電子黒板システムについて述べる。本システムはXのリクエストを取得し複製する代理サーバとリクエストを各Xサーバに適合させる再構成モジュールからなっており,アプリケーションやXサーバに対して変更を施す必要がない。これらのプログラムはネットワークを通じて通信しているため,プログラムをネットワーク上のどのWSで実行するかによってシステムの性能が変化する。そこでこの電子黒板システムを利用するのに適したネットワーク構成を調べるために複数のサブネットに分割し,性能評価を行った。その結果,本システムはEthernt 10Mbps,TCP/IPのもとでサブネット(物理層ネットワーク)あたり40台程度であれば充分実用となることがわかった。This paper presents "Network Blackboard System" which duplicates windows to multiple X servers. This system requires no modification to both X server and client. This system consists of proxy X server and reconstructor module. Proxy X server obtains X requests and duplicates it. Reconstructor module adapts requests to each X server. Therefore these programs in this system communicate on the network. The system performance depends on the position of programs on the network. We evaluated the network performance of this system in case of the network is divided into some subnets. This system can serve up to forty X servers per subnet with Ethernet 10Mbps and TCP/IP.
遠藤 斉 片岡 良治
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
vol.1999, no.61, pp.273-278, 1999-07-21

本稿では、動画から抽出できるカメラモーションを特徴量として利用したスポーツ映像の内容検索手法を提案する。スポーツ映像にはシーン特有のカメラワークが存在することが多いため、一連のカメラワークを手がかりにシーンの内容に基づいた検索を行えることが期待できる。そこで本稿では検索キーとして指定した映像と検索対象の映像から特徴量としてカメラモーションを抽出し、連続DPマッチングを適用することによりカメラモーションの類似したシーンを検出する手法を提案する。実際の野球中継の映像を用いて適合率と再現率を評価した結果、その有効性が明らかになった。This paper proposes a method for content-based sports video retrieval using camera work information. Since particular camera work for a typical scene exists in sports video, a transition of camera work becomes an effective cue for retrieving a sports scene based on its content. Therefore, the proposing method extracts a series of camera parameters from both a user-specified scene of a retrieval key and a video stream of a retrieval target, and detects scenes having a similar content to the key from the target applying the continuous DP matching. It is evaluated using a video stream of a baseball game. Recall-Precision curves make its effectiveness clear.
丸山 祐太 吉光康大 重野 寛 岡田 謙一 松下 温
情報処理学会研究報告グループウェアとネットワークサービス(GN) (ISSN:09196072)
vol.2004, no.31, pp.55-60, 2004-03-18

本研究では,遠隔講義中に受講者が起こしたイベントに,受講者のストリーミング映像を対応させて講師に提示する,講師支援システムを提案する.講師がPCを利用して講義を行い,受講者も独自に自宅などでリアルタイムに受講する同期分散型の遠隔講義を想定環境としており,そのような環境では受講者の様子を講師が把握しにくいという問題点がある.そこで,受講者の発言や受講者間コミュニケーションといった受講者の行動を講義イベントとして扱い,受講者の映像をイベントに対応して効果的に切り替えて提示できるようにした.評価実験により講師に提示する手法について,講師のアウェアに要する時間が短いことも確認することができた.In this paper, we describe a teacher supporting system which effectively switches the students' streamed image by using the "Lecture Events" received from the students. We made an assumption that distance education takes the following form; the teacher gives a lecture in a remote place and the students takes that lecture in real-time at home. In this case, it is difficult for the teacher to recognize the reactions of the students. In our system, the students' images are displayed in response to events. From the results of the evaluation experiments, we confirmed that the time for the teacher to grasp the state of the students is shortened when the "Lecture Events" are displayed.
関口 裕一郎 佐藤 吉秀 川島 晴美 奥田 英範 奥 雅博
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
vol.2005, no.117, pp.27-32, 2005-11-21

blog記事は省略を多く含む口語的な記述がなされている為,文中の情報のみによる話題語句の判別は難しい.本論文では,発信者相互の興味の関連性を抽出し,ある語句を使用している発信者集合の持つ関連度の分布を見ることにより,高い関連度を持つ発信者間で使われる語句に高い話題度を算出する.blog記事の集合を用いて実験を行った結果,記事中の話題を表す語句に対して,高い話題度を算出することができた.In this paper, we describe the method to detect the topic words from blog documents. The 'topic words' is defined as a word that gains the attention of people sharing same interest. While blog documents are written by ordinal people, their texts are written in abbreviated informal expression. We use the information of blogger to adjust this characteristic of blog documents. The proposed method extracts the relevancies of each blogger; compares the deviation of these relevancies; and calculates the topic scores for each word of a blog document. The experiment shown that the method can extract appropriate topic words from blog documents.
上園 一知 片岡 朋子 筧 捷彦
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
vol.1999, no.62, pp.57-64, 1999-07-22

インターネットなどの情報通信で使用できる文字はラテンアルファベットが主流であり、ネットワークの国際化の反面、未だ母語を利用できず、ソフトウェアの国際化は進んでいないのが現状である。World Wide WebにおいてもHTML自身の仕様とWeb Browserが特定のエンコーディングを対象としているため、任意に文字を混在させて利用可能な国際化の実現が困難である。そこで、X Window System上で開発した国際化ライブラリであるSystem 1を利用し、国際化Web Browserの開発を行っている。本稿では、HTML文書の表示と文字列検索を考察し、Web Browserに必要な機能について述べる。Even in such a highly cross-communicated society, the almost only script available in any computing network is still Latin alphabet, for which many native users cannot make full use of their own scripts. In the WWW environment as well, the true internationalization with any number of script mixed is hard to realize due to the specification of HTML itself and the specific encoding(s) of a Web Browser. To realize true internationalized computing, Internationalized Web Browser has been developing using internationalized library called System 1, which has already developed on X window system. This paper describes the methods and functions to display and search character strings in HTML documents on the Web Browser.
森田 昭広 古賀 久志 渡辺 俊典 横山 貴紀
情報処理学会研究報告アルゴリズム(AL) (ISSN:09196072)
vol.2006, no.30, pp.49-54, 2006-03-17

グラフのマッチング問題は一般に計算量が膨大であるが,問題固有の属性情報などを用いて効率的な探索を実現できる可能性がある.本研究では,グラフマッチング問題が入力2グラフから生成される積グラフの最大クリークを抽出する問題へ還元できることに着目し,その効率化のために2つの属性情報利用アルゴリズムを考案した.1つ目はクリーク抽出の探索過程で属性情報を用いて探索領域を削減する方法,2つ目は積グラフの生成時に属性情報を用いて積グラフの規模自体を抑制する方法である.これらを計算機実験によって比較検証した結果,双方共に有効であるが,特に後者の有効性が顕著であることを確認した.Graph matching problem has a very high computational complexity. But we can reduce it by exploiting domain-specific information such as object's attributes. In this research, where we solve the graph matching problem by reducing it into a maximum clique problem in a product graph generated from the two input graphs, we propose two algorithms, both exploiting attribute information. One is the method of decreasing the search space by using attribute information in the process of maximum clique search. The other is the method of decreasing the size of the product graph by using attribute information during the product graph generation. Through experiments we showed that, although both are effective, the latter dominates the former.
糸数 学 佐藤 隆士
情報処理学会研究報告. DBS,データベースシステム研究会報告 (ISSN:09196072)
vol.141, pp.1-6, 2007-01-25

情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
vol.2004, no.125, pp.213-218, 2004-12-07

Inductive Logic Programming (ILP) is differentiated from most supervised learning methods both by its use of an expressive representation language and its ability to make use of background knowledge. This has led to successful applications of ILP in molecular biology such as predicting the mutagenicity of chemical compounds predicting protein secondary structures and discovering protein fold descriptions. In this paper we attempt to apply ILP to the problem of predicting protein-protein interactions which plays an essential role in bioinformatics since many major biological processes are controlled by protein interaction networks. We have used the Yeast Interacting Proteins Database provided by Ito Tokyo University as training examples. Various kinds of background knowledge have been constructed by either extracting from protein databases or using computational approaches. Early results indicate that ILP is useful for obtaining comprehensible rules to differentiate those protein-protein interactions that are highly reliable. The predictive accuracy obtained using ten-fold cross-validation is nearly 80% demonstrating a promising result of using ILP for predicting protein-protein interactions.Inductive Logic Programming (ILP) is differentiated from most supervised learning methods both by its use of an expressive representation language and its ability to make use of background knowledge. This has led to successful applications of ILP in molecular biology, such as predicting the mutagenicity of chemical compounds, predicting protein secondary structures, and discovering protein fold descriptions. In this paper, we attempt to apply ILP to the problem of predicting protein-protein interactions, which plays an essential role in bioinformatics since many major biological processes are controlled by protein interaction networks. We have used the Yeast Interacting Proteins Database provided by Ito, Tokyo University as training examples. Various kinds of background knowledge have been constructed by either extracting from protein databases or using computational approaches. Early results indicate that ILP is useful for obtaining comprehensible rules to differentiate those protein-protein interactions that are highly reliable. The predictive accuracy obtained using ten-fold cross-validation is nearly 80%, demonstrating a promising result of using ILP for predicting protein-protein interactions.
情報処理学会研究報告インターネットと運用技術(IOT) (ISSN:09196072)
vol.2004, no.77, pp.37-42, 2004-07-30

SpamやUCEと呼ばれる迷惑メールの数は、増加の一途をたどっている。筆者は、このようなメールへの対策を考えるために、昨年8月以来Spamメールを蓄積しており、その件数は20000件を超えた。そこで、Spamメールの傾向や特徴を分析した。その結果に基づいて、Spamメールの防止対策についても考察する。Mails so called Spam or UCE have been increasing daily by anomalous rate. Since last August, the author archives UCE mails which sent to him. And the numbers of UCE mails archived exceeds 20000. These Spam mails are analyzed to find out the source addresses, origin and other characteristics. The author will make a brief discussion on the counterplan to Spam based on the analysis.
福田 剛志 森下真一 森本康彦 徳山 豪
情報処理学会研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
vol.1996, no.72, pp.1-8, 1996-07-26

データベースからの決定木の構成において、数値属性の取り扱いは非常に難しいとされていた。実際、有名なエントロピーを用いた決定木構成法について、発案者のQuinlan自身、多くの数値属性があるデータに対しては効率を保証できないことを指摘している。この問題に対する解決法として、最適化問題として数理モデル化した二次元関連ルールを分岐法則に使う方法を提案し、効率的な決定本の構成法を、プロトタイプシステムをデータマイニングシステムSONAR(ystem for Optimized Numeric Association Rule)のサブシステムとして実現した。ここでは、数理的側面からの理論的裏付けと実験結果を報告する。We propose an extension of an entropy-based heuristic of Quinlan [Q93] for constructing a decision tree from a large database with many numeric attributes. Quinlan pointed out that his original method (as well as other existing methods) may be inefficient if any numeric attributes are strongly correlated. Our approach offers one solution to this problem. For each pair of numeric attributes with strong correlation, we compute a two-dimensional association rule with respect to these attributes and the objective attribute of the decision tree. In particular, we consider a family R of grid-regions in the plane associated with the pair of attributes For R ∈ R, the data can be split into two classes: data inside R and data outside R. We compute the region R_<opt> ∈ R that minimizes the entropy of the splitting, and add the splitting associated with R_<opt> (for each pair of strongly correlated attributes) to the set of candidate tests in Quinlan's entropy-based heuristic. We give efficient algorithms for cases in which R is (1) x-monotone connected regions, (2) based-monotone regions, (3) rectangles, and (4) rectilinear convex regions. The algorithm for the first case has been implemented as a subsystem of SONAR(System for Optimized Numeric Association Rules) developed by the authors. Tests show that our approach can create small-sized decision trees.
佐保田 圭介 杉山 一成 波多野 賢治 吉川 正俊 植村 俊亮
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
vol.2003, no.71, pp.25-32, 2003-07-16

Web 検索エンジンによって得られる大量の検索結果の中から,個々の利用者が所望の情報を取得することは極めて困難であるため,有用な情報だけを取得する手法の提案が望まれている.そこで,本稿では協調フィルタリングとブックマークの構造を用いたフィルタリングを共に用いて,Web情報検索を支援するシステムを提案する.本研究では,ブックマークはそれを作成した人の Webページに対する有用な知識の集合であると考えているため,ブックマークされている Web ページだけではなくその構造も有用な知識であると考えている.したがって,閲覧している Web ページの持つキーワードを利用して,他の利用者がブックマークしている Web ページを推薦する協調フィルタリング機能を実現し,さらに協調フィルタリング機能によって推薦された Web ページを,ブックマークの構造を利用するフィルタリング機能を用いて厳選し,最終推薦Web ページとして提示するシステムの実現を目指す.It is expected to propose a technique to obtain only useful information for each user. Because,it is quite difficult for users to obtain their desired information among a large amount of search results returned by a Web search engine. Therefore, it is expected to propose a technique for obtaining only useful information for each user. In this paper, we propose an assistant system for user to help users to search Web pages using both collaborative filtering and filtering exploiting the structure of web bookmark. In our study, we regard each user's bookmark as a collection of useful knowledge, so that, we consider not only bookmarked Web pages but also its structure as useful knowledge. Based on these ideas, first we develop a collaborative filtering system that recommends Web pages bookmarked by other users using keywords included in a user's browsing Web page. And then our system carefully select the recommended Web page using filtering system based on the strucuture of bookmark and propose the selected Web pages as final recommended Web pages.