著者
田島 敬史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.40, no.3, pp.152-170, 1999-02-15
参考文献数
54
被引用文献数
26

本論文では ここ数年行われている半構造データのためのデータモデルと操作言語に関する研究について概観し 主な研究についての比較と考察を行う. また これらの研究は従来のオブジェクト指向データベースやハイパーテキストに関する研究とも関係している. そこで これらの研究との比較も行う. これらの比較から 本論文では 半構造データのデータモデルおよび操作言語を設計する上で特に重要な点は 以下の二点であると考える. まず一点目は データモデルの設計の段階で いわゆる従来の意味での「データ」と 従来のデータモデルでのスキーマ情報にあたるデータとを 区別無く扱えるようにするのが望ましいという点である. 二点目は 操作言語は データベース中のデータ構造の一部分を抜き出す狭義の「問い合わせ」操作だけでなく データベース中のデータを再構成するような操作が表現できるべきであり そのためにはなんらかのポインタの操作のための機構が必要になるという点である. また 今後の半構造データに関する研究の展望についても簡単に述べる.In this paper, we survey, compare, and discuss the recent proposals on data models and query languages for semistructured data. These researches are also related to researches on object-oriented databases and hypertexts in the past. The comparison with those researches are also made. From those discussions, we consider that the following two points are key in the design of data models and query languages for semistructured data. First, a data model for semistructured data should model both "data" in the traditional sense and data corresponding to schema information in the traditional data model in a uniform way. Secondly, a query language for semistructured data should be able to express not only "selecting queries", which extract substructure from a database, but also "restructuring queries", which transform the structure of a database into another structure. To express restructuring query, functionalities for pointer manipulation are needed. In the last part of this paper, we also discuss a prospect on the future researches on semistructured data.
著者
田島 敬史
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
巻号頁・発行日
vol.99, no.202, pp.105-110, 1999-07-22

半構造データに対する検索を記述する場合, データの構造が不規則である点と, あらかじめ与えられたスキーマがない点が問題となる。これまでに提案されている半構造データのための検索言語では, これらの問題をワイルドカードを導入することで解決している。しかし, 全体のデータ構造がわからない状態で検索を記述する場合, ワイルドカードが思わぬデータにマッチし, 検索結果に不必要なデータまで含まれてしまうことがある。そこで本論文では, どのようなデータがより解として適当と思われるかの優先度を記述できる構文として、case構文、smallest matchingの構文、minimal matchingの構文の三つを持つ検索言語を提案する。これらの構文を用いることにより, 全体のデータ構造を知らない場合でも, 必要なデータとだけマッチする検索文をより容易に記述できる。
著者
只石正輝 森嶋 厚行 田島 敬史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.88, pp.229-234, 2008-09-14

今日, XMLや RDF 等のエッジラベル付き有向グラフが生成,蓄積されている.また,生成,蓄積されるグラフは大規模となってきており,グラフに対する効率的な管理/検索が重要な問題となってきている.本論文では,大規模なグラフに対する問合せの一つである子供/子孫問合せに着目し,それらの問合せを効率的に処理するためのノード格納方式を提案する.Today, we have many edge-labeled directed graphs such as ones written in RDF and XML. Because the size of such graphs is getting larger, efficient processing of queries against graphs is important. This paper proposes a novel node storing scheme for the efficient processing of child/descendant queries.
著者
田中 克己 チャットウィチェンチャイ ソムチャイ 田島 敬史 小山 聡 中村 聡史 手塚 太郎 ヤトフト アダム 大島 裕明
出版者
京都大学
雑誌
特定領域研究
巻号頁・発行日
2006

ウエブからの同位語等の概念知識の抽出,ウエブ検索クエリの意図推定・自動質問修正,ウエブ情報の信憑性分析,ユーザインタラクションやウエブ1.0情報とウエブ2.0情報の相互補完による検索精度改善に関する技術開発を行った.
著者
平田 陽一 松倉 健志 田島 敬史 田中 克己
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.69, pp.137-144, 2000-07-26
被引用文献数
5

従来のWeb検索における適合フィードバックでは,ユーザがサンプルページの内容を見て評価し,その評価をもとに再検索または検索結果の再構成を行なう.その際,ページの評価は「良い」または「悪い」の2種類であった.そのため,従来の適合フィードバックの手法は,「良い」と評価されたページに類似したページを獲得するのには有効だが,ユーザの要求が「この話題についてのより詳しいページが欲しい」などのように複雑になると,十分にユーザの意図を汲み取ることが難しく,うまく機能しないことがあった.そこで,本研究では,単に「良い」または「悪い」の二元論的な評価に基づいて,サンプルページに類似するページを集めるのではなくて,サンプルページと実際に欲しいページの違いを評価として与えることによって,そのような差異を持つページを探してくれるような,意味的な適合フィードバック機構を提案する.ページ間の差異としては,各ページ中の単語数や,お互いのページ内の単語の共起度を用いて,ページ間の情報量や話題の広がりの相対的な差を測定する.In conventional relevance feedback for Web query systems, the user evaluates some sample pages, and then based on that evaluation, the original query is revised, or the query results are reorganized. In that evaluation, sample pages are classified as good or bad. This approach is effective to find pages similar to the pages evaluated as good. In some cases, however, the users want to specify their requirements more specifically, such as, "I want pages discussing this topic in more detail." In the usual relevance feedback, the users cannot express such requirements in the evaluation. In this paper, we propose a framework where the users can express such requirements, which we call semantic relevance feedback. In our framework, the users specify the difference between a sample page and pages they want. We estimate the difference between pages based on the amount of information and the extent of the topic in each page. We measure the former by the number of word occurrences, and measure the latter by the ratio of cooccurrence of words in pages.
著者
郡 宏志 服部 峻 手塚 太郎 田島 敬史 田中 克己
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
巻号頁・発行日
vol.106, no.149, pp.29-34, 2006-07-06

近年,ユーザがBlogの中で自らの行動を日記として発信することが盛んになってきている.そのようなBlogの中には,ユーザの行動経路が地名を含むことにより記述されていることも多い.そこで,我々はBlogからユーザの行動時の代表的な経路とその文脈を抽出し,それらを地図上にマッピングすることにより集約して提示するシステムを提案する.ユーザの行動経路の文脈は,その経路を経由したユーザにおける,行動のテーマを表すキーワードという形で表される.また,ユーザの代表的な行動経路については,代表的なシーケンシャルパターンマイニングであるPrefixSpanを用いて抽出する.また,マイニングを行うために,各Blogエントリから個々のBlogの書き手の行動経路を抽出する.その際に,我々は地名が指す場所におけるビジターの行動に着目することで各Blogエントリからビジターの行動経路を抽出する.こうしてマイニングした代表的な経路に対して,システムはその経路の文脈であるキーワードを抽出する.このような,ビジターの経路及びそのコンテキストを提示するシステムは,ユーザの実空間における行動計画の立案を支援すると我々は考える.
著者
郡 宏志 服部 峻 手塚太郎 田島 敬史 田中 克己
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.78, pp.35-42, 2006-07-13
被引用文献数
5

近年,ユーザが Blog の中で自らの観光行動を日記として発信することが盛んになってきている.そのような Blogの中には,ユーザの観光時の行動経路が記述されていることも多い.そこで,我々は Blogからユーザの観光時の代表的な行動経路とその文脈を抽出し,それらを地図上にマッピングすることにより集約して提示するシステムを提案する.ユーザの行動経路の文脈は,その経路を経由したユーザの観光行動のテーマを表すキーワードという形で表される.また,ユーザの代表的な行動経路については,代表的なシーケンシャルパターンマイニングであるPrefixSpanを用いて抽出する.また,マイニングを行うために,各 Blogエントリから個々のBlogの書き手の行動経路を抽出する.その際に,我々は地名が指す場所におけるビジターの行動に着目することで各 Blogエントリからビジターの行動経路を抽出する.こうしてマイニングした代表的な経路に対して,システムはその経路の文脈であるキーワードを抽出する.このような,ビジターの経路及びそのコンテキストを提示するシステムは,ユーザの実空間における行動計画の立案を支援すると我々は考える.Recently, it is common that users release their sightseeing through internet by blog. Route that the user passed is often described in blog. Then, we propose a system that extracts visitors' typical geographical route and its context and shows on map collectively. Context of typical route is described by keywords which express the theme of the visitors. We extract typical route by representative sequential pattern mining method "PrefixSpan". Moreover, for mining the typical route, We extract each visitor's route for one blog entry.Then we focus on whether the visitor did some action at the place. Thus, for extracted typical route we extract the keyword which is the context of the route. This system supports user's plan to visit some place.