著者
富田 準二 竹野 浩
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1998, no.109, pp.17-24, 1998-11-30

WWW上での検索システムのように,検索対象が大規模で雑多なものとなり,また,検索キーとして単語列だけではなく文や文書を指定できるようになると,適合度の判定を正確に行なうことは難しくなる.本研究では,グラフモデルという新しい検索モデルを提案する.このモデルでは,検索キーおよびそれぞれの検索対象文書から,単語の重要度をノードの重みとし,単語間の関連度をリンクの重みとした主題グラフを作成し,これら主題グラフ間の類似度に基づき適合度を判定する.また,単なる単語の出現頻度情報ではなく単語間の関連度情報から単語の重要度を決定する手法を提案する.本手法を用いた検索システムを構築し,ベンチマークを用いて検索精度の評価を行なう.Precise document ranking is difficult for a search system, especially when documents are gathered from huge and various databases such as WWW, or when it uses sentences as a query phrase. We propose a new search model, Graph-Model. In this model, query phrase and each document is translated into a subject graph regarding every word's weight as its node's weight and relation between words as its link's weight, and the document ranking is evaluated by similarities between these graphs. We also propose a new method to calculate the word's weight using the relation between words not the frequency of a word. And we describe an experimental result using a benchmark data.
著者
大澤幸生 NelsEricBenson 谷内田 正彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1996, no.88, pp.57-64, 1996-09-12
被引用文献数
1

学術論文のキーワード,特に,既存のどの分野に属するかではなく,著者が新しく主張したい内容を捕えたキーワードの抽出を行うための手法を提案する.本手法のポイントは,論文を意味の構造物と見なし,もしなければ論文が支離滅裂になってしまう,いわば柱に当たる単語を見つけることである.ある単語が,文書中の単語間の共起関係を描いたグラフを繋ぎ止める役割を果たし,文書全体を一つの流れとするような力の強さをその単語の文書全体にとっての重要度とみなし,重要度の高い一定個数の単語を求める.この手法を英語論文に対して適用し,その性能を評価する.The goal of this paper is to catch the newly invented concept in a technical paper. Such content can not be always featured by index terms which appear frequently in the text, because terms on which the author of a document assign strong importance do not always appear many times. Also, the main idea in a technical paper does not appear at a fixed position in the text which is structured as chaters or sections. In order to extract keywords which might appear less frequently but are more important for the author, we use KeyGraph, a graph representing the co-occurence among terms in the text. Keywords, or index terms are detedted as such that connect the overall KeyGraph of the overall document. We show some experimental results which show the performance of KeyGraph.
著者
三浦 信幸 横路 誠司 井上 香織 高橋 克巳 高橋 健司 島 健一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. HI,ヒューマンインタフェース研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.86, pp.39-44, 1999-11-25

本稿では,インターネット上に存在する雑多な形式の情報を,位置に応じて適切に提供するための情報構造化や情報フィルタリングを行う手法を検討する.このような情報を適切に提供するためには,雑多な形式の情報に対して構造化を行い,構造化された結果を利用して,位置を含めた様々な観点から情報を分類・フィルタリングする必要がある.検討した手法では,情報構造化に際してパターンマッチや特定分野の辞書を用いた形態素解析などを行う.また,情報フィルタリングに際しては,構造化された情報と構造化されなかったHTMLファイル中の名詞や固有名詞の中からtfidf値を参考に頻出する情報を抽出する.さらに,検討した手法のプロトタイプである,モーバイルインフォサーチ3実験(MIS3)について紹介する.
著者
大槻 洋輔 佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.3, pp.165-172, 2000-01-12
被引用文献数
1 6

本論文では,地域情報ディレクトリを自動編集するシステムを提案する.本システムの中心技術は,情報源の自動収集と,ページの自動分類である.情報源の自動収集では,地域情報サイトに見られる典型的なURLパターンを利用して既存の地域情報リンク集を発見し,そこから情報源となるサイトのURLを収集する.この方法により,日本の全地域(3427自治体)の80%以上に対して,情報源を収集することができる.また,ページの自動分類では,収集した情報源サイト内のページを8つの種類のカテゴリに分類する.この分類は,それぞれのカテゴリに固有な表現が,ページのタイトルやアンカ文字列に現れるかどうかによって決定する.本ディレクトリは,地域別に情報を表示する地域モードと,カテゴリ別に情報を表示するカテゴリモードの両方を提供する.This paper proposes a system that edits a web directory of regional information automatically. The directory provides two views: regional view and category view. Two key technologies are automatic collection of regional web sites and automatic classification of web pages. The former finds existing link collections by using the URL prototypes of regional web sites, and extracts unknown regional web sites' URLs. This method can collect one or more web sites of 80 percent of all regions in Japan. The latter classifies the pages in the regional web sites into eight categories by using the category-specific expressions.
著者
馬強 松本 知弥子 田中 克己
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.67, pp.515-522, 2002-07-18
被引用文献数
6

インターネットやデジタル放送の急激な進歩と普及によって,多くのユーザが多種多様な情報を受信・発信できるようになり,情報資源の量は日々増加し続けている.ユーザが大量の情報の中から,適切な情報を検索することは困難な作業である場合がある.特に,特定のユーザのみが興味を持つ,地域密着情報のようなローカル的な情報を獲得したり,排除するには,従来の情報検索やフィルタリング手法のみでは不十分である場合がある.本論文では,Webページがどの程度地域に密着しているかを計る尺度としてローカル度を定義し,その抽出手法と応用システムについて述べる.また,ローカル度の定義を評価するための予備実験の結果を示す.The vast amount of information is available on the WWW(World Wide Web). Usually, users use the information filtering technologies or search engines to acquire their favorite information. However, it's still not easy to acquire or exclude local information with the conventional search engines and information filtering technologies. In this paper, we propose a new notion localness to discover local information from the WWW. We also propose some useful applications based on localness and show some results of our preliminary evaluation.
著者
石黒 貴之 服部 啓太 須田 礼仁 杉原 正顯
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.66, pp.1-6, 1999-08-02
被引用文献数
2

球面上のPoisson方程式は地球の大気の運動をシミュレーションする上で欠かせない方程式である.従来,気象学の分野では球面上のPoisson方程式の数値解法として,球面調和関数を用いたスペクトル法及び,差分法等が一般的に利用されてきた.しかし前者はスペクトル範囲以内では正確に計算できるが,計算速度が遅い,逆に後者は高速に計算できるが精度が悪い.そこでYeeによって高速Fourier変換(F)を用いた高精度かつ高速な二重Fourier級数展開法が提案された.本報告ではYeeの方法で解析が不完全なところを補い,さらに改良を加えた.その結果,我々の手法でば,Yeeの方法の精度を保ちつつ,2倍程度の計算速度の向上を実現した.In meteorology, the spectral and finite difference methods are commonly used as the numerical solutions of the Poisson equation on a sphere. Nevertheless the former, being highly accurate, is slow, whereas the latter, being fast, is lowly accurate. To improve this situation, Yee has recently proposed a fast and highly accurate method based on the FFT, which is called truncated double Fourier series. In this report we make up for incomplete point of Yee's report and improve Yee's scheme. As a result our scheme achieves doubled performance with keeping the same level accuracy.
著者
崔春花 北川 博之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.72, pp.315-322, 2004-07-14

近年ネットワークを介して大量の文書の配信や交換が行われており、それらコンテンツの分析技術の重要性が増加している。重要なコンテンツ分析の1つとして、電子メールやニュース記事などの大規模時系列文書ストリーム中におけるトピック分析がある。本研究では、特に、特定のトピックの時間的な活性度の変化の分析を対象とする。対象とするトピックへ関連性が高い文書が高い頻度で到着するのは、そのトピックの活性度が高い状態であり、そうでない場合には活性度が低い状態と見なす。我々は、すでに各文書のトピックに対する関連性と到着頻度の両者を考慮した文書ストリームに対する活性度分析手法を提案した。時系列文書のトピック分析においては、しばしばニュース記事などが到着するたびに連続的に過去の一定期間のトピックの活性度をモニターしたいという場合が考えられる。本論文では、我々の提案手法をもとに、このような時系列文書に対する連続的なトピック分析の手法を提案する。また、実データを用いた実験によりその有効性を検証する。Dissemination and exchange of a large amount of documents have become popular according to the advance of network technology in recent years. Thus, importance of content analysis techniques is increasing. Topic analysis in a series of large-scale document streams such as E-mail and news articles is one of such. important research issues. Our research especially aims at the analysis of time varying activation levels of topics. When documents of high relevance with a specific topic arrive vary frequently, then the activation level of the topic is regarded high, otherwise the activation level is considered to be low. In the previous work, we proposed a systematic topic analysis method for document streams incorporating both document arrival rate and document relevance. Sometimes it is required to continuously analyze topics in the document streams. In this paper, we propose a new method to attain this based on our previous analysis method. Moreover, we evaluate the effectiveness of the proposed method by experiments using real data.
著者
野田 隆広 北川 結香子 藤本 強 鈴木 英夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ソフトウェア工学(SE) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.30, pp.193-200, 2004-03-19

エクストリームプログラミング (XP) を促進することを目指した オフィス環境設計事例を報告する.我々のプロジェクトでは教育支援システムの研究開発を行っている.研究の進展にともなって開発システムに当初予定していなかった新しい機能が追加されることがしばしばであり 変化に迅速に対応できる開発手法として XP を採用することにした.我々はプロジェクト立ち上げ時に 幸運にも空きスペースを与えられ 自由にレイアウトを決定できた. オフィス環境はソフトウェア開発において生産性を大きく向上させる要素でもあるので アレグザンダのパタンランゲージを利用して XP の導入が容易になるようなオフィス環境設計を心がけた.We report a case study of designing an office environment to facilitate extreme programming. We have been researching and developing education-support systems. While developing them, we often expanded and improved their functions. Consequently, we have been looking for a software-development methodology which can embrace changes, and found XP. XP is designed to enable us to respond to changing requirement of software. Fotunately, we could use a extra learge empty room and arrange furnitures where we wanted. Because an office environment is an important element which affects software productivity, we planned an office environment that made XP installation easier, to facilitate XP.
著者
新谷 義弘 長坂 篤
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 記号処理研究会報告
巻号頁・発行日
vol.94, no.3, pp.33-40, 1994-01-14

Common Lisp第2版準拠の高速かつ高い移植性を持つ処理系であるTachyon Common Lispにおけるコンパイラの実現方式について述べる.本処理系は現在UNIXワークステーションOKI Station 7300(i860), SPARCstation(SPARC), HP-PAシリーズ700(PA-RISC),上で動作する.Tachyon Common Lispは実行速度を重視するため,従来から行なわれているTail Recursionの繰り返しへの変換などのLisp固有の最適化の他に,RISCプロセッサ特有の最適化を含む各種の高速化を行った.本論文は,Tachyon Common Lispのコンパイラにおける,高速化手法及びRISCプロセッサ特有のコンパイル手法について述べ,最適化技術の評価を行なう.また,今までに移植した3つのプロセッサに対する経験をもとにコンパイラの移植の際に留意すべき点について説明し,移植性の評価を行なう.
著者
森田 和宏 望月久稔 山川 善弘 青江 順一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.39, no.9, pp.2563-2571, 1998-09-15

自然言語辞書に構築される基本語彙は有限であるが,それら基本語の関係を定義することで,膨大な数の関係情報が作り出される.複合語,慣用表現,格関係などもこの関係情報の範疇に属し,これらを基本単語の共起情報と呼ぶ.共起情報を基本単語の並びとして格納すると,記憶効率が非常に悪くなるので,これら関係情報の効率的な記憶検索技法は重要な課題である.本論文では,基本単語からなる共起情報をトライ構造で効率的に記憶検索する手法を提案する.本手法では共起情報を構成する2つの基本単語を1つのトライに登録し,関係情報をトライの葉ノード間のリンク関数で定義する.共起情報の登録による記憶量の増加はこのリンク情報のみとなり,リンク情報もトライに格納する.本手法では,トライのアークを高速にたどる必要があるので,これをO(1)の計算量で実現するダブル配列法を適用する.この結果,共起情報の検索時間は,基本単語数や葉ノード間のリンク数に依存しない一定の計算量となった.約10万語の基本単語に対して,複合語,同音語判定の共起語,格構造辞書などの約100万の関係情報を構築した実験結果より,検索時間は1.2msと一定となること,また記憶量は従来法より1/3に圧縮できることが分かった.Collocational information is very useful for natural language processing systems and it includes compound words,cooccurrency words,verbs and the role of nouns in the case slot,and so on.Collocational information can be constructed by combining basic words infinitely,so it is important to propose a fast and compact structure representing them.This paper presents an efficient data structure by introducing a trie that can define the linkage among leaves.It enables us to decrease the amount of memory required for the same basic words.Theoretical observations show that the worst-case time complexity of retrieving collocational information is a constant,independent of the number of words and linkages.From the simulation results for collocational information,it is shown that the presented method is about 1/3 smaller than that of the competitive methods.
著者
笹田 耕一 松本 行弘 前田 敦司 並木 美太郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌プログラミング(PRO) (ISSN:18827802)
巻号頁・発行日
vol.47, no.2, pp.57-73, 2006-02-15
被引用文献数
5

本稿ではオブジェクト指向スクリプト言語Ruby を高速に実行するための処理系であるYARV: Yet Another RubyVM の実装と,これを評価した結果について述べる.Ruby はその利用のしやすさから世界的に広く利用されている.しかし,現在のRuby 処理系の実装は単純な構文木をたどるインタプリタであるため,その実行速度は遅い.これを解決するためにいくつかの命令実行型仮想マシンが提案・開発されているが,Ruby のサブセットしか実行できない,実行速度が十分ではないなどの問題があった.この問題を解決するため,筆者はRuby プログラムを高速に実行するための処理系であるYARV を開発している.YARV はスタックマシンとして実装し,効率良く実行させるための各種最適化手法を適用する.実装を効率的に行うため,比較的簡単なVM 生成系を作成した.本稿ではRuby の,処理系実装者から見た特徴を述べ,これを実装するための各種工夫,自動生成による実装方法について述べる.また,これらの高速化のための工夫がそれぞれどの程度性能向上に寄与したかについて評価する.In this paper, we describe the implementation and evaluation results of YARV, next generation Ruby implementation. The Ruby language is used worldwide because of its ease of use. However, current interpreter is slow due to its evaluation method. To solve this problem, several virtual machine designs were proposed, but none of them exhibited adequate performance/functionality combination. Our implementation, called YARV (Yet Another Ruby VM), is based on a stack machine architecture. YARV incorporates a number of optimization techniques for high speed execution of ruby programs. In this paper, we describe the characteristics of Ruby from implementor's point of view, and present concrete solutions for these issues as well as implementation of optimization techniques. We also show how each of these optimizations contributed to the speed-up.
著者
岡 啓明己 桧垣 博章
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告マルチメディア通信と分散処理(DPS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.54, pp.57-62, 2008-06-12

車載移動コンピュータにおけるデータメッセージの無線マルチホップ配送では、その分布が疎である領域では、コンピュータがデータメッセージを保持して移動することによってメッセージの到達率を向上させることが可能である。本論文では、車載移動コンピュータと交差点の位置を道路、と基準点からの道のりの対で表現し、これを用いてカーナビゲーションで検出した経路に沿ってデータメッセージを配送する手法を提案する。ここでは、経路探索に制御メッセージの交換を必要とせず、車載移動コンピュータの高移動頻度と高移動速度および低分布密度に対して耐性のあるデータメッセージ配送を実現する。In wireless multihop data message transmission by multiple mobile computers in ITS systems, even though in an area with sparsely distributed mobile computers, mobility of a computer with transmitting data messages helps to achieve high data message transmission ratio. This paper proposes data message transmission along a sequence of roads detected by a GPS satellite navigation system. Due to combination of dynamic determination of intermediate mobile computers and a store-carry-forward approach, higher transmission ratio and shorter end-to-end delay are achieved even with high mobility and sparse distribution.
著者
木村 昌司 田口 友康
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.11, pp.2209-2216, 1997-11-15

日本語の文章は仮名漢字混じり文であり,その印刷文書は仮名書体の違いによって視覚的印象が変わるといわれている.この研究では,6種類の仮名書体を選んで,その印象の変化が何と関係しているのかを分析した.始めに物理計測で縦横の幅と黒領域の面積比を計測した.次に心理実験で被験者にサンプルを提示し,その印象を40種類の形容詞を用いた選択記述法で解答させた.この両者から,全体として文字間が一定に見えるようにデザインされた時代の新しい書体が良い印象を与え,縦または横に長い,時代の古い書体が読みにくくかつ悪い印象を与えるという結果が得られた.Japanese texts are written in kanji(Chinese)and kana characters.It is said that the use of different typefaces of kana characters may result in different visual impressions in the printed texts.This paper studies the kana typefaces in Japanese typesetting in two aspects,that is,a physical measurement and a psychological experiment with the use of six typical kana typefaces.In the physical measurement,the vertical and horizontal widths as well as the density of black area were measured.In the psychological experiment,the impression of the typefaces were evaluated for texts of different styles by the method of selected description on forty adjectives.The result showed that the kana typefaces of modern time,designed in a square-like shape,gave a good impression,while those of ancient time,characterized by the shapes of unequal vertical vs.horizontal widths,gave a poor impression,as a whole.
著者
當山 日出夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.49, pp.17-24, 2007-05-25

日本語の文字(特にコンピュータ文字)は、激変の時期を迎えている。JIS X 0213:2004の実装(WindowsVista)、あるいは、朝日新聞の印刷字体の変更などである。これらは、印刷標準字体に準拠したものである。その基本は、『康煕字典』字体について、それが正統なものであるという判断による。だが、実際の日本語表記においては、『康煕字典』は、伝統というべきものではなく、それとは別に、特に手書き文字で、伝承される文字の位相を考えねばならない。『康煕字典』を正統とするのは、「近代における擬制としての伝統」であることを自覚しなければならない。The typeface was changed with JIS standard (JIS X 0213:2004). Asahi-Shimbun (Newspaper) changed the typeface. When the character of KOUKI-JITEN is the right character, generally, we recognize. However, the typeface which was traditionally used in Japan is not the typeface of KOUKU-JITEN. There is a true tradition in the character to write with the hand. As for the traditional character, it is necessary to reconsider.
著者
宮沢 篤 駒野目 裕久
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告.IM, [情報メディア]
巻号頁・発行日
vol.96, no.29, pp.9-16, 1996-03-15

ピンポンをもとにした、商業的に成功した初めてのアーケードゲーム「ボン」が、米アタリゲームズ社で発明されてから、既に20年以上の歳月か流れている. 当時のゲームは、汎用ロジックICを組み合わせて設計されており、技術的に見ても未発達で、最も単純な対話型コンピュータグラフィックスの一応用分野でしかなかった。それから現在までに、世界中のさまざまな会社から、その時代の最も進んだコンピュータ技術を取り入れた、非常にたくさんのゲームが発表されてきた。今日のアーケードゲームは、幾多の技術革新を経て進化してきた、全く新しいインタラクティブなメディアである、と言えるかもしれない。本稿では、ゲームマシンのハードウェアを中心に、アーケードゲームを構成するいくつかの基本的な技術について解説する。
著者
久米 朋子 江見 圭司
出版者
一般社団法人情報処理学会
雑誌
研究報告コンピュータと教育(CE)
巻号頁・発行日
vol.2014, no.9, pp.1-8, 2014-02-01

日本語の上級学習者 (日本語能力試験 N1 取得レベル) を対象として、日本の文学作品に注釈・画像・例文等を表示できるサイトを作成した.日本語学習者にとって難しい言葉の他、授業で日本の文学作品を扱ったときに、質問が出される箇所に注釈をつけた.具体的には、(1) オノマトペ (擬音語・擬態語) のニュアンス、(2) 位相語 (職業や年代・性別などで独特の表現を持つ言葉) (3) 表現のゆれである.注釈は、CSS を使い、言葉にカーソルを合わせると表示するようにした.また、クリックすると、小窓が現れ、そこに、画像や例文が表示できるようにした.例文は、MySQL を使用した.When literary works are covered in class, what learners come to question is not limited to the meaning of words listed in the dictionary. There are queries about (1)nuances of mimetic words and of onomatopoeia, (2)phase words, and (3)variety of representation on one word (for example, "toko" and "tokoro", both mean "place") as well. This "JL Bunko" is designed for advanced learners of Japanese to display annotation, image and example sentences, on words that are not found in the dictionary, but supposed to be difficult to understand. Using CSS, annotation is to be displayed. Using PHP MySQL, sentences are to be displayed.
著者
大石達也 樫山武浩 瀧本栄二 毛利公一
出版者
一般社団法人情報処理学会
雑誌
全国大会講演論文集
巻号頁・発行日
vol.2012, no.1, pp.631-633, 2012-03-06

従業員が無断でUSBメモリに機密データをコピーして持ち出したり,誤ってメールに添付して送信したりといった事故を防止するためのシステムを提案する.具体的には,メモリ上に読み込まれたファイルのデータの流れを追跡し,データが出力されようとする(writeシステムコールが発行される)とき,データの元となったファイルの機密度に基づいてOSが出力の可否を判定する.
著者
相澤 彰子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.3, pp.1426-1436, 2008-03-15
参考文献数
23
被引用文献数
5

本論文では,タグなしテキストから類語関係を抽出するタスクを例にとり,自然言語処理における大規模コーパスの適用について考察する.近年ではウェブに代表される大規模なテキスト集合が利用可能となり,単純な手法でもコーパス規模が十分に大きければ,潜在的意味解析法(LSA)などの従来手法と比較しうる高い性能が得られるとの報告もある1).そこで論文中では,まず,大規模コーパスを用いた語の類似度計算における問題点を実際のデータに基づき調べる.次に,広範囲の語と共起する語が類似度計算におけるノイズとなるという前提のもと,ノイズ低減のためフィルタリング法,サンプリング法の2 つの方法を提案する.また,評価のための類語抽出タスクを設計し,新聞記事およびウェブ文書コレクションの2 つのコーパスを用いて,提案手法による性能改善を確認する.This paper focuses the utilization of large-scale text corpora in the task of synonymous relationship identification. Recently, large-scale text corpora became available for automatic synonyms extraction and it was reported that the performance of simple methods adapted to large-scale corpora was sometimes comparable to the one of more elaborative methods such as Latent Semantic Analysis (LSA) adapted to traditional linguistic resources 1). In this paper, assuming that the similarity calculation is affected by the co-occurrences with high frequent words, we propose two methods for reducing the bias. Also proposed is a method for extracting datasets for performance evaluation using both lexico-syntactic patterns and conventional human editing thesaurus. The effectiveness of the proposed methods is shown using newspaper and Web document collections.