著者
川崎 洋治 野村 直之 中川 尚
雑誌
情報処理学会研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2003, no.37(2002-DD-038), pp.43-50, 2003-03-28

文書はその本文内部に、自身に対する書誌データ、すなわちメタデータを含んでいることが多い。本稿では、プレーンテキストやHTML文書の内容記述部分から作者や見出し階層のようなメタデータを自動的に抽出する技術を紹介する。次に、抽出したメタデータを格納するための枠組みをRDF Schemaによって定義することで、メタデータを流通させる仕組みを提案する。最後に、文書からのメタデータ自動抽出、およびSemantic Web標準に準拠したその構造表現化による情報流通上の効果について論じる。