著者
川崎 洋治 野村 直之 中川 尚
雑誌
情報処理学会研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2003, no.37(2002-DD-038), pp.43-50, 2003-03-28

文書はその本文内部に、自身に対する書誌データ、すなわちメタデータを含んでいることが多い。本稿では、プレーンテキストやHTML文書の内容記述部分から作者や見出し階層のようなメタデータを自動的に抽出する技術を紹介する。次に、抽出したメタデータを格納するための枠組みをRDF Schemaによって定義することで、メタデータを流通させる仕組みを提案する。最後に、文書からのメタデータ自動抽出、およびSemantic Web標準に準拠したその構造表現化による情報流通上の効果について論じる。

言及状況

Twitter (1 users, 1 posts, 2 favorites)

これ面白いな あとでゆっくり読むメモ 「文書構造情報の抽出とメタデータ化」 https://t.co/L2i9XrD6Ai

収集済み URL リスト