- 著者
-
宮田 章裕
塩原 寿子
藤村 考
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.52, no.4, pp.1438-1452, 2011-04-15
本論文では,文章を読む方向とそれに直交する方向を考慮した2次元のブロックを索引・検索のキーとする2次元文字ブロック検索手法を提案し,書籍内の局所領域にデジタルコンテンツへのハイパーリンク設置を可能にするシステムKappanを紹介する.従来,書籍内にハイパーリンクを設置する際はマーカを用いる方法があったが,この手法はあらかじめ書籍内にマーカを記載する必要がある.一方,システム上に書籍内のテキストと位置を関連付けておけばマーカは不要である.すなわち,書籍内を撮影した画像をシステムに送信すれば,システムは画像からOCR(Optical Character Recognition)により抽出したテキストを検索語として位置を特定し,その位置に関連付けられたコンテンツを提示できる.このとき,大量の書籍の中から一意に位置を特定するためには,長く連続するテキストを検索語とする必要がある.ところが,一般ユーザが撮影した画像にはOCR誤認識が約35%発生するため,長いテキストには誤認識文字が含まれて正しく検索できないという問題があった.特に書籍内の局所領域からは抽出できる検索語数が少なく,この問題は深刻である.提案手法は少ない文字数で書籍内の各局所領域に固有なパターンを表現できるので,OCR誤認識が発生する書籍内の局所領域画像から一意に位置を特定できる.73,231文書から局所領域画像を含む文書を一意に特定する検証実験では,提案手法はノイズがない状態で99%,ノイズが33%の状態でも92%の精度を示し,比較手法を上回ることを実証した.We present a text search method which takes into account not only the reading direction but also the non-reading direction. We use this method to develop a prototype system called Kappan. It enables service providers and users to create hyperlinks in books without markers. Existing techniques generally require markers to be printed on the page if a hyperlink is to be created. We consider that utilizing the concept of the search index makes markers unnecessary, i.e., the system can detect positions using text extracted from images via OCR (Optical Character Recognition) and provide users with position associated digital contents. Traditional text indexing methods must extract long character sequences from the partial image in order to identify the area exactly given the sheer number of book pages. However, considering that the average OCR error rate is more than 35 percent if the partial image is captured by a camera-equipped cellular phone, it is highly probable that many characters would be misrecognized and area identification would thus fail. In contrast, our indexing method can extract area-specific clues using fewer characters that can identify the area exactly even when the partial image is small and the extracted text contains misrecognized characters. An experiment proves that our method can identify the exact area from 73,231 documents with the high accuracy rates of 99 percent and 92 percent for OCR error rates of 0 percent and 33 percent, respectively.