著者
宮田 章裕 塩原 寿子 藤村 考
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.4, pp.1438-1452, 2011-04-15

本論文では,文章を読む方向とそれに直交する方向を考慮した2次元のブロックを索引・検索のキーとする2次元文字ブロック検索手法を提案し,書籍内の局所領域にデジタルコンテンツへのハイパーリンク設置を可能にするシステムKappanを紹介する.従来,書籍内にハイパーリンクを設置する際はマーカを用いる方法があったが,この手法はあらかじめ書籍内にマーカを記載する必要がある.一方,システム上に書籍内のテキストと位置を関連付けておけばマーカは不要である.すなわち,書籍内を撮影した画像をシステムに送信すれば,システムは画像からOCR(Optical Character Recognition)により抽出したテキストを検索語として位置を特定し,その位置に関連付けられたコンテンツを提示できる.このとき,大量の書籍の中から一意に位置を特定するためには,長く連続するテキストを検索語とする必要がある.ところが,一般ユーザが撮影した画像にはOCR誤認識が約35%発生するため,長いテキストには誤認識文字が含まれて正しく検索できないという問題があった.特に書籍内の局所領域からは抽出できる検索語数が少なく,この問題は深刻である.提案手法は少ない文字数で書籍内の各局所領域に固有なパターンを表現できるので,OCR誤認識が発生する書籍内の局所領域画像から一意に位置を特定できる.73,231文書から局所領域画像を含む文書を一意に特定する検証実験では,提案手法はノイズがない状態で99%,ノイズが33%の状態でも92%の精度を示し,比較手法を上回ることを実証した.We present a text search method which takes into account not only the reading direction but also the non-reading direction. We use this method to develop a prototype system called Kappan. It enables service providers and users to create hyperlinks in books without markers. Existing techniques generally require markers to be printed on the page if a hyperlink is to be created. We consider that utilizing the concept of the search index makes markers unnecessary, i.e., the system can detect positions using text extracted from images via OCR (Optical Character Recognition) and provide users with position associated digital contents. Traditional text indexing methods must extract long character sequences from the partial image in order to identify the area exactly given the sheer number of book pages. However, considering that the average OCR error rate is more than 35 percent if the partial image is captured by a camera-equipped cellular phone, it is highly probable that many characters would be misrecognized and area identification would thus fail. In contrast, our indexing method can extract area-specific clues using fewer characters that can identify the area exactly even when the partial image is small and the extracted text contains misrecognized characters. An experiment proves that our method can identify the exact area from 73,231 documents with the high accuracy rates of 99 percent and 92 percent for OCR error rates of 0 percent and 33 percent, respectively.
著者
宮田 章 内田 信隆 中島 潔 谷口 重雄
雑誌
日本眼科學会雜誌 (ISSN:00290203)
巻号頁・発行日
vol.104, no.5, pp.349-353, 2000-05-10
被引用文献数
9
著者
宮田 章裕 松岡 寿延 岡野 真一 山田 節夫 石打 智美 荒川 則泰 加藤 泰久
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.12, pp.4041-4050, 2007-12-15
参考文献数
15
被引用文献数
7

本研究では,ブログ記事を取り巻く人々のインタラクションの様子「反響特性」を利用したブログ記事検索手法を提案する.ブログ記事は被リンク数が非常に少ない等,従来のWeb ページとは異なった性質を持つため,既存の検索手法が提示する記事を人間が読んでも有用と感じられない場合がある.また,既存検索手法は大衆から注目を集めている情報の提示に重点を置いているため,個々の閲覧目的に応じた記事を提示することができない.そこで本研究では,ブログ記事の書き手・読み手の行動は記事に対する人間の判断を反映しているという仮説に基づき,彼らのインタラクション情報を多面的に分析して「広さ,強さ,速さ,長さ」からなる多次元指標「反響特性」を定義する.この反響特性を用いることによって,「幅広い人から関心を集めている記事」や「長期間関心を集め続けている記事」というように,人間が実際に読んで有用と感じられる記事の多面的な観点から検索することが可能になる.提案手法が有用な記事を提示できるか検証実験を行ったところ,既存手法よりもユーザの満足度が高くなるという結果が得られ,提案手法に一定の有効性が確認できた.We present a method of searching blog entries that takes into account the response derived from the interaction of the blogger and readers. Here, response is composed of width, strength, speed, and length. These indicators enable users to find entries in which many readers are interested, in which a small group has an enthusiastic interest, in which a few members are chatting at intervals of a few seconds, and in which many readers have shown interest over a long period. An experiment conducted with a prototype system is presented. For a particular situation (searching movie reviews), our method has shown better results than an existing blog search service.
著者
川中 翔 宮田 章裕 東中 竜一郎 星出 高秀 藤村 考
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

レビュー記事を用いてブランド間の競合関係を分析する手法を提案する.提案手法は,要因語出現分布の類似度を用いてブランド間の競合度を計算する.なお,本稿では,消費行動実施の決断にポジティブな影響を与えた事象や状態,条件を要因と定義し,個別の要因を抽象的に表現する語を要因語と定義する.提案手法はブランドペア毎に,Belkの消費者場面フレームワークに基づく5つの異なる競合度を計算する.