著者
新井 イスマイル 川口 誠敬 藤川 和利 砂原 秀樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.7, pp.2319-2327, 2007-07-15
被引用文献数
1

近年,口コミ情報サイトを例とする,ユーザの行動を基にした店舗・施設の検索サイトが注目されている.これらの検索サイトでは,位置に基づいた検索が可能であることと,店舗・施設に対して複数のユーザからの第3 者の評価情報が取得できることが求められている.しかし,商用の検索サイトには広告収入や検閲の影響により,被評価店舗にとって不都合な情報が現れにくく第3 者の評価情報の提供に問題がある.また,従来の情報取得手法ではWWW 上の情報をすべて収集し,複雑な自然言語処理によって位置に基づいた評価情報を抽出する作業が必要となり,サービス構築コストが膨大となるという問題がある.そこで本研究では従来の全文型検索エンジンを活用し,目的の分野を示すキーワードと商用検索サイトを除外するキーワードを組み合わせることによって目的の第3 者の評価情報を収集する手法と,単純な形態素解析と文字列のパターンマッチングを用いた文字列処理によって住所を抽出する手法を提案する.この手法に基づいてWeb インデクサを評価した結果,一度の収集のうち44%が目的とする個人サイトであり,位置情報の取得再現率が59%という結果が得られた.A user expects that he/she can search stores and facilities from Web information space based on his/her behavior (Ex. Word-of-mouth communication sites). For this purpose, an appropriate information must be retrieved based on user's location. In addition, a user expect that he/she can retrieve actual impressions of other users against stores and facilities to decide his/her behavior. However, there are two major problems to achieve the above requirements. One is that the actual impression of other users are often omitted on the commercial web sites by the sponsor's claims. The other is that the cost for the information retrieval may become large because the existing search engines have to crawl most of Web sites and the complicated natural language processing have to be used. In this paper, we propose a new method which can obtain appropriate Web contents from Web search engines by inputting keywords that include user's objective information and black list information. In addition, the proposed method can extract the geographical information from the obtained Web contents by a morphological analysis and a simple pattern matching. As a result of evaluating the Web indexer based on the proposed method, 44% in all obtained Web contents conforms to user's objective. Also, the recall ratio of the extract of the geographical information is 59%.
著者
新井 イスマイル 川口 誠敬 藤川 和利 砂原 秀樹
出版者
情報処理学会
巻号頁・発行日
2007-07-15

近年,口コミ情報サイトを例とする,ユーザの行動を基にした店舗・施設の検索サイトが注目されている.これらの検索サイトでは,位置に基づいた検索が可能であることと,店舗・施設に対して複数のユーザからの第3 者の評価情報が取得できることが求められている.しかし,商用の検索サイトには広告収入や検閲の影響により,被評価店舗にとって不都合な情報が現れにくく第3 者の評価情報の提供に問題がある.また,従来の情報取得手法ではWWW 上の情報をすべて収集し,複雑な自然言語処理によって位置に基づいた評価情報を抽出する作業が必要となり,サービス構築コストが膨大となるという問題がある.そこで本研究では従来の全文型検索エンジンを活用し,目的の分野を示すキーワードと商用検索サイトを除外するキーワードを組み合わせることによって目的の第3 者の評価情報を収集する手法と,単純な形態素解析と文字列のパターンマッチングを用いた文字列処理によって住所を抽出する手法を提案する.この手法に基づいてWeb インデクサを評価した結果,一度の収集のうち44%が目的とする個人サイトであり,位置情報の取得再現率が59%という結果が得られた.A user expects that he/she can search stores and facilities from Web information space based on his/her behavior (Ex. Word-of-mouth communication sites). For this purpose, an appropriate information must be retrieved based on user's location. In addition, a user expect that he/she can retrieve actual impressions of other users against stores and facilities to decide his/her behavior. However, there are two major problems to achieve the above requirements. One is that the actual impression of other users are often omitted on the commercial web sites by the sponsor's claims. The other is that the cost for the information retrieval may become large because the existing search engines have to crawl most of Web sites and the complicated natural language processing have to be used. In this paper, we propose a new method which can obtain appropriate Web contents from Web search engines by inputting keywords that include user's objective information and black list information. In addition, the proposed method can extract the geographical information from the obtained Web contents by a morphological analysis and a simple pattern matching. As a result of evaluating the Web indexer based on the proposed method, 44% in all obtained Web contents conforms to user's objective. Also, the recall ratio of the extract of the geographical information is 59%.
著者
新井 イスマイル 川口 誠敬 藤川 和利 砂原 秀樹
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:03875806)
巻号頁・発行日
vol.48, no.7, pp.2319-2327, 2007-07-15

近年,口コミ情報サイトを例とする,ユーザの行動を基にした店舗・施設の検索サイトが注目されている.これらの検索サイトでは,位置に基づいた検索が可能であることと,店舗・施設に対して複数のユーザからの第3 者の評価情報が取得できることが求められている.しかし,商用の検索サイトには広告収入や検閲の影響により,被評価店舗にとって不都合な情報が現れにくく第3 者の評価情報の提供に問題がある.また,従来の情報取得手法ではWWW 上の情報をすべて収集し,複雑な自然言語処理によって位置に基づいた評価情報を抽出する作業が必要となり,サービス構築コストが膨大となるという問題がある.そこで本研究では従来の全文型検索エンジンを活用し,目的の分野を示すキーワードと商用検索サイトを除外するキーワードを組み合わせることによって目的の第3 者の評価情報を収集する手法と,単純な形態素解析と文字列のパターンマッチングを用いた文字列処理によって住所を抽出する手法を提案する.この手法に基づいてWeb インデクサを評価した結果,一度の収集のうち44%が目的とする個人サイトであり,位置情報の取得再現率が59%という結果が得られた.