著者
早川 晃央 韓 東力
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.5, pp.1-7, 2011-11-14

インターネットの普及に伴い、個人がWeb掲示板やブログなどを利用して容易に情報発信を行うことができるようになり、ある商品や組織について評価・評判の情報を収集する際に個人が発信源となっている情報を重視する傾向にある。中でもトピックごとに開設されているWeb掲示板に有用な情報が含まれることが多く、利用者にとって大きな手助けとなっている。しかし、このような情報が不規則な形式でWeb掲示板内に乱雑に置かれているため、有益な情報を素早く取得することは難しく時間を要してしまう。そこで我々はWeb掲示板内の記事を回答記事と非回答記事に分類し、さらに回答記事から質問記事を探索することにより、質問回答対の自動作成を試みた。また、Web掲示板から直接抽出された質問回答対の集合には、一つの質問に対して複数の回答が付与されているものがあるため、ベスト回答の選定手法を提案した。実験結果によって、本研究で提案した質問回答対の作成手法及びベスト回答の選定手法に一定の有効性があることを確認できたが、十分な精度が得られていないことが今後の課題として残っている。Individual information transmission on the Internet has been one of main information resources for general users. More and more users prefer to utilize information provided by individuals on web message boards or blogs rather than particular or formal information when carrying out an investigation on a product or an organization. In this paper, we focus on web message boards where almost all posted messages are expected to be related to a particular topic. A web message board is supposed to contain plenty of useful information. However it is not easy to extract useful information from it as messages are usually posted irregularly in time and format. In order to make the process of information extraction from web message boards more efficient and less time-consuming, we classify all the messages in a web message board into two groups, queries and answers, and then find all the answers for each query to generate a QA entry. During this process, we have proposed a method to select the best answer among all the answers for a particular query. Finally we show the results of some experiments that have been conducted to examine the effectiveness of our methods.