著者
吉田 光男 荒瀬 由紀
出版者
情報処理学会
雑誌
情報処理学会論文誌(トランザクション)データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.9, no.1, pp.20-30, 2016-03-31

ソーシャルメディアでの言及量やウェブ検索エンジンでの検索頻度をもとに,トレンドキーワードを発見する研究開発が広く行われている.また,注目されているキーワードに対して情報を付与し,そのキーワードの理解を促すような試みもある.しかし,それらのトレンドキーワードが様々なウェブリソースでどのように振る舞うのかは必ずしも明らかではない.そこで本研究では,トレンドをとらえうるウェブリソースを対象に,収集したトレンドキーワードがどのように振る舞うのかを横断的に調査する.この調査により,大半のトレンドキーワードがオンライン辞書サービスに登録されていないこと,検索のトレンドは2日で50%未満の頻度に収束すること,ソーシャルメディア(Twitter)がほかのウェブリソースよりもトレンドに敏感であることなどを明らかにする.Many researchers work on studies for discovering trend keywords and queries on the web, i.e., search frequency and social media. Moreover, studies on trend query classifications are being conducted. However, the behavior of trend queries for various web resources is unclear. In this study, we investigate how trend queries appear in different resources on the web. We clarify the following. (1) Most trend queries are not registered with online dictionary services. (2) The trend converges in approximately two days. (3) Social media websites (such as Twitter) are responsive to trend queries.
著者
吉田 光男 荒瀬 由紀
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.30, no.1, pp.161-171, 2015-01-06 (Released:2015-01-06)
参考文献数
27

Query classification is an important technique for web search engines, allowing them to improve users' search experience. Specifically, query classification methods classify queries according to topical categories, such as celebrities and sports. Such category information is effective in improving web search results, online advertisements, and so on. Unlike previous studies, our research focuses on trend queries that have suddenly become popular and are extensively searched. Our aim is to classify such trend queries in a timely manner, i.e., classify the queries on the same day when they become popular, in order to provide a better search experience. To reduce the expensive manual annotation costs to train supervised learning methods, we focus on a label propagation method that belongs to the semi-supervised learning family. Specifically, the proposed method is based on our previous method that constructs a graph using a corpus, and propagates a small number of ground-truth categories of labeled queries in order to estimate the categories of unlabeled queries. We extend this method to cut ineffective edges to improve both classification accuracy and computational efficiency. Furthermore, we investigate in detail the effects of different corpora, i.e., web/blog/news search results, Tweets, and news pages, on the trend query classification task. Our experiments replicate the situation of an emerging trend query; the results show that web search results are the most effective for trend query classification, achieving a 50.1% F-score, which significantly outperforms the state-of-the-art method by 7.2 points. These results provide useful insights into selecting an appropriate dataset for query classification from the various types of data available.
著者
吉田 光男 荒瀬 由紀
出版者
人工知能学会
雑誌
人工知能学会論文誌 = Transactions of the Japanese Society for Artificial Intelligence : AI
巻号頁・発行日
vol.30, no.1, pp.161-171, 2015-01

Query classification is an important technique for web search engines, allowing them to improve users' search experience. Specifically, query classification methods classify queries according to topical categories, such as celebrities and sports. Such category information is effective in improving web search results, online advertisements, and so on. Unlike previous studies, our research focuses on trend queries that have suddenly become popular and are extensively searched. Our aim is to classify such trend queries in a timely manner, i.e., classify the queries on the same day when they become popular, in order to provide a better search experience. To reduce the expensive manual annotation costs to train supervised learning methods, we focus on a label propagation method that belongs to the semi-supervised learning family. Specifically, the proposed method is based on our previous method that constructs a graph using a corpus, and propagates a small number of ground-truth categories of labeled queries in order to estimate the categories of unlabeled queries. We extend this method to cut ineffective edges to improve both classification accuracy and computational efficiency. Furthermore, we investigate in detail the effects of different corpora, i.e., web/blog/news search results, Tweets, and news pages, on the trend query classification task. Our experiments replicate the situation of an emerging trend query; the results show that web search results are the most effective for trend query classification, achieving a 50.1% F-score, which significantly outperforms the state-of-the-art method by 7.2 points. These results provide useful insights into selecting an appropriate dataset for query classification from the various types of data available.
著者
吉田 光男 荒瀬 由紀
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.9, no.1, pp.20-30, 2016-03-31

ソーシャルメディアでの言及量やウェブ検索エンジンでの検索頻度をもとに,トレンドキーワードを発見する研究開発が広く行われている.また,注目されているキーワードに対して情報を付与し,そのキーワードの理解を促すような試みもある.しかし,それらのトレンドキーワードが様々なウェブリソースでどのように振る舞うのかは必ずしも明らかではない.そこで本研究では,トレンドをとらえうるウェブリソースを対象に,収集したトレンドキーワードがどのように振る舞うのかを横断的に調査する.この調査により,大半のトレンドキーワードがオンライン辞書サービスに登録されていないこと,検索のトレンドは2日で50%未満の頻度に収束すること,ソーシャルメディア(Twitter)がほかのウェブリソースよりもトレンドに敏感であることなどを明らかにする.
著者
高山 隼矢 梶原 智之 荒瀬 由紀
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-249, no.11, pp.1-8, 2021-07-20

人間は対話においてしばしば相手の質問や発話に対して間接的な応答をする.例えば,予約サービスにおいてユーザがオペレータに対して「あまり予算がないのですが」と応答した場合,オペレータはその応答には間接的に「もっと安い店を提示してください」という意図が含まれていると解釈することができる.大規模な対話コーパスを学習したニューラル対話モデルは流暢な応答を生成する能力を持つが,間接的な応答に焦点を当てたコーパスは存在せず,モデルが人間と同様に間接的な応答を扱うことができるかどうかは明らかではない.本研究では既存の対話コーパスである MultiWoZ を拡張し,間接的な応答と直接的な応答の対からなる 7 万件規模の対話コーパスを構築した.ユーザーからの入力発話を事前により直接的な発話に言い換えることで対話応答生成の性能が向上することを確認した.
著者
吉田 光男 荒瀬 由紀 角田 孝昭 山本 幹雄
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 = Proceedings of the Annual Conference of Japanese Society for Artificial Intelligence
巻号頁・発行日
vol.29, no.2I1-1, pp.1-4, 2015

ウェブ検索エンジンに入力されるクエリの検索頻度は人々の興味関心を反映しており,流行の分析などに有用なデータである。しかし,その検索頻度データを検索エンジン事業者以外が利用することは困難である。そこで本論文では,検索結果の上位に表示される傾向のあるWikipediaのページビューデータを用いれば検索頻度を推定できると仮定し,その推定可能性を検証する。The frequency of a web search query generally reflects the degree of people's interest in the subject matter. Search logs are therefore a useful resource for trend analysis. However, accessing search logs is typically restricted to search engine providers. In this paper, we investigate whether search frequency can be estimated from another resource, namely, Wikipedia page view of open data. As a result, frequently searched queries revealed remarkably high correlations against Wikipedia page view. This fact suggests that Wikipedia page view is effective for understanding popular web search trends happening around the world.