著者
平岡 達也 高瀬 翔 内海 慶 欅 惇志 岡崎 直観
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.112-143, 2022 (Released:2022-03-15)
参考文献数
49
被引用文献数
2

本稿では,後段モデルと単語分割器を同時に学習することで,後段モデルに適切な単語分割を獲得する新たな手法を提案する.提案手法では,後段モデルを学習する際に得られる教師信号との損失値を用いて単語分割器の学習を行う.これにより,提案手法は損失値が計算できるあらゆる後段モデルに対して制限なく使用することができ,さまざまな自然言語処理のタスクで単語分割の最適化を行うことができる.さらに,提案手法はすでに学習済みの後段モデルに対しても,後処理として単語分割を最適化することで,後段モデルの処理性能を底上げすることができる.そのため,提案手法は自然言語処理のさまざまな場面で利用することが可能である.実験を通して,提案手法が 3 言語の文書分類タスクで性能の向上に貢献することを確認した.また,8 言語対での機械翻訳タスクにおいても,提案手法が性能向上に寄与することを確認した.
著者
内海 慶 小町 守
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.1, pp.16-28, 2013-01-23

近年のウェブ検索エンジンの多くはクエリ拡張機能やクエリ書き換えを備えている.これらの機能の実現にはシソーラスや同義語辞書を用いるが,人手での辞書作成はコストがかかる.そのため,ウェブ検索ログやクリックスルーログを用いた同義語獲得の研究が行われている.これまでに提案された手法では,生成モデルである Noisy Channel Model によって同義語獲得をモデル化しており,柔軟な素性設計が行えなかったため,クエリと同義語候補の表層の編集距離を素性として追加する等が難しかった.我々は,この問題に対処すべく,同義語獲得に識別モデルを用いた手法を提案する.クエリ書き換えのための同義語辞書では, 1 つのクエリに対してより適切と考えられる 1 つの同義語を登録する.そのため同義語獲得手法には,同義語候補が複数ある場合には最適な候補を 1 位に提示することが求められる.そこで提案手法では,クエリと同義語候補の表層に基づく素性を利用した ListNet を用いて 1 位正解率を直接最大化する.また,従来の識別モデルでは,有効な組合せ素性の追加等,素性エンジニアリングを行う必要があったが,我々は ListNet に隠れ層を導入することで,素性エンジニアリングなしに有効な組合せ素性の生成と重み付けを可能とした.これにより, Noisy Channel Model を用いた従来の手法に比べ,より高い精度で同義語を獲得することができた.Recent web search engines often employ query expansion and query reformulation techniques. These techniques use thesauri and synonym dictionaries, but manually making dictionary requires time and costs. Thus, automatic acquisition of synonymous expressions using web-search logs and click-through logs has been studied. One of the previous work formulates the synonym extraction problem as a generative process using the noisy channel model, but since generative models do not allow flexible feature design, it is difficult to use as features edit distance between the surface of a query and its synonym. To deal with this problem, we employed discriminative approaches for synonym extraction. When creating a synonym dictionary for query reformulation, only one synonym which better leads to appropriate search results is registered for each query. Therefore, it is required that the synonym acquisition method for query reformulation must pick an optimal entry if there are several synonym candidates. Hence we propose to maximize the 1-best accuracy using ListNet with features based on the surface of a query and its synonym to achieve the goal. Moreover, though most traditional discriminative methods require feature engineering to find efficient combinations of features, we automate this process by introducing hidden layers to the ranking function. Our proposed method outperformed previous method based on the noisy channel model in the task of synonym extraction.
著者
小町 守 牧本 慎平 内海 慶 颯々野 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.196-205, 2010 (Released:2010-01-06)
参考文献数
23
被引用文献数
2 2

As the web grows larger, knowledge acquisition from the web has gained increasing attention. Web search logs are getting a lot more attention lately as a source of information for applications such as targeted advertisement and query suggestion. However, it may not be appropriate to use queries themselves because query strings are often too heterogeneous or inspecifiec to characterize the interests of the search user population. the web. Thus, we propose to use web clickthrough logs to learn semantic categories. We also explore a weakly-supervised label propagation method using graph Laplacian to alleviate the problem of semantic drift. Experimental results show that the proposed method greatly outperforms previous work using only web search query logs.
著者
内海 慶 小町 守 町永 圭吾 前澤 敏之 佐藤 敏紀 小林 義徳
出版者
情報処理学会
雑誌
情報処理学会研究報告 (ISSN:18840930)
巻号頁・発行日
vol.2010, no.4, pp.1-7, 2010-12

我々は,クエリ訂正を統一的に行う手法として,検索クエリログとクリックスルーログを用いたグラフに基づく手法を提案する.提案手法では,クリックスルーログを用いたラベル伝播により,入力されたクエリで検索を行った場合と同一のページに到達するクエリを獲得し,これをクエリの訂正候補とした.次に,獲得した訂正候補に対して,検索クエリログから生成した言語モデルを用いて尤度を計算し,ラベル伝播時のスコアとあわせて候補のランキングを行った.これによって,人手による学習コーパスを必要とせずに,入力されたクエリと高く関連し,かつクエリとして適切な候補をログから抽出できることを示す.In this paper, we propose a new method to refine web search queries. This method is based on a graph theoretic label propagation and uses web search query and clickthrough logs. Our method first enumerates query candidates with common landing pages with regard to the given query. Then it calculates likelihoods of the candidates, making use of language model generated from web search query logs. Finally the candidates are sorted by their scores calculated from the likelihoods and the label propagations. As a result, we are able to extract appropriate candidates from web search query and clickthrough logs, without using hand-crafted training data.
著者
内海 慶 塚原 裕史 持橋 大地
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2015, no.3, pp.1-8, 2015-01-12

本論文では,教師なし学習による品詞を含めた形態素解析手法を提案する.従来の教師なし形態素解析手法では分かち書きのみを対象としており,品詞の推定は扱われてこなかった.本稿では,品詞遷移確率と単語の生起確率の事前分布に階層 Pitman-Yor 過程を用いた隠れセミマルコフモデルに基づく形態素解析手法を提案し,分かち書きとその潜在的な品詞を同時に学習する.これにより,単語分割自体の精度も向上することを日本語,中国語,およびタイ語での実験により確認した.
著者
内海慶 塚原裕史
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.10, pp.1-9, 2013-09-05

本論文では,教師なし・半教師あり学習による形態素解析手法の提案を行う.従来の教師なし形態素解析手法では分かち書きのみを対象としており,品詞推定は扱っていなかった.我々は,この問題に対処するため,潜在クラスを導入した Semi-Markov CRF と NPYLM の協調学習を行った.新聞データ及びブログ記事を用いた実験によって,提案手法の有効性を評価した.