著者
小町 守 牧本 慎平 内海 慶 颯々野 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.196-205, 2010 (Released:2010-01-06)
参考文献数
23
被引用文献数
2 2

As the web grows larger, knowledge acquisition from the web has gained increasing attention. Web search logs are getting a lot more attention lately as a source of information for applications such as targeted advertisement and query suggestion. However, it may not be appropriate to use queries themselves because query strings are often too heterogeneous or inspecifiec to characterize the interests of the search user population. the web. Thus, we propose to use web clickthrough logs to learn semantic categories. We also explore a weakly-supervised label propagation method using graph Laplacian to alleviate the problem of semantic drift. Experimental results show that the proposed method greatly outperforms previous work using only web search query logs.
著者
颯々野 学 塚本 浩司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.99, no.227, pp.1-8, 1999-07-22

本論文では、Eric Brillが提案した変換に基づく誤り駆動型学習を日本語の固有表現抽出に適用する方法について述べる。形態素解析と学習で獲得した有限状態変換器(FST)を遣って固有表現の抽出を行うシステムを作成し、IREX (Information Retrieval and Extraction Exercise)の named entity task のformal run (総合ドメイン)に対して実験を行った。約10,000文のCRL固有表現データから1428個のFSTを学習し、F-measure 71.28を得た。人手作成のFSTの性能には及ばないものの、IREX NEに参加するシステムの半数よりもいい結果である。また、過学習が起きないことも確認した。
著者
颯々野 学 難波 功
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.75-76, 1996-03-06
被引用文献数
3

さまざまな自然言語処理の応用を考える上で、日本語の形態素解析の技術は最も基本的なものである。しかし、従来の形態素解析システムでは、特定のアプリケーションに依存し過ぎていることや、処理速度が遅いことが問題になり、形態素解析の応用を広げる障害になっていた。そこで、筆者らはこれらの障害を乗り越えるために以下の特徴を持つ形態素解析システムを開発した。・辞書や文法の定義、評価関数のパラメータ、出力形式などを利用者が調節したりカスタマイズできる。・トライを用いた辞書アクセスルーチンを使って、非常に高速に処理を行なう。本稿では、この形態素解析システムの概要と解析速度の実験結果について述べる。
著者
塚本 浩司 颯々野 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.146, pp.81-88, 2001-11-20
被引用文献数
2

本稿では、テキスト分類のタスクに対し、AdaBoostを用いた能動学習の手法を適用した結果を報告する。対象文書としてReutesr-21578コレクションを用いたところ、能動学習なしのAdaBoostの精度を、約1/10の正解データ量で実現できた。また、文書の表現を語の出現回数を特徴値とするベクトルから、語が出現したかどうかのbinary値を特徴値とするベクトルに変えるとにより、能動学習で観察されることのあるサンプル数の増加に伴う精度の劣化について考察した。
著者
宇津呂 武仁 颯々野 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.86, pp.9-16, 2000-09-21
被引用文献数
3

本論文では,人手によって作成された少量の初期固有表現リストと大量の人手未解析コーパスから,ブートストラップにより日本語固有表現抽出規則を学習する手法を提案し,その実験的評価結果を報告する.実験の結果,ブートストラップのサイクルを経るにしたがって,初期固有表現リストによる固有表現抽出の性能(F値)が徐々に改善されるという結果が得られた.この結果により,少量の初期知識と大量の人手未解析コーパスを用いたブートストラップ法のアプローチが,日本語の固有表現のまとめ上げの問題においても,ある程度有効に機能することが確認できた.Approaches to named entity recognition that rely on hand-crafted rules and/or supervised learning techniques have limitations in terms of their portability into new domains as well as in the robustness over time. For the purpose of overcoming those limitations, this paper evaluates named entity chunking and classification techniques in Japanese named entity recognition in the context of minimally supervised learning. This experimental evaluation demonstrates that the minimally supervised learning method proposed here improved the performance of the seed knowledge on named entity chunking and classification. We also investigated the correlation between performance of the minimally supervised learning and the sizes of the training resources such as the seed set as well as the unlabeled training data.