著者
北村 美穂子 下畑 さより 介弘 達哉 池野 篤司 坂本 仁 折原 幾夫 村田 稔樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.67, pp.97-102, 2008-07-10

近年インターネットの普及と価値観の多様性の拡大により,様々なサービスやコンテンツが提供される時代になっているが,多種多様化しているサービスやコンテンツは様々な言葉や形式で表現されているため,従来のキーワード型の検索サービスだけでは自分のニーズに合ったものを見つけることができない.我々は,対話システムにおいて,「対話の中で徐々に掘り下げた質問を繰り返すことにより,ユーザの真のニーズや価値観を引き出す」 ラダリング手法を用いることによりシステムがユーザに質問を投げかけ,ユーザが単独では表現できなかったキーワードや表現を引き出し,多種多様でかつ大量のサービスやコンテンツの中からそれとマッチするものを探し出す 「ラダリング型検索サービスシステム」 を構築した.本稿は,対話エンジン部を中心に本システムの全体概要を説明する.It has become common to search needed services and contents using the Internet, but it is difficult to find exactly what one is looking for through keywords as each service is described in just too many ways. We developed "Laddering" Search Service System that matches users with the search targets by communicating with the users through interviews. The system consists chiefly of the laddering dialog engine employing "laddering method" which enables the engine to ask questions to users and extract keywords and expressions that users probably would not have been able to express on their own. This paper describes the outline Laddering Search Service System, focusing the laddering dialog engine.
著者
北村 美穂子 下畑 さより 介弘 達哉 池野 篤司 坂本 仁 折原 幾夫 村田 稔樹
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.67(2008-NL-186), pp.97-102, 2008-07-10

近年インターネットの普及と価値観の多様性の拡大により,様々なサービスやコンテンツが提供される時代になっているが,多種多様化しているサービスやコンテンツは様々な言葉や形式で表現されているため,従来のキーワード型の検索サービスだけでは自分のニーズに合ったものを見つけることができない.我々は,対話システムにおいて,「対話の中で徐々に掘り下げた質問を繰り返すことにより,ユーザの真のニーズや価値観を引き出す」 ラダリング手法を用いることによりシステムがユーザに質問を投げかけ,ユーザが単独では表現できなかったキーワードや表現を引き出し,多種多様でかつ大量のサービスやコンテンツの中からそれとマッチするものを探し出す 「ラダリング型検索サービスシステム」 を構築した.本稿は,対話エンジン部を中心に本システムの全体概要を説明する.
著者
北村 美穂子 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.1, pp.3-25, 2006

高精度の機械翻訳システムや言語横断検索システムを構築するためには, 大規模な対訳辞書が必要である.文対応済みの対訳文書に出現する原言語と目的言語の単語列の共起頻度に基づいて対訳表現を自動抽出する試みは, 対訳辞書を自動的に作成する方法として精度が高く有効な手法の一つである.本稿はこの手法をベースにし, 文節区切り情報や対訳辞書などの言語知識を利用したり, 抽出結果を人間が確認する工程を設けたりすることにより, 高精度で, かつ, カバレッジの高い対訳表現抽出方法を提案する.また, 抽出にかかる時間を削減するために, 対訳文書を分割し, 抽出対象とする文書量を徐々に増やしながら確からしい対訳表現から段階的に抽出していくという手法についても検討する.8,000文の対訳文書による実験では, 従来手法は精度40%, カバレッジ79%であったのに対し, 言語知識を利用した提案手法では, 精度89%, カバレッジ85%と向上した.さらに人手による確認工程を設けることにより, 精度が96%, カバレッジが85%と向上した.また, 16,000文の対訳文書による実験では, 対訳文書を分割しない方法では抽出時間が約16時間であったのに対し, 文書を4分割する方法では, 約9時間に短縮されたことを確認した.
著者
北村 美穂子 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.4, pp.727-736, 1997-04-15
参考文献数
9
被引用文献数
30

特定分野の文書を翻訳する場合,その分野に特有の専門用語や定型表現の訳語が適切でないと翻訳結果の内容を把握することができない.専門用語や定型表現の訳語は翻訳品質を決める重要な要因であり,それらに関する対訳辞書の構築技術が求められている.本論文は,文対応の付いた対訳コーパスから共起する単語列を対応付けることにより,対訳表現を自動的に抽出する方法を提案する.各言語の単語列が独立して出現する回数とその単語列組が対訳文内に同時に出現する回数から単語列組の対応関係の強さを計算し,対応関係の強い単語列組から順に対訳表現として抽出する.出現回数による閾値を徐々に下げながら計算対象を増やしていく方法により,単語列の組合せ爆発を仰えることができ,高精度で対訳表現を抽出することができる.分野の異なる3種類のコーパスを用いた実験では,閾値が高い場合では100%の適合率で抽出でき,閾値が低下しても80?90%の適合率で対訳表現が抽出できるという結果が得られた.As for translation in specific fields,technical terms and idiomatic expressions appear frequently,which should be translated appropriately to get comprehensible translation.It is important to find a systematic technique to compile or to augment a translation dictionary for each specific field.This paper proposes a method of extracting translation patterns automatically from parallel corpus.Translation candidates of pairs of Japanese and English word sequences are evaluated by a similarity measure between the sequences defined by their co-occurrence frequency and independent frequency.The pairs of the sequences with higher similarity value are identified in earlier stage.An iterative method with gradual threshold lowering is proposed for preventing combinational explosion and for getting a high quality translation dictionary.The method is tested with parallel corpora of three distinct domains.The result achieved 100% on high threshold,and preserved 80縲鰀90% as the decline of the threshold.