著者
北 研二 山口 直宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.127-134, 1998-11-05
被引用文献数
1

World Wide Web (WWW)上には、膨大なテキスト情報が蓄積されており、同一の内容を複数の言語で提供しているページも数多く存在する。これらのWWW上の対訳ページを利用し、対訳コーパスを自動的あるいは半自動的に構築することができれば、コーパス作成に要する人的資源、時間、費用などを大幅に削減することができる。我々は、WWWから日本語と英語の対訳データを自動収集する実験的なシステムを構築した。本稿では、このシステムの概要について紹介する。The World Wide Web provides almost unlimited accesses to the textual documents and it also contains parallel pages in many languages. In this paper, we focus on the problem of automatically compiling multilingual translations from the Web. As a first step towards Web-based automatic multilingual corpus creation, we developed an experimental system for compiling Japanese and English translation pairs from the actual Web page documents. In this paper, we describe the system architecture as well as some experimental results.
著者
永井 明人 北 研二 花沢 利行 川端 豪 鹿野 清宏 森元 逞 嵯峨山 茂樹 榑松 明 鈴木 忠 岩崎 知宏 中島 邦男
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.9, pp.723-729, 1994-09-01
被引用文献数
1

本稿は、大語彙の連続音声認識を実時間で処理するための、HMM-LR連続音声認識装置の設計、処理性能について述べる。HMM-LR法は、一般化LR構文解析により入力音声データ中の音素を予測し、予測された音素の存在確率をHMM音素照合により調べることで、音声認識と言語処理を同時進行させる方式であり、高精度で効率的な処理系を構成することができる。処理量が極めて大きな継続時間制御付きトレリス計算を伴うHMM-LR連続音声認識を実時間で実行するために、本装置は種々の高速化手法を33個のDSPを用いて実現した。その結果、連続文節発声の入力音声に対し、入力文の長さに依らずに、発声終了後から2〜3秒ですべての認識処理を終了する処理速度を達成した。
著者
北 研二 林 敏浩 矢野 米雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. ET, 教育工学 (ISSN:09135685)
巻号頁・発行日
vol.93, no.60, pp.67-74, 1993-05-22
被引用文献数
1

従来のAI手法に基づいた言語学習システムでは、システムの扱える領域が狭い範囲に限られており、システムの持っている知識も人手に頼って作られてきたために統一性に欠けるなど様々な問題点を抱えていた。本稿では、従来型のシステムの持つこれらの問題点を打開することのできる、新しい言語学習のパラダイムーコーパスに基づいた言語学習(corpus-based language learning)-を提案する。「コーパスに基づいた言語学習」は様々なテーマを包含するきわめて肥沃なパラダイムであるが、本稿では特にコーパスからの知識獲得に焦点を絞る。我々は、「効率的な言語表現」と呼ばれる概念を導入し、これらの表現をコーパスから自動抽出する方法について述べる。「効率的な言語表現」は、人間の言語活動において広い範囲をカバーすることのできる表現であり、言語学習システムが初心者にまず教えなければならない重要な表現であるといえる。
著者
北條 奈緒美 獅々堀 正幹 北 研二
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.108, no.408, pp.59-64, 2009-01-19
被引用文献数
1

近年,ユーザが入力した質問文に対して大量の知識源から回答を得る質問応答システムの研究が注目されている.特にインターネットの普及により,Googleに代表されるWWW検索エンジンを用いて,WWW空間から回答を探す技術が研究されている.これらのシステムでは,質問文内から抽出されたキーワードをWWW検索エンジンに入力し,その検索結果から回答を出力している.本稿では,質問文からキーワードを抽出する際に起こる,用語の過分割問題に着目し,WWW検索エンジンを用いた質問文内の用語特定手法を提案する.本手法は,学習フェーズおよび用語特定フェーズから構成される.まず学習フェーズでは,学習データの各用語候補に対して,WWW検索エンジンでの検索結果(サマリ)から継続度,品詞,文字種などの特徴量を抽出し,Support Vector Machine(SVM)を用いて用語判定モデルを作成する.次に,用語特定フェーズでも同様に特徴量を抽出した後,用語判定モデルを用いて用語を特定する.実際に,NTCIR4-QAC2の質問文に対して本手法で用語特定を行った結果,従来手法と比較して約55%の質問文に対して用語特定精度の向上が認められた.
著者
福井 義和 北 研二 永田 昌明 森元 逞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.27, pp.111-118, 1996-03-14
参考文献数
7
被引用文献数
2

確率・統計的手法に基づいた対話のモデル化について研究し、このような対話モデルを大規模言語データベースであるコーパスから自動的に生成するための実験を行なった。実験に用いたコーパスは、ATR対話コーパスであり、各発話には話者ラベルおよび発話行為タイプ(FT; Illocutionary Force Typ)が付与されている。Ergodic HMMおよびALERIGIAアルゴリズムを用いて、話者ラベルおよびIFTの系列をモデル化することにより、話者の交替や質問・応答・確認といった会話の基本的な構造を確率・統計的にモデル化することができた。In the work described here, we automatically deduce dialogue structures from a corpus with probabilistic methods. Each utterance in the corpus is annotated with a speaker label and an utterance type called IFT (Illocutionary Force Type). We use an Ergodic HMM(Hidden Markov Model) and the ALERGIA algorithm, an algorithm for learning probabilistic automata by means of state merging, to model the speaker-IFT sequences. Our experiments successfully extract typical dialogue structures such as turn-taking and speech act sequencing.
著者
柘植 覚 獅々堀正幹 黒岩 眞吾 北 研二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.1, pp.59-67, 2003-01-15
被引用文献数
5

近年のインターネット技術の発展により,World Wide Web(WWW)を代表とする個人で扱えるオンラインテキストデータの量が増加している.それにともない,莫大なテキストデータ中から必要な情報を検索する機会も増え,情報検索に関する研究への関心が高まっている.情報検索システムとして,検索対象文書と検索質問を多次元ベクトルで表現するベクトル空間モデル(VSM: Vector Space Model)が広く使用されている.VSMを用いた検索システムの精度を改善する手法の1つとして,適合性フィードバック手法(Relevance Feedback)が提案されている.この手法は,VSMを用いた1次検索結果に対し,利用者が適合・不適合の判断を行いその情報をシステムにフィードバックし,再検索を行うことで検索精度を向上させている.本論文では,この利用者からのフィードバック情報を検索対象文書全体の適合・不適合の判別に用いた.判別を行う識別器として,従来手法より,判別の能力が高く,汎化性に優れたサポートベクターマシン(SVM: Support Vector Machine)を用いた.このフィードバック手法をサポートベクターマシンによる適合性フィードバックとして本論文で提案する.日本語テストコレクション(BMIR-J2)を用いた類似文書検索実験において,提案手法は従来手法と比較し,利用者が判断し,システムにフィードバックされる文書数が50の場合,24.0%の検索精度改善を得ることが可能であった.With the rapid growth of online information, e.g., the World Wide Web(WWW), a large collection of full-text documents is available andopportunity for getting a useful piece of information is increased.Information Retrieval (IR) is now becoming one of the most importantissues for handling large text data.Relevance feedback is a technique that improves retrieval performancebased on relevance judgments from the user. Here, we propose therelevance feedback method using Support Vector Machine (SVM).Experiment results on Japanese test collection BMIR-J2 show that theproposed method is useful feedback method comparing to theconventional feedback method. Especially, the proposed method improvedthe performance of IR system.