著者
黒橋 禎夫 長尾 真
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.33, no.8, pp.1022-1031, 1992-08-15
被引用文献数
34

日本語情報処理において未解決のまま放置されている問題の1つに 長い文を正しく構文解析することがほとんどできないという問題がある文が長くなる主な原因は 1文中に多くの内容が並列的に述べられているところにあるしたがって このような並列する構造を正しく認識できれば 長い文も短くすることができ 文の解析が正しくできる可能性が高くなる多くの文において 並列する部分は何らかの意味において類似しているそこで 文中の並列構造を類似した2つの文節列としてとらえ これをダイナミックプログラミングの手法によって発見することを実現した並列構造としては 名詞句の並列のほかに いわゆる連用中止法といわれている述語句の並列等を対象としたまず 日本語文を文節ごとに区切り すべての文節対について類似度を計算するそして 並列の存在を示す助詞や連用中止などの前後において バランスのとれた並列構造を優先すること 文を意味的に区切っているある種の表現をこえて並列の範囲が広がる可能性は少ないこと 並列構造の直後に「など」のような語が現れやすいこと 等を考慮に入れた上で 類似度の総和が最も大きい2つの文節列を求め これを並列構造の範囲とする方法を考案した180文に対して実験を行ったところ この方法によって82%の精度で並列構造を推定することができた
著者
黒橋 禎夫 荒牧 英治
出版者
一般社団法人 情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.55, no.8, pp.326-330, 2005
参考文献数
12

計算機パワーの増大と計算機ネットワークの発展に伴い, 電子テキストが遍在する時代となった。これに伴い, 人手で翻訳規則を与えるのではなく, 電子的対訳データに基づく統計翻訳, 用例ベース翻訳の研究開発が急速に進展している。これの現状, 差異を議論し, さらに, 機械翻訳の自動評価尺度, 評価型ワークショップなどについても説明する。
著者
中村 俊久 黒橋 禎夫 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.47, pp.89-96, 1994-05-27
被引用文献数
2

自然言語処理において、形態素解析はべた書き文からあらゆる可能な単語を抽出しなければならないので、日本語単語の高速辞書検索は必要不可欠なことである。そこで本検索法では、まず登録する単語を部分文字列にわけ、それぞれわけられた文字列に単語の長さ情報をもたせて登録していくことを考えた。これにより辞書検索を部分文字列で行なうことができ、素早く単語の長さ情報を得て目的とする単語までスキップすることができるので、むだな辞書引き動作をなくすことができた。したがって、部分文字列を利用する簡単なシステムとなり、データ構造にはパトリシアを用いてまたデータの検索・挿入・削除にはハッシュ法を用いた高速な検索方法を提案する。なお、本検索法を用いた日本語形態素解析システム(MAN?)で、従来のシステム(MAN?m)との解析処理時間を比べると、かなり高速化できたことを確認した。It is important to realize high-speed retrieval method, because all possible words must be extracted from solid Japanese written sentences in Japanese morphological analysis. We intend to separate words to partial character string, then record them in the dictionary with character length information. It is possible to extract words quickly by using character length information, and remove useless retrieval action. For estimating this method, we build a simple retrieval system which makes use of partial character string information. In this system, we used Patricia as the data structure, and hashing for retrieval, registration, and deletion of words. JUMAN-NK, which uses our hi-speed retrieval system, can do Japanese morphological analysis 2.7 times as fast as the current system JUMAN-mcc.
著者
鍜治 伸裕 黒橋 禎夫
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.11, no.1, pp.81-106, 2004-01-10
被引用文献数
4

言い換え処理は, 様々な自然言語処理アプリケーションで必要とされている非常に重要な技術である. 言い換え処理の一つとして, 本論文では「名詞+格助詞+動詞」という形の迂言表現と重複表現を国語辞典を用いて認識し, さらにそれらを言い換える手法を提案する. 迂言表現とは, 動詞が動作を表していない表現や, 名詞が動作の主体や対象を表わさずに動作の状態を表している表現のことである. そして重複表現とは, 動詞と名詞の問に意味の重複がある表現のことである. これらの表現には, 多くの場合, 同じ意味をより簡潔な形であらわした表現が存在する. 提案手法の認識処理と言い換え処理の精度を二人の被験者が判断したところ, 認識処理の精度は, 平均して適合率78%, 再現率52%であった. また, 言い換え処理の精度は平均して91%であった.
著者
黒橋 禎夫 日笠 亘
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.44, no.3, pp.184-189, 2001
被引用文献数
2 1

本稿では京都大学附属図書館における自動レファレンス・サービスのプロトタイプシステムについて述べる。本システムは2つの知識ベースを利用している。1つは国立国会図書館分類法に対応する木構造データベースで,「~に関する本を探しています」などのレファレンス・サービスにおける典型的な質問に答えるためのものである。もう1つは自然言語で記述された知識ベースで,レファレンス・サービスによせられる広範な質問に柔軟に対応するためのものである。本システムは,従来の情報検索システムのように検索に対して答えを1回だけ返すというものではなく,ユーザとの対話を行う機能を備えている。
著者
宮森 恒 赤峯享 加藤 義清 兼 岩憲 角 薫 乾 健太郎 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.103-108, 2007-07-25
被引用文献数
2

本稿では、情報の信頼性を自然言語処理に基づいて分析する際に必要となる評価用データおよびプロトタイプシステム WISDOM について述べる。われわれは、ウェブ上のテキストを主な対象として、情報信頼性を分析することを目指したプロジェクトを 2006年 4月より進めている。本プロジェクトでは、ウェブ上の情報の信頼性を、情報内容、情報発信者、情報外観、社会的評価といった4つの基準で捉えることを提案しており、これらを述語項構造を単位とする自然言語処理によって論理的に分析・組織化することを目指している。本稿で述べる評価用データは、これら種々の分析処理の学習・検証用データとして構築されたものであり、時事問題、医療問題等の 20 トピックを選定し、各 100 ウェブページを収集して、各評価尺度のデータを人手で付与したものである。また、情報信頼性を多角的に評価するプロトタイプシステム WISDOM を開発した。本システムを用いて上記評価尺度で条件を様々に変化させて情報閲覧することにより、興味のトピックについて、信頼できる情報をより確実に見極めることができるようになる。Evaluation data and a prototype system named WISDOM used for analyzing information credibility based on natural language processing are described. Our group started the Information Credibility Criteria project in April, 2006, mainly to analyze the credibility of information (text) on the Web. The project proposes to capture information credibility based on four criteria (content, sender, appearance, and social valuation) and aims to analyze and organize them logically using natural language processing based on predicate argument structure. The evaluation data were developed as learning and verifying data for these various analysis modules, and were composed of manually-annotated data based on each evaluation criteria about pre-selected 20 topics such as current events and medical issues with 100 pages per topic being collected from the Web . The prototype system WISDOM was developed to provide information credibility from different perspectives. Users will be able to find credible information more reliably by browsing information using different evaluation criteria and conditions provided by the system.
著者
久保田 秀和 黒橋 禎夫 西田 豊明
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 (ISSN:09151915)
巻号頁・発行日
vol.86, no.8, pp.600-607, 2003-08-01
被引用文献数
4

本論文では,知識カードを用いた分身エージェントの実現手法を提案し,EgoChatシステムとして実装した.分身エージェントとは作成者本人の代理として任意のユーザと会話可能なエージェントである.提案手法では分身エージェントの会話コンテンツを知識カードと呼ばれる意味的なまとまりをもつ文章断片を用いて構築し,分身エージェントの発話とユーザの発話とを同様の扱いが可能な知識カードとして扱う.知識カードを用いた会話生成は文章断片の組合せによって行われるため,分身エージェント作成者にとってエージェントとユーザとの間で行われる会話内容を予測することはたやすく,会話生成のためのコンテンツ作成作業が容易である.また,会話型エージェントが実社会で利用されるためには利用者からの反応や状況の変化に応じた会話コンテンツの継続的な改訂作業が必要となるが,提案手法では分身エージェントがユーザとの間に行った会話を会話ログとして記録し作成者本人ヘフィードバックすることによって,会話コンテンツの改訂作業を支援する.
著者
柴田 知秀 姜 ナウン 黒橋 禎夫
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.224-232, 2010 (Released:2010-01-06)
参考文献数
13

The recent explosive increase of Web pages has made it possible for us to obtain a variety of information with a search engine. However, by some estimates, as many as 40% of the pages on the Web are duplicates of the other pages. Therefore, there is a problem that some search results contain duplicate pages. This paper proposes a method for finding similar pages from a huge amount of Web pages: hundred million Japanese Web pages. Similar pages are defined as two pages that share some sentences, and are classified into mirror pages, citation pages and plagiaristic pages, etc. First, in each page, its content region is extracted since sentences in a non-content region do not tend to be utilized for the similar page detection. From the content region in each page, relatively long sentences are extracted. This is because two pages tend to be relevant when they share relatively long sentences. A pair of pages that has the identical sentences is regarded as similar pages. Next, similar pages are classified based on several information such as an overlap ratio, the number of inlinks/outlinks, and the URL similarity. We conducted the similar page detection and classification on the large scale Japanese Web page collection, and can find some mirror pages, citation pages, and plagiaristic pages.
著者
宮森 恒 赤峯 享 加藤 義清 兼岩 憲 角 薫 乾 健太郎 黒橋 禎夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.158, pp.103-108, 2007-07-17

本稿では,情報の信頼性を自然言語処理に基づいて分析する際に必要となる評価用データおよびプロトタイプシステムWISDOMについて述べる.われわれは,ウェブ上のテキストを主な対象として,情報信頼性を分析することを目指したプロジェクトを2006年4月より進めている.本プロジェクトでは,ウェブ上の情報の信頼性を,情報内容,情報発信者,情報外観,社会的評価といった4つの基準で捉えることを提案しており,これらを述語項構造を単位とする自然言語処理によって論理的に分析・組織化することを目指している.本稿で述べる評価用データは,これら種々の分析処理の学習・検証用データとして構築されたものであり,時事問題,医療問題等の20トピックを選定し,各100ウェブページを収集して,各評価尺度のデータを人手で付与したものである.また,情報信頼性を多角的に評価するプロトタイプシステムWISDOMを開発した.本システムを用いて上記評価尺度で条件を様々に変化させて情報閲覧することにより,興味のトピックについて,信頼できる情報をより確実に見極めることができるようになる.
著者
柴田 知秀 加藤紀雄 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.3, pp.1451-1464, 2008-03-15
被引用文献数
6

近年の計算機・ネットワーク環境の進歩により,膨大な映像アーカイブが蓄積されるようになった.本研究では作業教示映像である料理映像を具体的題材とし,料理映像に現れる食材の物体モデルを自動学習し,それを用いて物体認識を行う手法を提案する.まず,物体がアップになっている画像を抽出し,その画像における注目領域を決定する.次に,画像の周辺の発話から重要な単語をキーワードとして抽出し,注目領域と対応付ける.このような注目領域とキーワードのペアを大量に収集することにより,物体モデルを構築する.物体モデルが構築された後,物体モデルの色情報と談話構造に基づく単語の重要度を考慮することにより,物体認識を行う.2 つの料理番組,計約96 時間分の映像から物体モデルを構築したところ,約100 食材の物体モデルが構築でき,その精度は77.8%であった.また,そのモデルを利用して物体の認識を行ったところ,精度はF 値で0.727 であった.Recent years have seen the rapid increase of multimedia contents with the continuing advance of information technology. We focus on cooking TV videos, which are instruction videos, and propose a method for acquiring object models of foods and performing object recognition based on the acquired object model. Close-up images are first extracted from image sequences, and an attention region is determined on the close-up image. Then, an important word is extracted as a keyword from utterances around the close-up image, and is made correspond to the close-up image. By collecting a set of close-up image and keyword from a large amount of videos, we can acquire the object model. After that, object recognition is performed based on the acquired object model and discourse structure. We conducted an experiment on two kinds of cooking TV programs. We acquired the object model of around 100 foods and its accuracy was 77.8%. The F measure of object recognition was 0.727.