著者
内元 清貴 黒橋 禎夫 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.114, pp.143-150, 1996-11-18
被引用文献数
1

文脈や状況を考慮した日本語文生成システムを構築するために、語彙選択の過程は必要不可欠である。本稿では、計算機上で柔軟な語彙選択を実現するために語彙選択を決定する様々な要因を具体的なパラメータとして取り出し、選択の手がかりとして用いる。本稿で提案する語彙選択の枠組には、次のような利点がある。1.本枠組では、概念と表層の単語が一対多に対応すると考えるため、一つの概念から様々な要因に応じて語彙を選択できる。例えば、「言われる」と「仰る」の違いのように単語そのものが異なる場合の語彙選択も扱える。これは従来の枠組では扱えなかった。2.要因の性質を利用することによって、ある単語の選択が同じ文内の他の単語の選択に影響を及す現象も扱える。Lexical selection is a prerequisite to construct a system for generating Japanese text that takes into account context and circumstances. This paper uses causes and their properties as search keys to achieve flexible lexical selection. The proposed framework for lexical selection has the following advantages: 1. The framework enables a wide choice of words representing a certain concept, unlike in other systems, because it assumes that each concept corresponds to several words, allowing the selection of suitable words given a set of causes. 2. Lexical selection of words is influenced by the selection of other words in the same sentence, taking into account the scopes of the words' contexts and their individual causal properties.
著者
黒橋 禎夫
出版者
京都大学
雑誌
特定領域研究(C)
巻号頁・発行日
2000

自然言語の文章では,人間にとって理解可能な範囲で頻繁に省略や代名詞化がおこる.この問題は,文章を単語集合として扱っている現在の情報検索でさほど表面化しないが,今後,情報検索を高度化していくためには,省略・代名詞に対する照応詞の同定が必須の要素技術となる.省略・代名詞解析には,用言(動詞,形容詞,名詞+判定詞)ごとに,どのような名詞が主語,目的語(格要素)になるかという情報をまとめた格フレーム辞書が必要となる.しかし,数千から数万の用言について,専門分野における特殊な用法までカバーする大規模で実用的な格フレーム辞書はこれまでのところ存在しなかった.格フレーム自動構築における最大の問題は,用言の意味の多義性である.たとえば「(友達に)なる」と「(病気に)なる」,「(塩,調味料などを)加える」と「(砲撃を)加える」では,同じ動詞でも格フレームのパターンがまったく異なる.この多義性を解消しなければ,格フレームは自動的には構築できない.ここでのポイントは,用言の意味を決定づける重要な名詞は用言の直前にあり,かつそれは文章中で省略されることは比較的少ない,という点である.そこで,用言単独ではなく,用言とその直前の名詞のペア,すなわち「友達になる」や「病気になる」を格フレームの単位とし,そのまわりに他にどのような格要素が存在するかを大量のテキストから学習するという手法を考案した.新聞記事を対象とし,約370万文から格フレームを学習したところ,9,900用言について平均6.0個の格フレームが学習された.さらに,この格フレーム辞書を用いて文章中の省略要素を同定する実験を行ったところ,70%程度の正解率が得られた.この手法は言語独立,分野独立であり,必要となるのはある分野の大量のテキストだけである.今後,ゲノム文献を対象としてこの手法の有効性を確認し,これを検索の高度化につなげていく予定である.
著者
加藤 義清 黒橋 禎夫 江本 浩
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会第二種研究会資料 (ISSN:24365556)
巻号頁・発行日
vol.2006, no.SWO-014, pp.01, 2006-11-21 (Released:2021-09-17)

従来は一部の機関,著者が特権的に有していた情報発信という機能が,ウェブの登場により一般の個人に開放されることとなった.特に,近年では消費者発信メディアの普及に伴いその傾向は顕著となっている.従来では得られなかった情報が得られるようになり,その利用価値は高まっている.その反面,信頼性という観点から情報を評価,選別し利活用することが難しくなっているのも事実である.本稿では,情報の信頼性について,関連する概念について整理し,ウェブ上の情報の信頼性評価を行う上での課題を挙げて要素技術をまとめる.
著者
村田 真樹 山本 専 黒橋 禎夫 井佐原 均 長尾 真
出版者
一般社団法人 人工知能学会
雑誌
人工知能 (ISSN:21882266)
巻号頁・発行日
vol.15, no.3, pp.503-510, 2000-05-01 (Released:2020-09-29)

In conventional studies, metonymy interpretation has been carried out by using a hand-built database that includes relationships between words concerned with metonymy, such as a special knowledge base of metonymy and a semantic network. However, these relationships between words are diverse, and it is difficult to manually make a detailed database. Therefore, in this paper we interpret metonymy by using examples in the form of noun phrases such as "Noun X no Noun Y (Noun Y of Noun X)" and "Noun X Noun Y, " instead of a hand-built database. This method has two advantages. One is that a hand-built database of metonymy is not necessary because we use examples. The second is that we can interpret newly-coined metonymies by using a new corpus. In experiments using this method on 23 metonymy sentences taken from textbooks, we correctly judged 17 sentences to be metonymy sentences and correctly interpreted 7 of them.
著者
清田 陽司 黒橋 禎夫 木戸 冬子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.4, pp.127-145, 2004-10-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
2 2

質問応答システムによって収集された大量のユーザ質問文を含むコーパス中から換喩表現とその解釈表現を自動抽出し, それを質問応答システム「ダイアログナビ」におけるユーザ質問文とテキストのマッチングに応用する方法を提案する.具体的には, 換喩表現 (例: GIFを表示する) とその解釈表現 (例: GIFの画像を表示する) のペアをダイアログナビの同義表現辞書に登録することによって, ユーザ質問文とテキスト文の問の係り受け関係のずれを解消する.抽出された換喩表現・換喩解釈表現ペアについて評価を行ったところ, 大半は適切なものであった.また, テストセットを用いて実験を行った結果, 提案手法がマッチング精度を改善することがわかった.
著者
松岡 正男 村田 真樹 黒橋 禎夫 長尾 眞
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69(1995-NL-108), pp.37-42, 1995-07-20

テキストや談話を理解する上で,照応表現は非常に大きな役割を果たしている.本研究では,これまであまり研究されていなかったが,高品質の自然言語理解システムを実現するためにはその処理が必要不可欠である後方照応表現を取り扱った.具体的には,日本語の表層表現を手がかりとして後方照応表現の照応詞と先行詞の抽出を行った.抽出のためのルールは,まず緩やかなパターンで後方照応表現の候補文を取り出し,それらを詳細に調べることによって作成した.テストサンプルに対する実験の結果,後方照応表現の認定は適合率47.7%,再現率94.2%,先行詞の正解率は71.2%であった.
著者
柴田 知秀 加藤紀雄 黒橋 禎夫
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.3, pp.1451-1464, 2008-03-15

近年の計算機・ネットワーク環境の進歩により,膨大な映像アーカイブが蓄積されるようになった.本研究では作業教示映像である料理映像を具体的題材とし,料理映像に現れる食材の物体モデルを自動学習し,それを用いて物体認識を行う手法を提案する.まず,物体がアップになっている画像を抽出し,その画像における注目領域を決定する.次に,画像の周辺の発話から重要な単語をキーワードとして抽出し,注目領域と対応付ける.このような注目領域とキーワードのペアを大量に収集することにより,物体モデルを構築する.物体モデルが構築された後,物体モデルの色情報と談話構造に基づく単語の重要度を考慮することにより,物体認識を行う.2 つの料理番組,計約96 時間分の映像から物体モデルを構築したところ,約100 食材の物体モデルが構築でき,その精度は77.8%であった.また,そのモデルを利用して物体の認識を行ったところ,精度はF 値で0.727 であった.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014
被引用文献数
3

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.
著者
萩行 正嗣 柴田 知秀 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.185, pp.45-52, 2008-05-15
参考文献数
14
被引用文献数
1

近年、インターネット環境の普及とともに数多くの人がブログを通じて情報を発信するようになっている。それに伴い、大量に存在するブログから面白いものを探し出すことが困難になってきている。本研究では表層・語彙的特徴量に基づき、ブログの面白さを分析する手法を提案する。まず、ブログの記事から文字長などの表層的特徴量や評価表現などの語彙的特徴量といった様々な特徴量を抽出する。そして,これらを特徴量として与えてSVRを用いた機械学習を行なうことで、ブログの面白さを推定する。独自に設置したブログを用いて収集した249件のブログ記事とそれを採点したものを用いて実験を行なったところ,ベースラインを上回る精度を達成することができた。また、面白さの個人差の問題についてはドメインアダプテーションを用いることで対処した。最後に、学習されたモデルからブログの面白さの要因について考察を行なった。
著者
新 隼人 坂田 亘 田中 リベカ 黒橋 禎夫
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.1, pp.1-13, 2020-06-26

タスク志向の自動対話システムであってもユーザが雑談のような発話を入力することは少なくない.特に自治体などが運営する公的な対話システムにおいては,それに対して不適切な応答を行わないようにすることは重要である.本研究では,実サービスのクエリログおよびクラウドソーシングで集めたデータを利用して,対話システムの不適切発話の調査を行った.調査を基に不適切発話を「品行方正でない発話」,「システムの設定を逸脱した内容の発話」の 2 つに分類し,それらに対するフィルタリング手法を提案した.さらに,Twitter から収集したデータにフィルタリングを適用し,得られたデータで対話システムを学習した.その結果,ベースラインに比べて品行方正でない発話が減少し,システムの設定の逸脱も見られなくなった.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.4, pp.67-81, 2007-07-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
1 2

本稿では, 格フレームに基づき構文・格解析を統合的に行う確率モデルを提案する.格フレームは, ウェブテキスト約5億文から自動的に構築した大規模なものを用いる.確率モデルは, 述語項構造を基本単位とし, それを生成する確率であり, 格フレームによる語彙的な選好を利用するものである.ウェブのテキストを用いて実験を行い, 特に述語項構造に関連する係り受けの精度が向上することを確認した.また, 語彙的選好がどの程度用いられているかを調査したところ, 60.7%という高い割合で使われていることがわかり, カバレージの高さを確認することができた.
著者
笹野 遼平 河原 大輔 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1207-1233, 2014-12-15 (Released:2015-03-15)
参考文献数
31

日本語において受身文や使役文を能動文に変換する際,格交替が起こる場合がある.本論文では,対応する受身文・使役文と能動文の格の用例や分布の類似性に着目し,Web から自動構築した大規模格フレームと,人手で記述した少数の格の交替パターンを用いることで,受身文・使役文と能動文の表層格の対応付けに関する知識を自動獲得する手法を提案する.さらに,自動獲得した知識を受身文・使役文の能動文への変換における格交替の推定に利用することによりその有用性を示す.
著者
黄道三 黒橋 禎夫 長尾 眞
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.77(1994-NL-103), pp.121-128, 1994-09-15

実際文では,非文ともいえるほどの文も使われる場合があり,文を限定されたルールによって解析するには限界がある.韓国語は語順が自由で,不規則が多い言語であるため,決まったルールでは解析できない場合が多い.最近,用例パターンとの類似性に基づいて日本語文を解析するシステム「KNP」が開発され,構文解析において96%という高い成功率を表している.これは,長い日本語文には並列構造になっている文節が多いので,これらを先にまとめることによって,長い文を簡単な構造に解析することができるという考え方に基づいている.日本語と韓国語とは構文構造と語彙形成形熊とにおいて似ているので,KNPは韓国語にもうまく働くと考え,KNPのハングル化()を試みた.330文に対して実験を行なったところ,韓国語の長い文にも十分に有効であることがわかった.また,日本語180文とそれを訳した韓国語文を各々KNPとhKNPで構文解析し,日本語から韓国語への対照分析を行なった結果,すべての文において文節の順序が一致しており,74文(%)の構文構造が完全に一致していることがわかった.
著者
西田 豊明 河原 達也 黒橋 禎夫 中野 有紀子 角 康之 大本 義正 黄 宏軒
出版者
京都大学
雑誌
基盤研究(S)
巻号頁・発行日
2007

本研究の目的は,高度な会話エージェントシステム開発のためのさまざまなチャレンジが円滑にできるようにするための研究基盤と方法論を確立することである.研究成果は,会話エージェントシステム構築用プラットフォーム,コンポーネント技術,没入型WOZを用いた会話エージェントシステム開発環境,会話コーパスに基づく会話行動モデル開発方法論の開発,コンテンツ制作支援システム,評価手法の8項目から構成される包括的なものである。
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.1, pp.67-73, 2006-01-13
被引用文献数
28 25

本稿では、高性能計算環境を利用して、Webから大規模テキストコーパスを抽出し、格フレームを構築する方法について述べる。格フレームは人間のもっている常識的な知識のうちもっとも基本的なものであり、これを自動構築するには大規模かつ偏りのないテキストが必要となる。そこで、Webから日本語文を抽出することによって大規模コーパスを作成し、それを用いて格フレームを構築するということを行う。約4億Webぺ-ジから約5億文からなるテキストコーパスを作成し、さらにこのコーパスから約9万用言からなる格フレームを構築した。これらのプロセスは、巨大なデータを扱うため1つの計算機で行えば数年を要し現実的ではないことから、約350CPUからなる高性能計算環境を利用することによって実現した。This paper describes a method of constructing a wide-coverage case frames from the Web. To obtain such knowledge, an enormous amount of balanced corpus is required. We consider the Web as a balanced corpus, and first build a huge text corpus from the Web. We then construct case frames from the corpus. It is infeasible to do these processes by one CPU, and so we employ a high-performance computing environment. The acquired corpus and case frames are extremely larger than previously built corpora and case frames. The resultant case frames contain most examples of usual use, and are ready to be applied to lots of NLP applications.
著者
馬塲康夫 新里圭司 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.4, pp.67-74, 2008-01-22
被引用文献数
3

本稿では,検索エンジン基盤TSUBAKIを使って検索されたウェブページを,ページ中の複合名詞に注目して自動的にクラスタリングするシステムについて述べる.検索エンジン基盤TSUBAKI とは 日本語ウェブページ1億件を対象にした研究用途に主眼をおいた検索エンジンである.本クラスタリングシステムは,このTSUBAKIと連係することで,数千から数万件のウェブページを分類することが可能であり,さらに,豊富な言語情報を利用した高精度な複合名詞抽出を行うことが可能である.簡単な評価実験の結果,本システムを用いることでTSUBAKIの検索結果中で下位に埋もれているウェブページに対し効率よくアクセスできること,さらには,抽出した複合名詞が有用な情報へアクセスする際に有効であることがわかった.This paper describes a system that organizes a large number of web pages retrieved from the search engine TSUBAKI into clusters according to compound nouns extracted from the pages. TSUBAKI is a search engine infrastructure that can retrieve pages from 100 million web pages. Our clustering system deeply cooperates with TSUBAKI. This enables the system to generate clusters from several thousand web pages, and to give elaborate labels to the clusters. Experimental results showed that our system users can efficiently access low-ranked web pages in a search result obtained from TSUBAKI, and that generated labels navigate the users to information that they want.
著者
中川 哲治 乾 健太郎 黒橋 禎夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.108, no.408, pp.25-30, 2009-01-19

本稿では,自動獲得されたラベル付きデータを利用して,統計的な分類器に基づく評価極性分類の精度を改善させる方法について述べる.正解ラベルの付与された訓練データは機械学習に基づく自然言語処理を行う上で非常に重要であり,これまでにラベル付きデータを自動的に収集する方法がいくつか提案されている.しかしながらそのようなデータは誤りを含んでいる可能性があるため,訓練データとして直接利用するには適さない可能性がある.そこでこの問題に対処するために,ラベルの確信度により事例の重み付けを行う方法を提案する.実験の結果,提案手法を用いて自動獲得されたラベル付きデータを利用することにより,評価極性分類の精度を向上させることができた.
著者
粟村誉 荒牧英治 河原大輔 柴田知秀 黒橋禎夫
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.14, pp.1-8, 2014-06-26

近年,膨大な量の文書が Web 上に溢れるようになるにつれ,それらから有用な情報を抽出する技術が重要になってきた.特に,Twitter などのソーシャルネットワークサービス (SNS) は地域固有の情報を含むことが多いため,文書内の地名表現がどこの地名,地域を指しているかを同定することが必要となる.これまで,このような地名曖昧性解消の問題は,語義曖昧性解消の手法を利用して,語彙情報に基づいて解かれることが多く,地名特有の手がかりが使われていない.本研究では,(1) 空間的近接性と (2) 時間的一貫性の 2 つの手がかりを用いて,地名曖昧性解消の精度向上を目指す.空間的近接性は,投稿内の地名同士は距離が近いことが多いという傾向,時間的一貫性は,一連の投稿に現れる地名はそれぞれ関連性があるという傾向をとらえるために導入する.位置情報付きツイートを用いた実験によって,2つの手がかりの有効性を確認した.