著者
松澤 和光 阿部 明典 笠原 要 金杉 友子
雑誌
全国大会講演論文集
巻号頁・発行日
vol.55, pp.224-225, 1997-09-24

「言霊(ことだま)」-古来より日本人は言葉の持つ不思議な力/能力をそう呼んで, 敬い, 大切に扱ってきた。日本語には同音異義語や, 音の組み合わせだけで意味をなす擬音語/擬態語の類が多い。また, 漢字という表意文字を使用することによって, 音のみならず視覚的に何かを訴えることのできる言語てもある。日本語はまさに「とほうもない可能性を有する天才」といえるだろう。その天才ぶりを証明するかのように, 日本には日本語の特性を利用した「言葉遊び」的なものが数多く存在する。古くは短歌の中に見られる表現技法から, 今日においてもよく見られる「しりとり」 「回文」まで, その在り様は多岐をきわめる。しかし, 昨今の科学技術文明の中, テレビ等の映像メディアの出現て, 我々現代人はこうした「言葉に対する敬虔な気持ち/ゆとり」を失って来つつあるように思われる。さて, 時代はまさにネットワーク&マルチメディア社会へ突入しようとしている。この人類が未経験の新世界の入り口に立って, 人々はある種の戸惑いや恐れを感じているのてはないか。こうした心理的障壁を取り除ぎ, 人々が科学技術と調和した豊かな社会生活を創り出していくためには, 新時代にふさわしい新しい「言葉遊び」の文化を創世していくべきではないか。当研究所では, 人と人の豊かなコミュニケーション社会を実現するため, 「言葉を工学的に取扱う技術」について研究してきた。この成果の1つの応用として, コンピュータに人間と同じような言葉遊びをさせることに成功した。この技術を利用すると, ネットワークを通じてコンピュータや見知らぬ人と色々な言葉遊びを行なえる。そこで, こうした言葉遊び文化の発展と, 技術的成果の新たな適用性を探るため, 首葉を扱う技術を利用した新しい「言葉遊び」のアイデアを, ネットを通じて募集するコンテストを開催した(図1)。このコンテストと募集結果について技術的に考察する。
著者
Bond Francis 藤田 早苗 橋本 力 笠原 要 成山 重子 Nichols Eric 大谷 朗 田中 貴秋 天野 成昭
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.1(2003-NL-159), pp.83-90, 2004-01-13

本稿では、基本語彙知識ベース構築の一環として構築した、ツリーバンク「檜」を紹介する。「檜」は、HPSGで書かれた日本語文法JaCYに基づいて辞書の語義文を解析したものであり、詳細な統語情報と意味情報の両方が付与されている。本稿では、「檜」構築の目的や理論的基盤などについて述べる。 また、「檜」の有効性を示す一例として、知識獲得の予備実験を行なった結果について報告する。
著者
笠原 要 松澤 和光 石川 勉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.7, pp.1272-1283, 1997-07-15
参考文献数
26
被引用文献数
99

人間は,単語の意味を表す「概念」間の類似性を,その単語が扱われる文脈や状況の変化に応じて柔軟に判別する.本論文では,属性とその重みより構成した概念の知識ベース(「概念ベース」)を用い,文脈や状況等を表現する単語(「観点」)を指定したときに,観点に応じて概念間の類似性を判別する方法を提案する.この方式は,概念どうしの類似性判別を行う前に,概念中の属性の重みを観点に基づいて強調することを特徴とする.概念ベースは,まず国語辞書等の語義文から自立語の出現頻度に基づいて属性とその重みを獲得し,次いで得られた概念ベースの自己参照による新たな属性の追加,および不要な属性の統計的な除去からなる精錬を行うことによって,完全に機械的に構築した.実際に作成した約4万の日常語に関する概念ベースで方式評価を行った.この結果,提案の類似性判別方式がシソーラスを用いる従来の方式に比べて有効であり,また,この判別において観点が効果的であることを明らかにした.We propose a method for measuring the semantic similarity berween words using a largescale knowledge base that is automatically constructed from machine-readable dictionaries and is self-refined.This method of measuring similarity takes into consideration the fact that similarity changes depend on situation or context,this is what we call a 'viewpoint.'A feature of this method is that certain parts of the overall concept of measured words,compared with each other,are emphasized by using the viewpoint when calculating the degree of similarity.An experimental knowledge base,which contains knowledge of 40,000 Japanese daily-used words,was employed in order to evaluate the proposed method of measurement.The similarity measurements with the proposed method were closer to those decided by human judges than were similarity measurements made using the conventional way of using a thesaurus.Moreover,it was found that consideration of the viewpoint was effective when measuring the semantic similarity.
著者
笠原 要 佐藤浩史 フランシス ボンド 田中 貴秋 藤田 早苗 金杉 友子 天野 成昭
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.1(2003-NL-159), pp.75-82, 2004-01-13

単語の意味を用いた情報処理技術の基盤となりうる基本語の言語知識ベースとして,「基本語彙知識ベース」の構築を進めている.本稿では,その構想と,中核となる2.8万の基本語の意味記述である「基本語意味データベース」の構築状況について説明する.
著者
佐藤 浩史 笠原 要 金杉 友子 天野 成昭
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.19, no.6, pp.502-510, 2004 (Released:2004-09-03)
参考文献数
26
被引用文献数
1 3

This paper proposes a new method for selecting fundamental vocabulary. We are presently constructing the Fundamental Vocabulary Knowledge-base of Japanese that contains integrated information on syntax, semantics and pragmatics, for the purposes of advanced natural language processing. This database mainly consists of a lexicon and a treebank: Lexeed (a Japanese Semantic Lexicon) and the Hinoki Treebank. Fundamental vocabulary selection is the first step in the construction of Lexeed. The vocabulary should include sufficient words to describe general concepts for self-expandability, and should not be prohibitively large to construct and maintain. There are two conventional methods for selecting fundamental vocabulary. The first is intuition-based selection by experts. This is the traditional method for making dictionaries. A weak point of this method is that the selection strongly depends on personal intuition. The second is corpus-based selection. This method is superior in objectivity to intuition-based selection, however, it is difficult to compile a sufficiently balanced corpora. We propose a psychologically-motivated selection method that adopts word familiarity as the selection criterion. Word familiarity is a rating that represents the familiarity of a word as a real number ranging from 1 (least familiar) to 7 (most familiar). We determined the word familiarity ratings statistically based on psychological experiments over 32 subjects. We selected about 30,000 words as the fundamental vocabulary, based on a minimum word familiarity threshold of 5. We also evaluated the vocabulary by comparing its word coverage with conventional intuition-based and corpus-based selection over dictionary definition sentences and novels, and demonstrated the superior coverage of our lexicon. Based on this, we conclude that the proposed method is superior to conventional methods for fundamental vocabulary selection.
著者
Bond Francis 藤田 早苗 橋本 力 笠原 要 成山 重子 Nichols Eric 大谷 朗 田中 貴秋 天野 成昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.1, pp.83-90, 2004-01-13
被引用文献数
1

本稿では、基本語彙知識ベース構築の一環として構築した、ツリーバンク「檜」を紹介する。「檜」は、HPSGで書かれた日本語文法JaCYに基づいて辞書の語義文を解析したものであり、詳細な統語情報と意味情報の両方が付与されている。本稿では、「檜」構築の目的や理論的基盤などについて述べる。 また、「檜」の有効性を示す一例として、知識獲得の予備実験を行なった結果について報告する。In this paper we present the motivation for the construction of the Hinoki treebank. It is a rich and dynamic treebank of dictionary definition sentences parsed using a Japanese HPSG. We show how the treebank is being used to build an ontology, and outline plans for further work.
著者
金杉 友子 笠原 要 稲子 希望 天野 成昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.66, pp.119-124, 2002-07-15
被引用文献数
1

意味に関する言語処理技術の基盤となりうる概念辞書である"常識概念体系"を構築する第一歩として、人々の概念的な思考で共通して利用していると推定される基本的な語の集合("基本的語彙"と呼ぶ)を選定した.選定の対象としては学研国語大辞典(9万5千見出し語)を用い、選定の尺度として、心理実験により評定される単語の馴染み深さを表す単語属性である単語親密度を用いた.過去の研究において12歳児の理解語彙数の推測値が2万5千と報告されており、別の語彙数調査結果から、同数の語彙を成人の94%が知っていると推測される.そこで、基本的語彙数を2万5千程度と定めた.国語辞典の見出し語について、過去の単語親密度に関するデータベースに含まれていない3万3千語の追加の評定実験を行い、9万5千語から親密度が高い2万7千語を基本的語彙として実際に選定した.As the first step of constructing a dictionary of word concepts, the "Commonsense Concept Database," which will be a base for language processing technologies regarding meaning, we selected basic words which are supposed to be commonly used by Japanese adults. We selected the basic words from a Japanese dictionary in which the number of word entries is about 95,000. In a previous study, the size of the basic words which a Japanese child of twelve years knew was estimated to be 25,000. From the another recent psychological study estimating the number of the vocabulary in Japanese speakers, we were able to estimate that 25,000 of the Japanese basic words were known by 94% of Japanese adults. Therefore, we selected the number of basic words for Commonsense Concept Database to be 25,000. As a measure of selecting the basic word, we used word familiarity ratings. We did farther psychological experiments of rating familiarity of words in the Japanese dictionary which had not been listed in the word familiarity database previously published. Finally, we selected all words with a familiarity rating above five(between seven point scale) which gave us around 27,000 words out of the 95,000 entries of the dictionary.