著者
武田 善行 梅村 恭司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.112, pp.27-32, 2001-11-20
参考文献数
7
被引用文献数
2

反復度とは文書においてある部分文字列が1回以上出現するという条件でその部分文字列が2回以上出現する度合いである.本論文では英語において観測されているキーワードの反復出現が日本語においても観測できることを確かめた.英語同様に,キーワードの反復度はその頻度に対して無相関であった.一方,ランダムに切り出された文字列の反復度はばらついていた.この分析を日本語論文抄録と数年の日本語新聞記事で行い,反復度がキーワード境界の特定が可能な情報を持つことを示した.Adaptation is the degree in which a substring appears twice or more, when it appears once or more in a document. Adaptation of the keyword has been observed in English. Similarly, it is observed in Japanese and Chinese. We have observed that adaptation of a keyword tends to have no correlation with just like English. On the other hand, the estimated value varies in strings that are selected at random. We analyzed adaptation using newspaper article of several years and technical abstracts. We have tried to extract keywords using the difference of this distribution. We show that adaptation contains the information with which keyword boundaries are obtained.
著者
永井 弘之 藤田茂 菅原研次
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.29-34, 2006-05-19

自然言語処理システムに広く用いられているキー検索法として,トライ法があり,トライを表現可能なデータ構造として,ダブル配列がある.ダブル配列は,検索の高速性と空間利用率の高さを兼ね備えた,優れたデータ構造である.しかし,ダブル配列ではキーの検索時間に比べ,動的追加時間が遅い欠点がある.ダブル配列に対して,キーの動的追加を行うと,衝突が発生し,その回避に多くの計算量を要している問題がある.本論文では,ダブル配列において,遷移可能な次状態が単一であるシングル状態の多数性,およびシングル状態からの遷移先であるシングル要素の機動性を利用し,キーの動的追加時に生じる衝突を,効率的に回避することで,動的追加処理を高速化する手法を提案する.評価実験では,それぞれ10万件のデータを使用し,WordNet英語単語辞書で1.9倍,IPADIC日本語単語辞書で8.7倍,郵便番号で32.5倍,森田らの手法よりも高速に追加できることを確認した.Trie is a well known key retrieve method for natural language processing systems and the Double-array is a fastand compact data structure for a trie.However,dynamic key insertion time is not as fast as key sarch time,because of resolving collisions take a lot of time.A double-array has many single states and its successor is singlee elements.Single elements have a property that easy to reallocate.In this paper,We propose a efficient key insertion method by reallocating single elements to resolve collisions.The experimental results for 100thousand keys,it turned out that the propose method is 1.9to32.5 times faster than Morita's method.
著者
相良 直樹 砂山 渡 谷内田 正彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.108, pp.159-164, 2004-11-06

情報化社会の発展に伴い,文書の電子化や大量管理,共有が可能となった.これにより,人が処理しなければならない情報量も増加している.現在,この問題に対処すべくテキスト要約において主題抽出の研究は盛んに行われているが,ストーリー抽出に関しては人手に頼らざるを得ないのが現状である.本研究においては,従来の重要文抽出を利用したテキストからのストーリー抽出手法を提案し,この有効性について考察する.Development of information society caused computerizing of documents, and made a lot of managements and share of documents possible. It caused the increase in the amount of information which people have to process. Currently although research of extracting subjects is active in text summarization to deal with this problem, story extraction cannot be performed without manpower. In this paper, we propose a method of story extraction from text using key sentences, then discuss the proposing method.
著者
林 良彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.22, pp.73-80, 1999-03-04
被引用文献数
1

英語の語彙データベースであるWordNet1.6の名詞部分を日本語へ手動で翻訳した。翻訳にあたりでは,英語の語彙的概念ノードであるsynsetを構成する英語単語を翻訳するだけでなく,その定義文(gloss)をも日本語へと翻訳した.その結果として,語彙概念にインデックスされた日英の対訳コーパスが得られた。本報告では,この日本語化されたWordNet名詞データの基本特性について報告し,本データが日英語の対照研究における良いリソースであること示す.また,synset単語の対応や上記の対訳コーパスからのバイリンガル辞書の抽出について説明し,得られるバイリンガル語彙データの多言語情報検索への適用可能性について検討する.The noun part of the WordNet 1.6 English lexical database was translated into Japanese by human translators. In the course of the translation work, elemental English words/collocations in a synset were translated into Japanese counterparts, as well as the "gloss", which defines the English lexical concept. This translation work turns out to give us an aligned and conceptually indexed pararell corpus. This paper shows the basic characteristics of the "Japanized" noun part of the WordNet. We argue that the resulted data might be a good resource for comparative linguistics. In addition to these, we examine how the derived bilingual lexical data can be applied to cross-linguistic natural language applications, such as cross-language information retrieval.
著者
山川 裕也 荒木 健治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2005, no.1(2004-NL-165), pp.45-51, 2005-01-12

近年,ペットが人間にとって重要な役割を担うようになってきており,ペットに関連する様々な技術が研究されている.動物の言語についての研究も行われており,飼い主が考える動物の意思を人間の言語で表現することによって,動物とのより良い信頼関係が築けると考えられる.そこで,我々はこれまでペットとして飼育される動物を対象とした対話処理手法を提案している.本手法では,人間の発話と動物の反応を一組の入力として,出力となる飼い主が考える動物の意思を言語で表現する.入力と出力の組から応答規則を獲得する方法として帰納的学習を用いる.本稿では,評価実験を行った結果から提案した手法の有効性と,これまで1 人であった被験者を増やし,複数の被験者による性能の評価について述べる.
著者
野村 直之
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.2(1998-NL-129), pp.1-8, 1999-01-20

ConceptBaseはヴェクトル空間法と転値ファイルによる類似文書検索をコアにもつシステム。高速性と高精度を達成するために、複合語句(Concept)間の部分マッチング、関連語抽出の近似処理、などの独自の工夫を施している。その概要とともに、対象とする文書空間のスケール拡大のための新しいソリューションとして、自動分類機能と、複数文書の鳥瞰ビューを提供する最新の自動要約機能を紹介する。
著者
藤岡 孝子 苫米地 英人 古瀬 蔵 飯田 仁
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1990, no.93(1990-NL-080), pp.1-8, 1990-11-22

単一化に基づく自然言語処理において、単一化手続きは最も処理時間の割合が大きく、これを高速化することが重要な課題となっている。これに対し、並列処理をすることによる高速化の手法を考える。まず、効率の良い並列化が可能なTomabechiの時間差準破壊型単一化アルゴリズムについて考察し、これを並列に処理する手法を提案する。また、日本語文解析における単一化手続きにおいてこの並列アルゴリズムを用いて実験を行ない、並列化の効果と課題について述べる。
著者
林 由紀子 松原 茂樹
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2007, no.47(2007-NL-179), pp.49-54, 2007-05-25

一般に,新聞記事など文字による伝達を意図したテキストは,語彙や言い回しなどにおいて通常の話し言葉とは異なる.このため,音声合成ソフトウェアを使ってテキストをそのまま読み上げると,不自然な印象を与える音声となる.本論文では,不自然でない聞きやすい読み上げ音声を出力するための,書き言葉から話し言葉へのテキスト変換として,文体の変換及び体言止め表現の補完について述べる.文体の変換処理は,変換規則の適用により実行した.体言止めの補完を実現するために,文末の名詞及び時制等を考慮した決定木を作成した.新聞記事テキストを対象に評価実験を行い,精度89.7%,再現率86.7%という結果を得た.
著者
田中 規久雄
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.21(1997-NL-124), pp.1-8, 1998-03-12

本研究は、法律条文における法律効果規定部の意味機能とその条文全体への意味制限について分析するものである。まず、この問題に関して先行研究ではどのような議論がなされていたかを確認し、次に条文の意味機能類型を仮定し、さらに実際の条文から効果規定部を抽出し先に定めた条文の意味機能との対応を見る。以上の分析から最後に効果規定部の扱いと解析処理への提言を行う。
著者
北 研二 獅々堀正幹 大恵俊一郎
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2003, no.98(2003-NL-157), pp.9-16, 2003-09-29

高次元空間における最近傍検索(nearest neighbor search)は、マルチメディア・コンテンツ検索、データ・マイニング、パターン認識等の分野における重要な研究課題の1つである。高次元空間では、ある点の最近点と最遠点との間に距離的な差が生じなくなるという現象が起こるため、効率的な多次元検索手法を設計することが極度に困難となる。本稿では、線形探索アルゴリズムにおける距離計算中の不要な演算を削減することにより、きわめて高速な最近傍検索アルゴリズムを提案する。さらに、不必要な演算を早期検出するために、要素の分散値を用いた次元ソート法、並びに主成分分析に基づくデータ変換法を提案する。実験によると、従来の SR-tree や VP-tree 等よりも 20倍?50倍高速であり、高次元の場合にも性能の劣化はほとんどない。
著者
松岡 正男 村田 真樹 黒橋 禎夫 長尾 眞
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69(1995-NL-108), pp.37-42, 1995-07-20

テキストや談話を理解する上で,照応表現は非常に大きな役割を果たしている.本研究では,これまであまり研究されていなかったが,高品質の自然言語理解システムを実現するためにはその処理が必要不可欠である後方照応表現を取り扱った.具体的には,日本語の表層表現を手がかりとして後方照応表現の照応詞と先行詞の抽出を行った.抽出のためのルールは,まず緩やかなパターンで後方照応表現の候補文を取り出し,それらを詳細に調べることによって作成した.テストサンプルに対する実験の結果,後方照応表現の認定は適合率47.7%,再現率94.2%,先行詞の正解率は71.2%であった.
著者
笠原 要 佐藤浩史 フランシス ボンド 田中 貴秋 藤田 早苗 金杉 友子 天野 成昭
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.1(2003-NL-159), pp.75-82, 2004-01-13

単語の意味を用いた情報処理技術の基盤となりうる基本語の言語知識ベースとして,「基本語彙知識ベース」の構築を進めている.本稿では,その構想と,中核となる2.8万の基本語の意味記述である「基本語意味データベース」の構築状況について説明する.
著者
飯田 龍 小町 守 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.71-78, 2007-01-26
被引用文献数
12

本稿では,日本語書き言葉を対象とした述語項構造と共参照のタグ付与について議論する.述語項構造や共参照解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの問題の主要な解析手法はタグ付与コーパスに基づく学習ベースの手法である.この手法で利用するための大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で採用されているタグ付与の基準は,言語の違いや我々が対象としたい解析と異なるために,そのまま採用することができない.そこで,既存のいくつかのタグ付与の仕様を比較し,我々のタグ付与作業で採用する基準について吟味する.また,実際に京都コーパス第3.0版の文章を対象にタグ付与の仕様について検討した結果とタグ付与の際に問題となった点や今後検討すべき点について報告する.In this paper, we discuss how to annotate predicate-argument and coreference relations in Japanese written text. Predicate argument analysis and coreference resolution are particularly important as they often provide a crucial bridge between basic NLP techniques such as morpho-syntactic analysis and end-level applications, and they have been mainly developed with corpus-based empirical approaches. In order to train a classification model in such approaches, a large scale corpus annotated with predicate-argument and coreference information is needed. To our best knowledge, however, there is no corpus including plenty of such tags in Japanese. In addition, we have difficulty adopting the traditional specifications for annotating tags due to the problem setting of each task and the difference between Japanese and English. So, we develop a new criteria for our annotating processes by examining the previous work on annotating tasks. This paper explains our annotating specification cultivated through actual annotating processes for the texts in Kyoto Text Corpus version 3.0, and discusses the future directions.
著者
浜辺 良二 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2005, no.50(2005-NL-167), pp.89-94, 2005-05-27

音声対話システムにおいて,聞き取りやすさを考慮したシステム応答側の発話内容や言語表現についてはほとんど研究されていない.本研究では,システムの語彙内の音韻的に類似した単語に対して,それらを聞き分けやすくする新たな単語を付加した確認を自動的に生成する.まず,複数の知識源を利用して,付加する単語の候補を複数取得する.さらに確認の適切性を測る尺度を定義することにより,候補から最適な確認表現を自動的に選択する.京都市バス運行情報システムおよびホテル検索システムの語彙に対して,本手法により確認を生成し評価を行った.被験者5名に対する聴取実験により,生成した確認によって音韻的に類似した単語の聞き分けが改善されることを確認し,本手法の有効性を示した.
著者
山田 寛康 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.112(2001-NL-146), pp.33-38, 2001-11-20

本研究では 日本語固有表現抽出タスクを題材に 機械学習アルゴリズムSupport Vector Machine(SVM)を多値分類問題に適用する手法を提案し 代表的な従来手法である one vs. rest 法 及び pairwise法 との比較を行なう. 二値分類器であるSVMを固有表現抽出タスクに適用するためには 多値分類器に拡張する必要がある. しかし分類するクラス数に比例して計算コストが増加するため 現実的な時間での学習 及び分類が困難となる. 我々は 多値分類問題を 比較的分類が容易な二値分類へ分割し 二分木を構築する手法を応用し 効率的な学習 及び分類ができるよう SVMの多値分類器への拡張を行う. 固有表現抽出実験では 従来法である pairwise 法 及び one vs. rest 法と比べ ほぼ同等な抽出精度を維持し 抽出時間を削減できることを確認した.
著者
戸次 大介
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2002, no.66(2002-NL-150), pp.69-76, 2002-07-15

型付き動的論理(TDL)[2]は、動的述語論理[8]と複数形論理[5]の両方の利点を備えた論理言語である.本論文では、TDLを日本語の形式意味論に応用し 量化子の分配/累積読み 照応子の変項束縛/Eタイプ読みなどの分析における 他の意味論への優位性を示す.
著者
加藤 輝政 小川 清 佐良木昌
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.69(1997-NL-120), pp.65-70, 1997-07-24

英語複文を4パターンに分類した。典型(プロトタイプ)・定型(ステレオタイプ)・従属接続詞を伴わない型(ポテンシャルタイプ)・句形態に従属節構造が潜む型(レイテンタイプ)。この4パターンの複文は、単文結合に還元可能である。分割するのではなく、接続副詞などにより媒介される単文結合に還元する。
著者
小磯 花絵 前川 喜久雄
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.54(2001-NL-143), pp.41-48, 2001-05-31

国立国語研究所,通信総合研究所,東京工業大学では,科学技術振興調整費開放的融合研究制度の下,自発性の高い話し言葉の情報処理技術の確立を目標に活動を進めている.現在国立国語研究所では,このプロジェクトの一環として,モノローグを対象とした大規模な日本語話し言葉コーパスを作成している.このコーパスには,約700時間の音声(約700万形態素に相当),書き起こしテキスト,および形態素などの情報が含まれる予定である.本稿では,本コーパスの設計の概要および書き起こし基準の詳細について紹介する.
著者
藤原 大輔 高瀬 暁央 梅村 恭司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.145-149, 2007-07-25
参考文献数
6

文書の雛形をテンプレートと呼ぶが、あるテンプレート内で使用される単語をテンプレートの形を知ることなく抽出するという問題を扱う。単語の分布として良く知られているものに、Katz K mixture モデルがある。この Katz K mixture モデルは、単語が文書中で繰り返し出現する条件付確率は減衰係数によって決められると仮定している。本研究では、この Katz K mixture モデルに従わない固有名詞が持つ特徴とテンプレートの関係について分析し、その結果、モデルに合致しないものがテンプレート内で使用される単語の候補となり得ることが分かった。A template is a fixed format of certain documents. We deal here with the problem of extraction words used in templates without knowing form of the templates. The Katz K mixture model is well known as a distribution model of keywords. In this model, basic assumption is that the conditional probabilities of repeats for a given word are determined by a decay factor. In this study, we analyze relations of a template and proper nouns which do not obey the Katz K mixture model. As a result, we have found that the Katz model is useful to detect nouns that consitute templates.