著者
石川 徹也 北内 啓 城塚 音也
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.4, pp.3-18, 2008-10

本研究の目的は、歴史資料(史料)を対象に歴史知識の構造化の基盤となる「歴史オントロジー」を構築するシステムを開発し、広く提供することによって歴史学の発展に寄与することにある。この目標を具体的に検証するために、昭和15年に時の帝国学士院において始められた明治前日本科学史の編纂成果である『明治前日本科学史』(刊本全28巻)の全文を日本学士院の許諾の下に電子化し、明治前の日本の科学技術を創成してきた科学技術者に関する属性および業績の情報を抽出することにより、前近代日本の人物情報データベースの構築を試みる。人物の属性として人名とそれに対する役職名と地名を、人物の業績として人名とそれに対する書名を、いずれもパターンマッチングなどのルールベースの手法によって抽出する。『明治前日本科学史総説・年表』を対象とした性能評価を行った結果、人名、人名とその役職名、および人名とその地名について、F値で0.8を超える結果が得られた。
著者
石川 徹也 北内 啓 城塚 音也
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.15, no.4, pp.3-18, 2008-09-21
被引用文献数
2

本研究の目的は、歴史資料(史料)を対象に歴史知識の構造化の基盤となる「歴史オントロジー」を構築するシステムを開発し、広く提供することによって歴史学の発展に寄与することにある。この目標を具体的に検証するために、昭和15年に時の帝国学士院において始められた明治前日本科学史の編纂成果である『明治前日本科学史』(刊本全28巻)の全文を日本学士院の許諾の下に電子化し、明治前の日本の科学技術を創成してきた科学技術者に関する属性および業績の情報を抽出することにより、前近代日本の人物情報データベースの構築を試みる。人物の属性として人名とそれに対する役職名と地名を、人物の業績として人名とそれに対する書名を、いずれもパターンマッチングなどのルールベースの手法によって抽出する。『明治前日本科学史総説・年表』を対象とした性能評価を行った結果、人名、人名とその役職名、および人名とその地名について、F値で0.8を超える結果が得られた。Our goal of this study is to contribute to the progress in historical science by developing a system for building a historical ontology from historical materials and making it available to the public. We digitize all the books of "Meiji-mae Nippon Kagaku-shi" ( Pre-modern Japanese Histroy of Science and Technology ) published by Nippon Gakushiin ( The Japan Academy ), and extract the attribution and the works in pre-modern Japanese history. We extract the names of persons, positions, places, and books as the attribution and the works of persons by pattern matching. The experimental results show that the F-measures for the names of persons, positions, and places are over 0.8.
著者
中川 裕志 小野 晋
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.3, no.2, pp.3-18, 1996-04-10
被引用文献数
4

終助詞「よ」「ね」「な」は,書き言葉の文には殆んど用いられないが,日常会話において頻繁に使われており,文全体の解釈に及ぼす影響が大きい. そのため,機械による会話理解には,終助詞の機能の研究は不可欠である.本論文では,代表的な終助詞「よ」「ね」「な」について,階層的記憶モデルによる終助詞の機能を提案する.まず,終助詞「よ」の機能は,文の表す命題が発話以前に記憶中のある階層に存在することを表すことである.次に,終助詞「ね」「な」の機能は,文の表す命題を記憶中に保存する処理をモニターすることである.本稿で提案する機能は,従来の終助詞の機能が説明してきた終助詞「よ」「ね」「な」の用法を全て説明できるだけでなく,従来のものでは説明できなかった終助詞の用法を説明できる.Japanese sentence final particles(JSFPs henceforth) are used extremely frequently in utterances. We propose functions of Japanese Sentence Final Particles YO NE and NA that are based on a hierarchal memory model which consists of Long Term Memory, Episodic Memory and Discourse Memory. The proposed functions of JSFPs are basically monitoring functions of the mental process being done in utterance. YO shows that the propositional content of the utterance that ends with YO was already in the speaker's Episodic Memory or Long Term Memory, while NE and NA show that the speaker is processing the propositional contents with the contents of speaker's memory. The proposed functions succeed in accounting for the phenomena yet to be explained in the previous works.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-46, 2003-01

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
森 辰則 瀧野 弘幸 中川 裕志
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.4, pp.3-18, 1995-10

我々は,接続助詞「ので」による順接の複文と接続助詞「のに」による逆接の複文を対象とする理解システムを計算機上に構築することを目的とする.この際には,ゼロ代名詞の照応の解析が重要な問題となるが,文献(中川1994; Nakagawa and Nishizawa1994) にあるように,本論文で扱う形式の複文では動機保持者という語用論的役割を新たに定義し用いることにより,従属節と主節それぞれで設定される意味役割や語用論的役割の間の関係を制約として記述することができる.そこで,日本語の複文に対する形態素解析や構文解析の結果を素性構造で記述し,この結果に対して制約論理プログラミングの手法を用いることにより意味および語用論的役割間の制約を解消し,ゼロ代名詞照応などを分析する理解システムを計算機上に構築した.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-46, 2003-01

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-45, 2003-01-10
被引用文献数
40

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.In this paper, we propose a new idea of automatically recognizing domain specific terms from monolingual corpus. The majority of domain specific terms are compound nouns that we aim at extracting. Our idea is based on single-noun statistics calculated with single-noun bigrams. Namely we focus on how many nouns adjoin the noun in question to form compound nouns. In addition, we combine this measure and frequency of each compound nouns and single-nouns, which we call FLR method. We experimentally evaluate these methods on NTCIR1 TMREC test collection. As the results, when we take into account less than 1,400 or more than 12,000 highest term candidates, FLR method performs best.
著者
鶴岡 慶雅 近山 隆
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.3, pp.3-19, 2002-04

統計的クラス分類器としての決定リストは,近年自然言語処理における様々な分野でその有効性を示している.決定リストを構成する上で最も重要な問題の一つは,ルールの信頼度の算出法である.決定リストを用いた多くの研究では,最尤推定法と簡単なスムージングにより信頼度を算出しているが,理論的な根拠に欠け推定精度も高くないという問題がある.そこで本論文では,ベイズ学習法を利用してルールの信頼度を算出する手法を示す.さらに,証拠の種類ごとに異なる事前分布を利用することで,より正確な信頼度の推定が可能になり,決定リストの性能が向上することを示す.本手法の有効性を確かめるために,語義曖昧性解消の問題に決定リストを適用して実験を行なった.英語に関してはSenseval-1 のデータを用い,日本語に関しては疑似単語を用いた.その結果,ベイズ学習による信頼度推定手法が,ルールの確率値の推定精度を高め,決定リストの分類性能を向上させることを確認した.
著者
鍜治 伸裕 黒橋 禎夫
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.11, no.1, pp.81-106, 2004-01-10
被引用文献数
4

言い換え処理は, 様々な自然言語処理アプリケーションで必要とされている非常に重要な技術である. 言い換え処理の一つとして, 本論文では「名詞+格助詞+動詞」という形の迂言表現と重複表現を国語辞典を用いて認識し, さらにそれらを言い換える手法を提案する. 迂言表現とは, 動詞が動作を表していない表現や, 名詞が動作の主体や対象を表わさずに動作の状態を表している表現のことである. そして重複表現とは, 動詞と名詞の問に意味の重複がある表現のことである. これらの表現には, 多くの場合, 同じ意味をより簡潔な形であらわした表現が存在する. 提案手法の認識処理と言い換え処理の精度を二人の被験者が判断したところ, 認識処理の精度は, 平均して適合率78%, 再現率52%であった. また, 言い換え処理の精度は平均して91%であった.
著者
江原 遥 田中 久美子
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.5, pp.151-167, 2008-10

近年,国際化に伴い,多くの言語を頻繁に切り替えて入力する機会が増えている.既存のテキスト入力システムにおいては,言語が切り替わるたびに,ユーザーが手動で,テキスト入力ソフトウェア(IME)を切り替えなければならない点が,ユーザーにとって負担になっていた.この問題を解決するために,本論文では,多言語を入力する際にユーザーの負担を軽減するシステム,TypeAnyを提案する.TypeAnyは,ユーザーが行うキー入力からユーザーが入力しようとしている言語を判別して,IMEの切り替えを自動で行う.これによって,ユーザーがIMEを切り替える操作量が減るため,複数の言語をスムーズに切り替えながら入力することが可能になる.本研究では,隠れマルコフモデルを用いて言語の判別をモデル化し,モデルにおける確率をppM法を用いて推定することでTypeAnyを実装し,その有用性を評価した.その結果,人工的なコーパスにおける3言語間の判別において,96.7% の判別精度を得た.また,実際に多言語を含む文書を用いて実験したところ,切り替えに必要な操作の数が,既存の手法に比べて93%減少した