著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10
参考文献数
10
被引用文献数
6

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
石川 徹也 北内 啓 城塚 音也
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.15, no.4, pp.3-18, 2008-09-21
被引用文献数
2

本研究の目的は、歴史資料(史料)を対象に歴史知識の構造化の基盤となる「歴史オントロジー」を構築するシステムを開発し、広く提供することによって歴史学の発展に寄与することにある。この目標を具体的に検証するために、昭和15年に時の帝国学士院において始められた明治前日本科学史の編纂成果である『明治前日本科学史』(刊本全28巻)の全文を日本学士院の許諾の下に電子化し、明治前の日本の科学技術を創成してきた科学技術者に関する属性および業績の情報を抽出することにより、前近代日本の人物情報データベースの構築を試みる。人物の属性として人名とそれに対する役職名と地名を、人物の業績として人名とそれに対する書名を、いずれもパターンマッチングなどのルールベースの手法によって抽出する。『明治前日本科学史総説・年表』を対象とした性能評価を行った結果、人名、人名とその役職名、および人名とその地名について、F値で0.8を超える結果が得られた。Our goal of this study is to contribute to the progress in historical science by developing a system for building a historical ontology from historical materials and making it available to the public. We digitize all the books of "Meiji-mae Nippon Kagaku-shi" ( Pre-modern Japanese Histroy of Science and Technology ) published by Nippon Gakushiin ( The Japan Academy ), and extract the attribution and the works in pre-modern Japanese history. We extract the names of persons, positions, places, and books as the attribution and the works of persons by pattern matching. The experimental results show that the F-measures for the names of persons, positions, and places are over 0.8.
著者
中川 裕志 小野 晋
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.3, no.2, pp.3-18, 1996-04-10
被引用文献数
4

終助詞「よ」「ね」「な」は,書き言葉の文には殆んど用いられないが,日常会話において頻繁に使われており,文全体の解釈に及ぼす影響が大きい. そのため,機械による会話理解には,終助詞の機能の研究は不可欠である.本論文では,代表的な終助詞「よ」「ね」「な」について,階層的記憶モデルによる終助詞の機能を提案する.まず,終助詞「よ」の機能は,文の表す命題が発話以前に記憶中のある階層に存在することを表すことである.次に,終助詞「ね」「な」の機能は,文の表す命題を記憶中に保存する処理をモニターすることである.本稿で提案する機能は,従来の終助詞の機能が説明してきた終助詞「よ」「ね」「な」の用法を全て説明できるだけでなく,従来のものでは説明できなかった終助詞の用法を説明できる.Japanese sentence final particles(JSFPs henceforth) are used extremely frequently in utterances. We propose functions of Japanese Sentence Final Particles YO NE and NA that are based on a hierarchal memory model which consists of Long Term Memory, Episodic Memory and Discourse Memory. The proposed functions of JSFPs are basically monitoring functions of the mental process being done in utterance. YO shows that the propositional content of the utterance that ends with YO was already in the speaker's Episodic Memory or Long Term Memory, while NE and NA show that the speaker is processing the propositional contents with the contents of speaker's memory. The proposed functions succeed in accounting for the phenomena yet to be explained in the previous works.
著者
冨浦 洋一 青木 さやか 柴田 雅博 行野 顕正
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.16, no.1, pp.25-46, 2009-01-10
被引用文献数
1 1

本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 <I>n</I>-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.<I>n</I> を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 <I>n</I>-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.
著者
滝澤 修
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.2, no.2, pp.3-22, 1995-04-10
参考文献数
17

比喩の一種である「駄洒落」は, 言語記号 (音声) とその記号が表す概念の意味との両方に, 比喩を成立させる「根拠 (ground) 」 (比喩における被喩辞 (tenor) と喩辞 (vehicle) とを結びつける関係) があるという点で, 高度な修辞表現に位置づけられる. 筆者らは, 「併置型」と呼ぶ駄洒落の一種 (例「トイレに行っといれ」) を, 外国語専攻の大学生54名に筆記によって創作させ, 203個を収集した. そしてこのデータに対して, 駄洒落理解システムの構築に必要な知見を得るという観点から, 「先行喩辞」 (例では「トイレ」) と「後続喩辞」 (例では「…といれ」) の関係, 及び「出現喩辞」 (例では「…といれ」) と「復元喩辞」 (例では「…ておいで」) の関係に着目し, 以下の3つの分析を行った.(1) 先行-後続出現喩辞間の音素列は, どれ位の長さの一致が見られるか.(2) 先行-後続出現喩辞間の音素の相違にはどのような特徴があるか.(3) 出現-復元喩辞間の音素の相違にはどのような特徴があるか. その結果, 出現喩辞の音節数は先行と後続とで一致する場合が多いこと, 先行-後続出現喩辞間及び出現-復元喩辞間の音素の相違は比較的少なく, 相違がある場合もかなり高い規則性があること, などがわかった. 以上の知見から, 計算機による駄洒落理解手法, 即ち出現喩辞と復元喩辞を同定するアルゴリズムを構築できる見通しが得られた.
著者
石〓 友子 片岡 明 増山 繁 山本 和英 中川 聖一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.7, no.4, pp.119-142, 2000-10-10
被引用文献数
2

字幕生成のためのニュース文要約のような報知的要約では, 原文の情報を落とさないことが望まれる. 本論文では, このような原文の情報を極力落とさない要約手法の一っとして, 重複部削除による要約手法について議論する. テキスト内に, 同一の事象を表す部分が再度出現したならば, その部分を削除することによって冗長度を減少させ, 情報欠落を可能な限り回避した要約を行う. 事象の重複を認定するために, 係り受け関係のある2語が一つの事象を表していると仮定し, 2語の係り受け関係の重複を事象の重複と認定する. また, 2語の係り受け関係を用いて重複部を削除するだけでは, 読みやすく, かつ, 自然な要約文を生成することができない. そのために考慮すべきいくつかの情報について議論する. 以上の方法のうち, 実装可能な部分を計算機上に実装し, 評価実験を行った. 人間による削除箇所と本手法による削除箇所とを比較したところ, 再現率81.0%, 適合率85.1%の結果を得た.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14
参考文献数
20
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
新森 昭宏 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.111-128, 2005-07-10
参考文献数
16
被引用文献数
2 4

特許明細書には, 特許請求項と「発明の詳細な説明」が記述される.特許請求項は特許明細書において最も重要な部分であるが, 構成的または結合的に記述されるため, 可読性が低い.「発明の詳細な説明」と, 特許請求項を対応付けることにより, (1) 特許請求項に対する作用 (機能) と効果を明確化する, (2) 特許請求項の重要箇所を明確化する, (3) 特許請求項で使われている表現に関する言い換えを取得する, 等の効果が得られ, 特許請求項の読解支援につながる.本稿では, 特許請求項を構造解析し, その結果を用いて, 「用言文節を起点としたローカルアラインメント」を行うことにより, 「発明の詳細な説明」との対応付けを行う手法を提案する.NTCIR3の特許データコルクションからランダムに抽出した100件のうち88件の特許明細書を対象として評価を行い, その有効性を確認した.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.419-435, 2012-12-14
参考文献数
23
被引用文献数
1

近年,ウェブの情報を用いて,感染症などの疾病状態を監視するシステムに注目が集まっている.本研究では,ソーシャルメディアを用いたインフルエンザ・サーベイランスに注目する. これまでの多くのシステムは,単純な単語の頻度情報をもとに患者の状態を調査するというものであった.しかし,この方法では,実際に疾患にかかっていない場合の発言を収集してしまう恐れがある.また,そもそも,医療者でない個人の自発的な発言の集計が,必ずしもインフルエンザの流行と一致するとは限らない.本研究では,前者の問題に対応するため, 発言者が実際にインフルエンザにかかっているもののみを抽出し集計を行う.後者の問題に対して,発言と流行の時間的なずれを吸収するための感染症モデルを提案する.実験においては,Twitter の発言を材料にしたインフルエンザ流行の推定値は,感染症情報センターの患者数と相関係数 0.910 という高い相関を示し,その有効性を示した.本研究により,ソーシャルメディア上の情報をそのまま用いるのではなく,文章分類や疾患モデルと組み合わせて用いることで,さらに精度を向上できることが示された.
著者
柴木 優美 永田 昌明 山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.4, pp.229-279, 2012-12-14

Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した.Wikipedia の記事にはカテゴリが付与され,そのカテゴリは他のカテゴリとリンクして階層構造を作っている.Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある.(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており,これをそのまま利用してオントロジーを構成することは適切でない.(2) Wikipedia のカテゴリ間,及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため,is-a 関係でないリンク関係が多く存在する.これに対して我々は (1) を解決するため,上位のカテゴリ階層を新しく定義し,Wikipedia の上位階層を削除して置き換えた.さらに (2) を解決するため,Wikipedia のカテゴリ間,及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで,Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した.本論文では not-is-a 関係を判定するための 3 つの手法を適用した.これにより,"人","組織","施設","地名","地形","具体物","創作物","動植物","イベント"の 9 種類の意味属性を最上位カテゴリとした,1 つに統一された is-a 関係のオントロジーを構築した.実験の結果,is-a 関係の精度は,カテゴリ間で適合率 95.3%, 再現率 96.6%,カテゴリ‐記事間で適合率 96.2%,再現率 95.6%と高精度であった.提案手法により,全カテゴリの 84.5%(約 34,000 件),全記事の 88.6%(約 422,000 件)をオントロジー化できた.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.419-435, 2012-12-14
被引用文献数
1

近年,ウェブの情報を用いて,感染症などの疾病状態を監視するシステムに注目が集まっている.本研究では,ソーシャルメディアを用いたインフルエンザ・サーベイランスに注目する. これまでの多くのシステムは,単純な単語の頻度情報をもとに患者の状態を調査するというものであった.しかし,この方法では,実際に疾患にかかっていない場合の発言を収集してしまう恐れがある.また,そもそも,医療者でない個人の自発的な発言の集計が,必ずしもインフルエンザの流行と一致するとは限らない.本研究では,前者の問題に対応するため, 発言者が実際にインフルエンザにかかっているもののみを抽出し集計を行う.後者の問題に対して,発言と流行の時間的なずれを吸収するための感染症モデルを提案する.実験においては,Twitter の発言を材料にしたインフルエンザ流行の推定値は,感染症情報センターの患者数と相関係数 0.910 という高い相関を示し,その有効性を示した.本研究により,ソーシャルメディア上の情報をそのまま用いるのではなく,文章分類や疾患モデルと組み合わせて用いることで,さらに精度を向上できることが示された.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-45, 2003-01-10
被引用文献数
40

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.In this paper, we propose a new idea of automatically recognizing domain specific terms from monolingual corpus. The majority of domain specific terms are compound nouns that we aim at extracting. Our idea is based on single-noun statistics calculated with single-noun bigrams. Namely we focus on how many nouns adjoin the noun in question to form compound nouns. In addition, we combine this measure and frequency of each compound nouns and single-nouns, which we call FLR method. We experimentally evaluate these methods on NTCIR1 TMREC test collection. As the results, when we take into account less than 1,400 or more than 12,000 highest term candidates, FLR method performs best.