著者
松本 忠博 原田 大樹 原 大介 池田 尚志
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.3, pp.177-200, 2006-07-10 (Released:2011-03-01)
参考文献数
37
被引用文献数
1 3

日本手話をテキストとして表現するための表記法を提案する.本表記法の検討に至った直接の動機は, 日本語一日本手話機械翻訳を, 音声言語間の機械翻訳と同様, 日本語テキストから手話テキストへの翻訳 (言語的な変換) と, 翻訳結果の動作への変換 (音声言語におけるテキスト音声合成と同様に手話動画の合成) とに分割し, 翻訳の問題から動作合成の問題を切り離すことにある.この翻訳過程のモジュール化により, 問題が過度に複雑化するのを防ぐことをねらいとする.同時に, 手話を書き取り, 保存・伝達する手段としての利用も念頭に置いている.本表記法で記述される手話文は, 手話単語, および, 複合語等の単語の合成, 句読点, 非手指要素による文法標識で構成される.手話単語は, 単語名とそれに付加する語形変化パラメータ (方向や位置, その他の手話動作によって付加される語彙的, 文法的情報を表す) で表す.我々の表記法は, 基本的に手話の動作そのものを詳細に記述するのではなく, 動作によって表される意味内容を記述することをめざした.ただし, 機械翻訳を念頭に置いているため, 動作への変換のための便宜にも若干の考慮を払った.本表記法の記述力を検証するため, 手話を第一言語とする手話話者による手話映像720文を解析し, この表記法での記述を試みた.全体で671文を記述することができた.十分表記できないと判断した49文 (51表現) を分析し, 問題点について考察した.
著者
柏野 和佳子 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1133-1161, 2014-12-15 (Released:2015-03-15)
参考文献数
33

従来の紙版の国語辞典はコンパクトにまとめることが優先され,用例の記述は厳選され,必要最小限にとどめられていた.しかし,電子化編集が容易になり,電子化された国語辞典データや種々のコーパスが活用できるようになった今,豊富な用例を増補した電子化版国語辞典の構築が可能になった.そうした電子化版国語辞典は,人にも計算機にも有用性の高いものと期待される.著者らはその用例記述の際に見出し語のもつ文体的特徴を明記する方法を提案し,より利用価値の高い,電子化版の「コーパスベース国語辞典」の構築を目指している.文体的特徴の記述は,語の理解を助け,文章作成時にはその語を用いる判断の指標になり得るため,作文指導や日本語教育,日本語生成処理といった観点からの期待も高い.本論文では,古さを帯びながらも現代語として用いられる「古風な語」を取り上げる.これに注目する理由は,三点ある.一点目は,現代語の中で用いられる「古風な語」は少なくないにも関わらず,「古語」にまぎれ辞書記述に取り上げ損なってしまう危険性のあるものであること.二点目は,その「古風な語」には,文語の活用形をもつなど,その文法的な扱いに注意の必要なものがあること.三点目は,「古さ」という文体的特徴を的確かつ,効果的に用いることができるよう,十分な用法説明が必要な語であるということ,である.そこで,本論文では,これら三点に留意して「古風な語」の用法をその使用実態に即して分析し,その辞書記述を提案する.はじめに,現行国語辞典5種における「古風な語」の扱いを概観する.次に,「古風な語」の使用実態を『現代日本語書き言葉均衡コーパス』に収録される図書館サブコーパスを用いて分析し,「古風な語」の使用を,(1) 古典の引用,(2) 明治期から戦前まで,(3) 時代・歴史小説,(4) 現代文脈,に4分類する.そして,その 4 分類に基づく「コーパスベース国語辞典」の辞書記述方法を提案する.このような辞書記述は例えば,作文指導や日本語教育,日本語生成処理の際の語選択の参考になるものと期待される.
著者
松本 和幸 三品 賢一 任 福継 黒岩 眞吾
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.239-271, 2007-04-10 (Released:2011-03-01)
参考文献数
34
被引用文献数
3 12

近年の情報処理技術の発達に伴い, 従来の情報処理の分野ではほとんど取り扱われなかった人間の感性をコンピュータで処理しようとする試みが盛んになってきた. 擬人化エージェントや感性ロボットが人のように振舞うためには, 人間が表出する感情を認識し, 自ら感情を表出することが必要である. 我々は, 感性ロボットに応用するための感情認識技術について研究している. 自然言語会話文からの感情推定を行う試みは, 多くの場合, 表面的な感情表現のみに絞つて行われてきた. しかし, 人間の発話時には常に何らかの感情が含まれていると考えられる. そこで, 本稿では, 感情語と感情生起事象文型パターンに基づいた感情推定手法を提案し, 実験システムを構築する. そして, 本手法の有効性を調べるため, シナリオ文を対象にその評価実験を行った.
著者
大熊 智子 梅基 宏 三浦 康秀 増市 博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_51-3_80, 2009 (Released:2011-09-01)
参考文献数
31

事物の数量的側面を表現するとき,数詞の後に連接する語を一般に助数詞と呼ぶ.英語などでは名詞に直接数詞が係って名詞の数が表現されるが,日本語では数詞だけでなく助数詞も併せて用いなければならない.名詞と助数詞の関係を正しく解析するためには,助数詞が本来持つ語彙としての性質と構文中に現れる際の文法的な性質について考慮する必要がある.本稿では,数詞と助数詞の構文を解析するための Lexical-Functional Grammar (LFG) の語彙規則と文法規則を提案し,その規則の妥当性と解析能力について検証した.提案した規則によって導出される解析結果 (f-structure) と英語,中国語の f-structure をそれぞれ比較することによって,日本語内での整合性と多言語間との整合性を有していることが確認できた.また,精度評価実験の結果,従来の LFG 規則に比べて通貨・単位に関する表現では 25%,数量に関する表現では 5%,順序に関する表現では 21% の F 値の向上が認められた.
著者
石川 徹也 北内 啓 城塚 音也
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.15, no.4, pp.3-18, 2008-09-21
被引用文献数
2

本研究の目的は、歴史資料(史料)を対象に歴史知識の構造化の基盤となる「歴史オントロジー」を構築するシステムを開発し、広く提供することによって歴史学の発展に寄与することにある。この目標を具体的に検証するために、昭和15年に時の帝国学士院において始められた明治前日本科学史の編纂成果である『明治前日本科学史』(刊本全28巻)の全文を日本学士院の許諾の下に電子化し、明治前の日本の科学技術を創成してきた科学技術者に関する属性および業績の情報を抽出することにより、前近代日本の人物情報データベースの構築を試みる。人物の属性として人名とそれに対する役職名と地名を、人物の業績として人名とそれに対する書名を、いずれもパターンマッチングなどのルールベースの手法によって抽出する。『明治前日本科学史総説・年表』を対象とした性能評価を行った結果、人名、人名とその役職名、および人名とその地名について、F値で0.8を超える結果が得られた。Our goal of this study is to contribute to the progress in historical science by developing a system for building a historical ontology from historical materials and making it available to the public. We digitize all the books of "Meiji-mae Nippon Kagaku-shi" ( Pre-modern Japanese Histroy of Science and Technology ) published by Nippon Gakushiin ( The Japan Academy ), and extract the attribution and the works in pre-modern Japanese history. We extract the names of persons, positions, places, and books as the attribution and the works of persons by pattern matching. The experimental results show that the F-measures for the names of persons, positions, and places are over 0.8.
著者
小田 裕樹 森 信介 北 研二
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.93-108, 1999-10-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
1 2

日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である. 本論文では, 日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法を提案する. 文字クラスモデルでは, 推定すべきパラメータ数が文字モデルより少ないという大きな利点があり, 文字モデルより頑健な推定を可能とする. したがって, 文字クラスモデルを単語分割へ適用した場合, 文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる. 文字クラスタリングの基準はモデルの推定に用いるコーパスとは別に用意したコーパスのエントロピーであり, 探索方法は貧欲アルゴリズムに基づいている. このため, 局所的にではあるが最適な文字のクラス分類がクラスの数をあらかじめ決めることなく得られる. ATR対話データベースを用いて評価実験を行った結果, 文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く, 特に, 文字クラスを予測単位とする可変長n-gramクラスモデルではオープンテストにおいて再現率96.38%, 適合率96.23%の高精度を達成した.
著者
中川 裕志 小野 晋
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.3, no.2, pp.3-18, 1996-04-10
被引用文献数
4

終助詞「よ」「ね」「な」は,書き言葉の文には殆んど用いられないが,日常会話において頻繁に使われており,文全体の解釈に及ぼす影響が大きい. そのため,機械による会話理解には,終助詞の機能の研究は不可欠である.本論文では,代表的な終助詞「よ」「ね」「な」について,階層的記憶モデルによる終助詞の機能を提案する.まず,終助詞「よ」の機能は,文の表す命題が発話以前に記憶中のある階層に存在することを表すことである.次に,終助詞「ね」「な」の機能は,文の表す命題を記憶中に保存する処理をモニターすることである.本稿で提案する機能は,従来の終助詞の機能が説明してきた終助詞「よ」「ね」「な」の用法を全て説明できるだけでなく,従来のものでは説明できなかった終助詞の用法を説明できる.Japanese sentence final particles(JSFPs henceforth) are used extremely frequently in utterances. We propose functions of Japanese Sentence Final Particles YO NE and NA that are based on a hierarchal memory model which consists of Long Term Memory, Episodic Memory and Discourse Memory. The proposed functions of JSFPs are basically monitoring functions of the mental process being done in utterance. YO shows that the propositional content of the utterance that ends with YO was already in the speaker's Episodic Memory or Long Term Memory, while NE and NA show that the speaker is processing the propositional contents with the contents of speaker's memory. The proposed functions succeed in accounting for the phenomena yet to be explained in the previous works.
著者
金水 敏
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.4, pp.67-91, 1999-07-10 (Released:2011-03-01)
参考文献数
34
被引用文献数
8 4

日本語の指示詞の3系列(コソア)は, いずれも直示用法とともに非直示用法を持つ. 本稿では「直示」の本質を「談話に先立って話し手がその存在を認識している対象を, 話し手が直接指し示すこと」ととらえ, ア系列およびコ系列では直示・非直示用法にわたってこの直示の本質が認められるのに対し, ソ系列はそうではないことを示す. 本稿では, ア系列の非直示用法は「記憶指示」, すなわち話し手の出来事記憶内の要素を指し示すものであり, コ系列の非直示用法は「談話主題指示」, すなわち先行文脈の内容を中心的に代表する要素または概念を指し示すものと考える.「記憶指示」も「談話主題指示」も上記の直示の本質を備えている上に, ア系列およびコ系列の狭義直示用法において特徴的な話し手からの遠近の対立も備えているという点は, ア系列およびコ系列の非直示用法がともに直示用法の拡張であることを示唆している. さらにさまざまなソ系列の非直示用法を検討した上で, ソはコ・アとは異なって, 本質的に直示の性格が認められないことを論じる. 非直示用法のソ系列は話し手が談話に先立って存在を認めている要素を直接指すためには用いられず, 主に言語的な表現によって談話に導入された要素を指し示すためた用いられる.またソが, 「直示」によっては表現できない, 分配的解釈や, いわゆる代行用法等の用法を持つことも, ソがアやコと違って非「直示」的であるという主張と合致する.
著者
小田 悠介 Philip Arthur Graham Neubig 吉野 幸一郎 中村 哲
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.2, pp.167-199, 2018-03-15 (Released:2018-06-15)
参考文献数
41

本論文では,ニューラル翻訳モデルで問題となる出力層の時間・空間計算量を,二値符号を用いた予測法により大幅に削減する手法を提案する.提案手法では従来のソフトマックスのように各単語のスコアを直接求めるのではなく,各単語に対応付けられたビット列を予測することにより,間接的に出力単語の確率を求める.これにより,最も効率的な場合で従来法の対数程度まで出力層の計算量を削減可能である.このようなモデルはソフトマックスよりも推定が難しく,単体で適用した場合には翻訳精度の低下を招く.このため,本研究では提案手法の性能を補償するために,従来法との混合モデル,および二値符号に対する誤り訂正手法の適用という 2 点の改良も提案する.日英・英日翻訳タスクを用いた評価実験により,提案法が従来法と比較して同等程度の BLEU を達成可能であるとともに,出力層に要するメモリを数十分の 1 に削減し,CPU での実行速度を 5 倍から 10 倍程度に向上可能であることを示す.
著者
石田 哲也 関 洋平 欅 惇志 柏野 和佳子 神門 典子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.586-631, 2023 (Released:2023-06-15)
参考文献数
34
被引用文献数
1

行政の政策や接客業のサービスの質を向上させるためには,市民によるフィードバックの収集/分析と同時に都市の特徴を明らかにするための他の都市との比較が重要となる.しかし,都市によって政策やサービスは異なり,市民の抱える意見も異なるため,機械学習により複数の都市に適応した市民意見の分析を実現することは難しい.本論文では,都市を横断して市民意見を抽出する手法を提案する.実験では,横浜市民,札幌市民,仙台市民のつぶやきを対象として,特定の都市のつぶやきでファインチューニングしたモデルを,評価対象の都市の比較的少量のつぶやきを用いて再度ファインチューニングする手法の有効性を確認した.この際,評価対象の都市の訓練データは,異なる都市のつぶやきで訓練したモデルによる予測の確信度が高いものを選定することが有効であることを明らかにした.

2 0 0 0 OA 言語処理乙女

著者
大熊 智子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.173-174, 2016-03-14 (Released:2016-06-14)
著者
佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.2, pp.411-444, 2020-06-15 (Released:2020-09-15)
参考文献数
18

本論文では,日本語文を合成するためのドメイン特化言語 HaoriBricks3 (HB3) について述べる.HB3 では,ブリックコードと呼ぶ Ruby コードで,どのような日本語文を合成するかを記述する.このブリックコードを評価すると,ブリック構造と呼ばれる Ruby オブジェクトが生成され,さらに,これに表層文字列化メソッド to_ss を適用すると,表層文字列が生成される.本論文では,HB3 の設計思想,実装のための工夫について説明し,HB3 で何ができるのかを示す.
著者
山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.7, no.4, pp.25-62, 2000-10-10 (Released:2011-03-01)
参考文献数
15

韓国語の言語処理, 特に韓国語を原言語もしくは目的言語とする機械翻訳における, 韓国語の言語体系と形態素処理手法を提案する. 本論文の韓国語体系の特徴は, 機械処理を考慮した体系であるという点にある. すなわち, 形態素解析の解析精度や機械翻訳における品詞設定の必要性に応じて, 韓国語各品詞に対して仕様の検討を行ない, 設計を行なった. また分かち書きや音韻縮約といった韓国語の特徴をどのように機械処理すべきかについても述べる. 韓国語形態素解析では, 品詞と単語の混合n-gramによる統計的手法を基本としながら, 韓国語固有の問題に対しては残留文字などの概念を導入するなどして独自の対応を施した. 以上の品詞体系と形態素解析エンジンによって, 単語再現率99.1%, 単語適合率98.9%, 文正解率92T6%という良好な解析精度が得られた. また韓国語生成処理では, 特に分かち書き処理についてどのような規則を作成したのかについて提案を行なう. 以上の形態素体系と処理の有効性は, 機械翻訳システムTDMTの日韓翻訳, 韓日翻訳部に導入した際の翻訳精度という形で文献 (古瀬, 山本, 山田1999) において報告されている.
著者
北 研二
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.4, no.3, pp.71-82, 1997-07-10 (Released:2011-03-01)
参考文献数
12

本論文では, 言語のクラスタリングに関する新しい手法を提案する.提案する手法では, まず各言語の言語データから確率的言語モデルを構築し, 次に確率的言語モデルの間に導入した距離に基づき, 元の言語に対するクラスタリングを実行する.本論文では, 以上の手法をN-gramモデルの場合について詳しく述べている.また, 提案した手法を用いて, ECI多言語コーパス (European Corpus Initiative Multilingual Corpus) 中の19ヶ国語のテキスト・データから, 言語の系統樹を再構築する実験を行った.本実験で得られた結果は, 言語学で確立された言語系統樹と非常に似ており, 提案した手法の有効性を示すことができた.
著者
定延 利之
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.3-15, 2007

「話し手は, 迅速で正確な情報伝達や, 円滑な人間関係の構築といつた目的を果たすために, 言語を使って自分の感情・評価・態度を表す」という考えは, 言語の研究においてしばしば自明視され, 議論の前提とされる.本稿は, 話し手の言語行動に関するこの一見常識的な考え (「表す」構図) が, 日常の音声コミュニケーションにおける話し手の実態をうまくとらえられない場合があることを示し, それに代わる新しい構図 (「する」構図) を提案するものである.<BR>現代日本語の日常会話の音声の記録と, 現代日本語の母語話者の内観を用いた観察の結果, 「表す」構図が以下3点の問題点をはらむことを明らかにする: (i) 目的論的性格を持ち, 目的を伴わない発話を収容できない; (ii) 外部からの観察に基づいており, 当事者 (話し手) のきもちに肉薄し得ない; (iii) モノ的な言語観に立ち, 言語を行動と見ることができない.<BR>中心的に扱われるのは, あからさまに儀礼的なフイラー, つっかえ方, りきみである.「話し手は自分のきもちに応じて, ブイラー・つっかえ方.声質を使い分けている」という「表す」考えが一見正しく思えるが, 実はどのような限界を持つのかを, 実際のコミュニケーションから具体的に示す.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.