著者
松本 和幸 三品 賢一 任 福継 黒岩 眞吾
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.239-271, 2007-04-10 (Released:2011-03-01)
参考文献数
34
被引用文献数
3 12

近年の情報処理技術の発達に伴い, 従来の情報処理の分野ではほとんど取り扱われなかった人間の感性をコンピュータで処理しようとする試みが盛んになってきた. 擬人化エージェントや感性ロボットが人のように振舞うためには, 人間が表出する感情を認識し, 自ら感情を表出することが必要である. 我々は, 感性ロボットに応用するための感情認識技術について研究している. 自然言語会話文からの感情推定を行う試みは, 多くの場合, 表面的な感情表現のみに絞つて行われてきた. しかし, 人間の発話時には常に何らかの感情が含まれていると考えられる. そこで, 本稿では, 感情語と感情生起事象文型パターンに基づいた感情推定手法を提案し, 実験システムを構築する. そして, 本手法の有効性を調べるため, シナリオ文を対象にその評価実験を行った.
著者
大熊 智子 梅基 宏 三浦 康秀 増市 博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_51-3_80, 2009 (Released:2011-09-01)
参考文献数
31

事物の数量的側面を表現するとき,数詞の後に連接する語を一般に助数詞と呼ぶ.英語などでは名詞に直接数詞が係って名詞の数が表現されるが,日本語では数詞だけでなく助数詞も併せて用いなければならない.名詞と助数詞の関係を正しく解析するためには,助数詞が本来持つ語彙としての性質と構文中に現れる際の文法的な性質について考慮する必要がある.本稿では,数詞と助数詞の構文を解析するための Lexical-Functional Grammar (LFG) の語彙規則と文法規則を提案し,その規則の妥当性と解析能力について検証した.提案した規則によって導出される解析結果 (f-structure) と英語,中国語の f-structure をそれぞれ比較することによって,日本語内での整合性と多言語間との整合性を有していることが確認できた.また,精度評価実験の結果,従来の LFG 規則に比べて通貨・単位に関する表現では 25%,数量に関する表現では 5%,順序に関する表現では 21% の F 値の向上が認められた.
著者
小田 裕樹 森 信介 北 研二
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.93-108, 1999-10-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
1 2

日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である. 本論文では, 日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法を提案する. 文字クラスモデルでは, 推定すべきパラメータ数が文字モデルより少ないという大きな利点があり, 文字モデルより頑健な推定を可能とする. したがって, 文字クラスモデルを単語分割へ適用した場合, 文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる. 文字クラスタリングの基準はモデルの推定に用いるコーパスとは別に用意したコーパスのエントロピーであり, 探索方法は貧欲アルゴリズムに基づいている. このため, 局所的にではあるが最適な文字のクラス分類がクラスの数をあらかじめ決めることなく得られる. ATR対話データベースを用いて評価実験を行った結果, 文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く, 特に, 文字クラスを予測単位とする可変長n-gramクラスモデルではオープンテストにおいて再現率96.38%, 適合率96.23%の高精度を達成した.
著者
金水 敏
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.4, pp.67-91, 1999-07-10 (Released:2011-03-01)
参考文献数
34
被引用文献数
8 4

日本語の指示詞の3系列(コソア)は, いずれも直示用法とともに非直示用法を持つ. 本稿では「直示」の本質を「談話に先立って話し手がその存在を認識している対象を, 話し手が直接指し示すこと」ととらえ, ア系列およびコ系列では直示・非直示用法にわたってこの直示の本質が認められるのに対し, ソ系列はそうではないことを示す. 本稿では, ア系列の非直示用法は「記憶指示」, すなわち話し手の出来事記憶内の要素を指し示すものであり, コ系列の非直示用法は「談話主題指示」, すなわち先行文脈の内容を中心的に代表する要素または概念を指し示すものと考える.「記憶指示」も「談話主題指示」も上記の直示の本質を備えている上に, ア系列およびコ系列の狭義直示用法において特徴的な話し手からの遠近の対立も備えているという点は, ア系列およびコ系列の非直示用法がともに直示用法の拡張であることを示唆している. さらにさまざまなソ系列の非直示用法を検討した上で, ソはコ・アとは異なって, 本質的に直示の性格が認められないことを論じる. 非直示用法のソ系列は話し手が談話に先立って存在を認めている要素を直接指すためには用いられず, 主に言語的な表現によって談話に導入された要素を指し示すためた用いられる.またソが, 「直示」によっては表現できない, 分配的解釈や, いわゆる代行用法等の用法を持つことも, ソがアやコと違って非「直示」的であるという主張と合致する.
著者
小田 悠介 Philip Arthur Graham Neubig 吉野 幸一郎 中村 哲
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.2, pp.167-199, 2018-03-15 (Released:2018-06-15)
参考文献数
41

本論文では,ニューラル翻訳モデルで問題となる出力層の時間・空間計算量を,二値符号を用いた予測法により大幅に削減する手法を提案する.提案手法では従来のソフトマックスのように各単語のスコアを直接求めるのではなく,各単語に対応付けられたビット列を予測することにより,間接的に出力単語の確率を求める.これにより,最も効率的な場合で従来法の対数程度まで出力層の計算量を削減可能である.このようなモデルはソフトマックスよりも推定が難しく,単体で適用した場合には翻訳精度の低下を招く.このため,本研究では提案手法の性能を補償するために,従来法との混合モデル,および二値符号に対する誤り訂正手法の適用という 2 点の改良も提案する.日英・英日翻訳タスクを用いた評価実験により,提案法が従来法と比較して同等程度の BLEU を達成可能であるとともに,出力層に要するメモリを数十分の 1 に削減し,CPU での実行速度を 5 倍から 10 倍程度に向上可能であることを示す.
著者
石田 哲也 関 洋平 欅 惇志 柏野 和佳子 神門 典子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.586-631, 2023 (Released:2023-06-15)
参考文献数
34
被引用文献数
1

行政の政策や接客業のサービスの質を向上させるためには,市民によるフィードバックの収集/分析と同時に都市の特徴を明らかにするための他の都市との比較が重要となる.しかし,都市によって政策やサービスは異なり,市民の抱える意見も異なるため,機械学習により複数の都市に適応した市民意見の分析を実現することは難しい.本論文では,都市を横断して市民意見を抽出する手法を提案する.実験では,横浜市民,札幌市民,仙台市民のつぶやきを対象として,特定の都市のつぶやきでファインチューニングしたモデルを,評価対象の都市の比較的少量のつぶやきを用いて再度ファインチューニングする手法の有効性を確認した.この際,評価対象の都市の訓練データは,異なる都市のつぶやきで訓練したモデルによる予測の確信度が高いものを選定することが有効であることを明らかにした.

2 0 0 0 OA 言語処理乙女

著者
大熊 智子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.173-174, 2016-03-14 (Released:2016-06-14)
著者
佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.2, pp.411-444, 2020-06-15 (Released:2020-09-15)
参考文献数
18

本論文では,日本語文を合成するためのドメイン特化言語 HaoriBricks3 (HB3) について述べる.HB3 では,ブリックコードと呼ぶ Ruby コードで,どのような日本語文を合成するかを記述する.このブリックコードを評価すると,ブリック構造と呼ばれる Ruby オブジェクトが生成され,さらに,これに表層文字列化メソッド to_ss を適用すると,表層文字列が生成される.本論文では,HB3 の設計思想,実装のための工夫について説明し,HB3 で何ができるのかを示す.
著者
山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.7, no.4, pp.25-62, 2000-10-10 (Released:2011-03-01)
参考文献数
15

韓国語の言語処理, 特に韓国語を原言語もしくは目的言語とする機械翻訳における, 韓国語の言語体系と形態素処理手法を提案する. 本論文の韓国語体系の特徴は, 機械処理を考慮した体系であるという点にある. すなわち, 形態素解析の解析精度や機械翻訳における品詞設定の必要性に応じて, 韓国語各品詞に対して仕様の検討を行ない, 設計を行なった. また分かち書きや音韻縮約といった韓国語の特徴をどのように機械処理すべきかについても述べる. 韓国語形態素解析では, 品詞と単語の混合n-gramによる統計的手法を基本としながら, 韓国語固有の問題に対しては残留文字などの概念を導入するなどして独自の対応を施した. 以上の品詞体系と形態素解析エンジンによって, 単語再現率99.1%, 単語適合率98.9%, 文正解率92T6%という良好な解析精度が得られた. また韓国語生成処理では, 特に分かち書き処理についてどのような規則を作成したのかについて提案を行なう. 以上の形態素体系と処理の有効性は, 機械翻訳システムTDMTの日韓翻訳, 韓日翻訳部に導入した際の翻訳精度という形で文献 (古瀬, 山本, 山田1999) において報告されている.
著者
北 研二
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.4, no.3, pp.71-82, 1997-07-10 (Released:2011-03-01)
参考文献数
12

本論文では, 言語のクラスタリングに関する新しい手法を提案する.提案する手法では, まず各言語の言語データから確率的言語モデルを構築し, 次に確率的言語モデルの間に導入した距離に基づき, 元の言語に対するクラスタリングを実行する.本論文では, 以上の手法をN-gramモデルの場合について詳しく述べている.また, 提案した手法を用いて, ECI多言語コーパス (European Corpus Initiative Multilingual Corpus) 中の19ヶ国語のテキスト・データから, 言語の系統樹を再構築する実験を行った.本実験で得られた結果は, 言語学で確立された言語系統樹と非常に似ており, 提案した手法の有効性を示すことができた.
著者
定延 利之
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.3-15, 2007

「話し手は, 迅速で正確な情報伝達や, 円滑な人間関係の構築といつた目的を果たすために, 言語を使って自分の感情・評価・態度を表す」という考えは, 言語の研究においてしばしば自明視され, 議論の前提とされる.本稿は, 話し手の言語行動に関するこの一見常識的な考え (「表す」構図) が, 日常の音声コミュニケーションにおける話し手の実態をうまくとらえられない場合があることを示し, それに代わる新しい構図 (「する」構図) を提案するものである.<BR>現代日本語の日常会話の音声の記録と, 現代日本語の母語話者の内観を用いた観察の結果, 「表す」構図が以下3点の問題点をはらむことを明らかにする: (i) 目的論的性格を持ち, 目的を伴わない発話を収容できない; (ii) 外部からの観察に基づいており, 当事者 (話し手) のきもちに肉薄し得ない; (iii) モノ的な言語観に立ち, 言語を行動と見ることができない.<BR>中心的に扱われるのは, あからさまに儀礼的なフイラー, つっかえ方, りきみである.「話し手は自分のきもちに応じて, ブイラー・つっかえ方.声質を使い分けている」という「表す」考えが一見正しく思えるが, 実はどのような限界を持つのかを, 実際のコミュニケーションから具体的に示す.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
鍜治 伸裕 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.1, pp.81-106, 2004-01-10 (Released:2011-03-01)
参考文献数
18

言い換え処理は, 様々な自然言語処理アプリケーションで必要とされている非常に重要な技術である. 言い換え処理の一つとして, 本論文では「名詞+格助詞+動詞」という形の迂言表現と重複表現を国語辞典を用いて認識し, さらにそれらを言い換える手法を提案する. 迂言表現とは, 動詞が動作を表していない表現や, 名詞が動作の主体や対象を表わさずに動作の状態を表している表現のことである. そして重複表現とは, 動詞と名詞の問に意味の重複がある表現のことである. これらの表現には, 多くの場合, 同じ意味をより簡潔な形であらわした表現が存在する. 提案手法の認識処理と言い換え処理の精度を二人の被験者が判断したところ, 認識処理の精度は, 平均して適合率78%, 再現率52%であった. また, 言い換え処理の精度は平均して91%であった.
著者
宮崎 正弘 白井 諭 池原 悟
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.3, pp.3-25, 1995-07-10 (Released:2011-03-01)
参考文献数
23
被引用文献数
1 3

三浦文法は、時枝誠記により提唱され三浦つとむにより発展的に継承された言語過程説に基づく日本語文法である。言語過程説によれば、言語は対象-認識-表現の過程的構造をもち、対象のあり方が話者の認識を通して表現されている。本論文では、三浦文法に基づいて体系化した日本語品詞体系および形態素処理用の文法記述形式を提案し、日本語の形態素処理や構文解析におけるその有効性を論じた。日本語の単語を、対象の種類とその捉え方に着目し、約400通りの階層化された品詞に分類して、きめ細かい品詞体系を作成した。本論文で提案した品詞体系と形態素処理用文法記述形式に基づき、実際に形態素処理用の日本語文法を構築した結果によれば、本文法記述形式により例外的な規則も含めて文法を簡潔に記述できるだけでなく、拡張性の点でも優れていることが分かった。本品詞体系により、三浦の入れ子構造に基づく意味と整合性の良い日本語構文解析が実現できるものと期待される。
著者
萩行 正嗣 河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.563-600, 2014-06-16 (Released:2014-09-16)
参考文献数
22
被引用文献数
2 3

日本語では用言の項が省略されるゼロ照応と呼ばれる現象が頻出する.ゼロ照応は照応先が文章中に明示的に出現する文章内ゼロ照応と,明示的に出現しない外界ゼロ照応に分類でき,従来のゼロ照応解析は主に前者を対象としてきた.近年,Web が社会基盤となり,Web上でのテキストによる情報伝達がますます重要性をましている.そこでは,情報の送り手・受け手である著者・読者が重要な役割をはたすため,Web テキストの言語処理においても著者・読者を正確にとらえることが必要となる.しかし,文脈中で明確な表現(人称代名詞など)で言及されていない著者・読者は,従来の文章内ゼロ照応中心のゼロ照応解析では多くの場合対象外であった.このような背景から,本論文では,外界ゼロ照応および文章の著者・読者を扱うゼロ照応解析モデルを提案する.提案手法では外界ゼロ照応を扱うために,ゼロ代名詞の照応先の候補に外界ゼロ照応に対応する仮想的な談話要素を加える.また,語彙統語パターンを利用することで,文章中で著者や読者に言及している表現を自動的に識別する.実験により,我々の提案手法が外界ゼロ照応解析だけでなく,文章内ゼロ照応解析に対しても有効であることを示す.
著者
藤井 諒 三田 雅人 阿部 香央莉 塙 一晃 森下 睦 鈴木 潤 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.2, pp.450-478, 2021 (Released:2021-06-15)
参考文献数
45
被引用文献数
1

ニューラル機械翻訳 (NMT) の登場により,ニュース記事など文体の整った入力に対する翻訳の品質は著しく向上してきた.しかし,ソーシャル・ネットワーキング・サービス (SNS) に代表されるユーザ生成コンテンツ (UGC) を対象とした NMT の翻訳には依然として多くの課題が残されている.異文化・多言語交流の促進に向けた機械翻訳システムの活用には,そうした特異な入力を正確に扱うことのできる翻訳モデルの構築が不可欠である.近年では,UGC における翻訳品質の向上に向けたコンペティションが開催されるなどその重要性は広く認知されている.一方で,UGC に起因するどのような要因が機械翻訳システムの出力に悪影響を及ぼすのかは明らかでなく,偏在するユーザコンテンツの翻訳に向けた確かな方向性は依然として定まっていない.そこで本研究では,言語現象に着目した日英機械翻訳システムの頑健性測定データセット PheMT を提案する.特定の言語現象を含む文に特化したデータセットにより,当該表現の翻訳正解率,および正規化に基づく翻訳品質の差分を用いた精緻なエラー分析を可能にする.構築したデータセットを用いた評価により,広く商用に利用される機械翻訳システムを含む,最先端の NMT モデルにおいても十分に扱えない,対処すべき言語現象の存在を明らかにする.