文献一覧: 自然言語処理 (雑誌)

1 0 0 0 OA 確率モデルを用いた日本語ゼロ代名詞の照応解析

著者: 関和広藤井敦石川徹也
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.9, no.3, pp.63-85, 2002-07-10 (Released:2011-03-01)
参考文献数: 26
被引用文献数: 1 2

日本語では, 読み手や聞き手が容易に推測できる語は頻繁に省略される. これらの省略を適切に補完することは, 自然言語解析, とりわけ文脈解析において重要である. 本論文は, 日本語における代表的な省略現象であるゼロ代名詞に焦点を当て, 確率モデルを用いた照応解析手法を提案する. 本手法では, 学習を効率的に行なうため, 確率モデルを統語モデルと意味モデルに分解する. 統語モデルは, ゼロ代名詞の照応関係が付与されたコーパスから学習する. 意味モデルは, 照応関係が付与されていない大規模なコーパスを用いて学習を行ない, データスパースネス問題に対処する. さらに本手法では, 照応解析処理の精度を高めるために確信度を定量化し, 正解としての確信が高いゼロ代名詞のみ選択的に結果を出力することも可能である. 新聞記事を対象にした照応解析実験を通して本手法の有効性を示す.

2019-03-29 18:51:51
1 + 0 Twitter

1 0 0 0 OA 追悼田中穂積先生

著者: 長尾真
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.16, no.5, pp.5_5-5_6, 2009 (Released:2011-07-28)

2019-01-30 22:14:15
1 + 1 Wikipedia

1 0 0 0 OA 共変量シフト下の学習による語義曖昧性解消の教師なし領域適応

著者: 新納浩幸佐々木稔
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.21, no.5, pp.1011-1035, 2014-09-16 (Released:2014-12-16)
参考文献数: 28
被引用文献数: 1

本論文では語義曖昧性解消(Word Sense Disambiguation,WSD)の教師なし領域適応の問題に対して,共変量シフト下の学習を試みる.共変量シフト下の学習では確率密度比 w(x) = PT(x)/PS(x) を重みとした重み付き学習を行うが,WSD の場合,推定される確率密度比の値が小さくなる傾向がある.ここでは PT(x) と PS(x) をそれぞれ求めて,その比を取ることで w(x) を推定するが,PS(x) を求める際に,ターゲット領域のコーパスとソース領域のコーパスを合わせたコーパスを,新たにソース領域のコーパス S と見なすことで,先の問題に対処する.BCCWJ の 3 つの領域 OC (Yahoo! 知恵袋),PB(書籍)及び PN(新聞)を選び,SemEval-2 の日本語 WSD タスクのデータを利用して,多義語 16 種類を対象に,WSD の領域適応の実験を行った.w(x) を推定する手法として,PT(x) と PS(x) を求めずに,w(x) を直接推定する uLSIF も試みた.また確率密度比を上方修正するために「p 乗する」「相対確率密度比を取る」という手法も組み合わせて試みた.それらの実験の結果,提案手法の有効性が示された.

2019-01-29 20:48:29
1 + 0 Twitter

1 0 0 0 スポーツ要約生成におけるテンプレート型手法とニューラル型手法の提案と比較

著者: 田川裕輝嶋田和孝
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.25, no.4, pp.357-391, 2018

<p>本研究では,日本で人気のある野球に着目し,Play-by-play データからイニングの要約文の生成に取り組む.Web 上では多くの野球に関する速報が配信されている.戦評は試合終了後にのみ更新され,"待望の先制点を挙げる"のような試合の状況をユーザに伝えるフレーズ(本論文では Game-changing Phrase; GP と呼ぶ)が含まれているのが特徴であり,読み手は試合の状況を簡単に知ることができる.このような特徴を踏まえ,任意の打席に対して,GP を含む要約文を生成することは,試合終了後だけでなく,リアルタイムで試合の状況を知りたい場合などに非常に有益であるといえる.そこで,本研究では Play-by-play データから GP を含む要約文の生成に取り組む.また,要約生成手法としてテンプレート型文生成手法と Encoder-Decoder モデルを利用した手法の 2 つを提案する.</p>

2019-01-24 23:45:15
1 + 0 Twitter

1 0 0 0 質問文中のキーワードと解候補の連想の強さを用いた解の決定

著者: 外池昌嗣宇津呂武仁佐藤理史
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.12, no.5, pp.3-42, 2005

質問応答システムにおける処理の流れのうち, 何らかの方法で抽出された複数の解候補に川頁位付けし, 答えを選ぶステップのことを本論文では, 解選択のステップと呼ぶ.本論文では, 大規模かつ日々更新されるウェブを利用して, 質問文中の重要語句 (キーワード) と解候補の共起に基づく語彙的関係 (連想) の強さを測定し, これに基づいて解選択をする.この連想の強さはウェブのサーチエンジンのヒット数から計算できる尺度で表す.本論文では, この連想を利用した解選択法を2つ提案する.1つ目の手法は, あらかじめ決めておいた語の重みに基づいて質問文からキーワードを選択した後, キーワードと解候補の連想の強さに基づいて解を決める方法である.2つ目の手法は, キーワードと解候補の連想の強さを利用して, その質問にとって最も適切なキーワードと解候補を同時に選ぶ方法である.実験の結果, これら2つの手法を統合した手法で, 4択クイズ「クイズ$ミリオネア」の約79%の問題を解くことができた.また, サーチエンジンのヒット数を用いて解選択を行う従来手法の性能を有意に改善できた.

2019-01-12 07:45:12
1 + 0 Twitter

1 0 0 0 OA 新聞記事データベースを利用した外来語の出現率の推移調査

著者: 柏野和佳子山口昌也桐生りか田中牧郎
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.12, no.4, pp.97-116, 2005-08-26 (Released:2011-03-01)
参考文献数: 11

本研究は, 大規模な経年調査による語彙調査を行い, 外来語の使用状況を定量的に明らかにするものである.語の使用状況をとらえるために使用度数を調査する語彙調査はたいへん有効である.これまでに各種の語彙調査が行われてきたが, 多くは調査時の使用状況の把握を目的にしていたため, 対象年を1年以内に限定するものがほとんどであった.しかしながら, 語の使用状況の把握には, 時間的推移という視点もまた重要である.電子テキスト化された大量の各種の新聞記事データベースが研究に利用できるようになって以来, これを用いて時間的推移を大規模に分析する研究が行われている.ただし, 文字や語彙の全体的な変動を分析したものであり, 個々の語の使用推移に着目して各語の使用状況をとらえようとする分析はまだなかった.そこで, 我々は, 外来語を対象に, 新聞記事データベースを用いて, 語の使用推移, すなわち出現率の推移に着目して語の使用状況をとらえる研究を行った.対象語には, 国立国語研究所「外来語」委員会が第1回と第2回の言い換え提案の対象に選定し, その使用状況の調査が求められていた外来語, 109語を用いた.

2019-01-04 13:02:44
1 + 0 Twitter

1 0 0 0 多様性の導入による推薦システムにおけるユーザ体験向上の試み

著者: 関喜史福島良典吉田宏司松尾豊
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.24, no.1, pp.95-115, 2017

<p>推薦システムのユーザ体験を高めるために重要な指標の 1 つが多様性 (Diversity) である.多様性は推薦システムが提示するリスト内には様々なコンテンツが含まれるべきという考え方であり,過去の研究では多様性が含まれるリストの方がユーザに好まれるとされている.しかし実際のサービス上で推薦システムを検証したという報告は少なく,サービス上で多様性がユーザにどのような影響を与えるのかは明らかになっていない.本研究では実際にサービスとして提供されているウェブページ推薦システムを分析し,その推薦システムに多様性を導入して比較を行った事例について報告する.まず多様性が導入されていない推薦システムのユーザ行動を分析し,結果としてリストの中位以降に表示するウェブページに課題があることを明らかにした.その上で多様性を導入し,多様性のない既存システムとサービス上でのユーザ行動を比較した.結果として継続率やサービス利用日数が有意に改善していることを示し,従来研究で示されていた多様性を含む推薦リストの方がユーザに好まれるということを実サービス上で示した.そして利用日数が増えるに従ってリスト全体のクリック数が改善していくこと,特にリスト下部のクリック率が多様性のない手法では下がっていくのに対して,多様性のある手法では向上していくことを示した.</p>

2018-12-13 13:00:21
1 + 0 Twitter

1 0 0 0 OA 日本語節境界検出プログラムCBAPの開発と評価

著者: 丸山岳彦柏岡秀紀熊野正田中英輝
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.11, no.3, pp.39-68, 2004-07-10 (Released:2011-03-01)
参考文献数: 35
被引用文献数: 6 11

従来の文分割研究において, 文の分割点として利用されてきたのは, 「節」の境界である. しかしながら, 実際に文の分割点として用いられる節境界はごく一部の種類のものに限られており, 文に含まれる節境界を網羅的に検出する手法は考えられてこなかった. 我々は, 日本語の文に含まれる節境界の位置を網羅的に検出し, その種類を特定するプログラム“CBAP (Clause Boundaries Annotation Program)”を開発した. CBAPは, 形態素解析の結果を入力とし, 局所的な形態素の連接を対象としたパタンマッチによって, 147種類の節境界を検出する. CBAPを性質の異なる5種のコーパスに適用したところ, いずれのコーパスでも97%以上の検出性能が確認された. この検出結果を利用することにより, 言語学的に意味のある文の分割点を特定することができ, 従来の手法よりも柔軟に文分割を行なうことができる. また, 1~3形態素という非常に局所的な範囲のみから節境界を検出できるため, 発話に追従して処理を進めていく漸進的構文解析や同時通訳システム, また, 句点を含まない音声コーパスを対象とした発話分割処理などに有用である. 本稿では, CBAPによる節境界の検出手法を示し, 節境界を用いて文分割・発話分割処理を行なった事例をもとに, 節境界検出の有用性を述べる.

2018-09-18 17:39:06
1 + 0 Twitter

1 0 0 0 OA 意味グラフのマッチングによる事故問い合わせ文からの判例検索システムJCare

著者: 原田実鈴木亮南旭瑞
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.9, no.2, pp.3-22, 2002-04-10 (Released:2011-03-01)
参考文献数: 15
被引用文献数: 1

意味解析を用いた情報検索の一手法を提案し, 「判例」を検索対象とし日本語文章で記述した「問い合わせ文」を検索質問とした検索システムJCareを開発する. 本研究では'文章が表す内容を, 語が格納されたノードと語間の関係 (深層格) を表すアークからなる意味グラフとして捉え, 判例文と問い合わせ文の意味グラフ間における位相同型部分の大きさをもとに, 文章間の内容類似度を算出する. このとき検索の高速化・精度向上の目的でViewという考え方を導入する. 視点 (View) により意味グラフを分割したViewグラフの類似度を求めることで, 内容的に関連性の低い文章問の計算時間, またそこから生まれるノイズを排除する.

2018-06-14 22:35:37
1 + 2 Twitter

1 0 0 0 OA 特集号「SemEval-2 日本語タスクを中心とする日本語語義曖昧性解消」

著者: 白井清昭
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.18, no.3, pp.215-216, 2011 (Released:2011-10-04)

2018-06-03 22:40:10
1 + 0 Twitter

1 0 0 0 OA “名詞Aのような名詞B”表現の比喩性判定モデル

著者: 田添丈博椎野努桝井文人河合敦夫
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.10, no.2, pp.43-58, 2003-04-10 (Released:2011-03-01)
参考文献数: 22
被引用文献数: 1 3

我々は文章中に現れる比喩表現, その中でも直喩・隠喩的な比喩について, その認識・抽出を目的として研究を進めている. 本論文では, “名詞Aのような名詞B” 表現について, 名詞の意味情報を用いたパターン分類によって比喩性を判定し, 比喩表現については喩詞 (喩えるもの) と被喩詞 (喩えられるもの) とを正確に抽出できるモデルを提案する. この表現には比喩 (直喩) とリテラル (例示など) の2つの用法があり, また比喩であっても名詞Bが被喩詞ではない場合がある. 我々はそれらを機械的に判定するために, これまでに行ってきた構文パターンやシソーラスを用いて喩詞と被喩詞の候補を抽出する手法を発展させ, 名詞Aと名詞Bの意味情報やその関係に従って “名詞Aのような名詞B” 表現を6つのパターンに分類し, 比喩性を判定し喩詞と被喩詞を特定するモデルを構築した. このモデルを日本語語彙大系の意味情報を利用して実装し, 新聞記事データを用いて検証したところ, 得られたパターン分類結果 (比喩性判定結果) と人間のそれとが一致する割合は, 学習データについては82.9% (未知語データを除く), 評価用データについては72.7% (同) であり, 比喩性判定モデルの全体的な処理の流れは実際の文章中の比喩表現認識に有効であることを示した. また, 比喩語という比喩性を決定づける語についてもその効果を示すことができ, モデルへの組み込みの可能性を示唆した.

2018-04-05 18:26:00
1 はてなブックマーク

1 0 0 0 OA カテゴリ名と記事名の意味属性分類に基づく Wikipedia からの上位下位関係オントロジーの構築

著者: 柴木優美永田昌明山本和英
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.19, no.4, pp.229-279, 2012-12-14 (Released:2013-03-19)
参考文献数: 19

Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した.Wikipedia の記事にはカテゴリが付与され,そのカテゴリは他のカテゴリとリンクして階層構造を作っている.Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある.(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており,これをそのまま利用してオントロジーを構成することは適切でない.(2) Wikipedia のカテゴリ間,及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため,is-a 関係でないリンク関係が多く存在する.これに対して我々は (1) を解決するため,上位のカテゴリ階層を新しく定義し,Wikipedia の上位階層を削除して置き換えた.さらに (2) を解決するため,Wikipedia のカテゴリ間,及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで,Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した.本論文では not-is-a 関係を判定するための 3 つの手法を適用した.これにより,“人”,“組織”,“施設”,“地名”,“地形”,“具体物”,“創作物”,“動植物”,“イベント”の 9 種類の意味属性を最上位カテゴリとした,1 つに統一された is-a 関係のオントロジーを構築した.実験の結果,is-a 関係の精度は,カテゴリ間で適合率 95.3%, 再現率 96.6%,カテゴリ‐記事間で適合率 96.2%,再現率 95.6%と高精度であった.提案手法により,全カテゴリの 84.5%(約 34,000 件),全記事の 88.6%(約 422,000 件)をオントロジー化できた.

2018-03-22 20:36:00
1 はてなブックマーク

1 0 0 0 OA 小規模誤りデータからの日本語学習者作文の助詞誤り訂正

著者: 今村賢治齋藤邦子貞光九月西川仁
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.19, no.5, pp.381-400, 2012-12-14 (Released:2013-03-19)
参考文献数: 20
被引用文献数: 1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.

2018-03-07 00:56:29
1 + 0 Twitter

1 0 0 0 OA 多重タグ付き英語学習者コーパスの開発と英語能力自動測定への応用

著者: 安田圭志喜多村圭祐山本誠一柳田益造
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.16, no.4, pp.4_47-4_63, 2009 (Released:2011-07-28)
参考文献数: 13
被引用文献数: 1 1

本論文では,まず, e ラーニングシステムの研究開発のために構築された英語学習者コーパスについて解説し,次に,このコーパスの分析と,これを用いた英語能力自動測定実験について述べている.本コーパスは,496 名の被験者が各々 300 文の日本語文を英語に翻訳したテキストから構成されており,各被験者の英語の習熟度が TOEIC により測定されている.また,これらに加え,日英バイリンガルによる正解訳も整備されていることから,訳質自動評価の研究に利用することが可能である.このコーパスを用いた応用実験として,BLEU,NIST,WER,PER,METEOR,GTM の 6 つの翻訳自動評価スコアを用いた実験を行なっている.実験において,各自動評価スコアと TOEIC スコアとの相関係数を求めたところ,GTM の相関係数が最も高く,0.74 となった.次に,GTM や,英訳結果の文長や単語長などからなる 5 つのパラメータを説明変数とし,TOEIC を目的変数とした重回帰分析を行なった結果,重相関係数は 0.76 となり,0.02 の相関係数の改善が得られた.

2017-12-18 23:35:33
1 + 0 Twitter

1 0 0 0 OA 検索結果表示向け文書要約における情報利得比に基づく語の重要度計算

著者: 森辰則
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.9, no.4, pp.3-32, 2002-07-10 (Released:2011-03-01)
参考文献数: 26
被引用文献数: 5 5

本稿では, 情報検索の結果として得られた文書集合中の各々の文書を要約する一手法を提案する. この場合の要約の質は, 検索質問一要約文書間の関連性判定が, 検索質問一原文書の間の関連性判定に一致する度合で評価されるので, 検索を考慮した要約が必要となる. 検索質問により語の重みにバイアスを与え, 語の重要度を求める従来手法とは異なり, 我々の方法では, 検索された文書間の表層的類似性を適切に説明する語に高い重みを付与する. 具体的には, 検索文書集合に階層的クラスタリングを適用することにより, 文書間の類似性構造を抽出するとともに, 各クラスタにおける各語の出現確率から, その構造を説明するのに寄与する単語により高い重みを与える. 我々は, その重みづけに情報利得比を用いることを提案する. そして, この語の重み付けに基づき重要文抽出方式による検索文書要約システムを実装した. このシステムを評価型情報検索ワークショップであるNTCIR2におけるText Summarization Challengeの情報検索タスクにより評価した結果, 関連性判定において検索質問バイアス付きTF方式, リード文方式によるベースライン手法ならびに, 他参加システムよりも, 良好な結果を示した.

2017-12-12 15:12:39
1 + 0 Twitter

1 0 0 0 言語資源を活用した実用的な対訳表現抽出

著者: 北村美穂子松本裕治
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.13, no.1, pp.3-25, 2006

高精度の機械翻訳システムや言語横断検索システムを構築するためには, 大規模な対訳辞書が必要である.文対応済みの対訳文書に出現する原言語と目的言語の単語列の共起頻度に基づいて対訳表現を自動抽出する試みは, 対訳辞書を自動的に作成する方法として精度が高く有効な手法の一つである.本稿はこの手法をベースにし, 文節区切り情報や対訳辞書などの言語知識を利用したり, 抽出結果を人間が確認する工程を設けたりすることにより, 高精度で, かつ, カバレッジの高い対訳表現抽出方法を提案する.また, 抽出にかかる時間を削減するために, 対訳文書を分割し, 抽出対象とする文書量を徐々に増やしながら確からしい対訳表現から段階的に抽出していくという手法についても検討する.8,000文の対訳文書による実験では, 従来手法は精度40%, カバレッジ79%であったのに対し, 言語知識を利用した提案手法では, 精度89%, カバレッジ85%と向上した.さらに人手による確認工程を設けることにより, 精度が96%, カバレッジが85%と向上した.また, 16,000文の対訳文書による実験では, 対訳文書を分割しない方法では抽出時間が約16時間であったのに対し, 文書を4分割する方法では, 約9時間に短縮されたことを確認した.

2017-10-17 10:30:11
1 + 0 Twitter

1 0 0 0 OA 日本語学習者の作文における誤用タイプの階層的アノテーションに基づく機械学習による自動分類

著者: 大山浩美小町守松本裕治
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.23, no.2, pp.195-225, 2016-03-14 (Released:2016-06-14)
参考文献数: 47
被引用文献数: 5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.

2017-08-02 16:49:39
1 + 0 Twitter

1 0 0 0 OA 仮説検定に基づく英文書の母語話者性の判別

著者: 冨浦洋一青木さやか柴田雅博行野顕正
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.16, no.1, pp.1_25-1_46, 2009 (Released:2011-09-14)
参考文献数: 17
被引用文献数: 1

本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 n-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.n を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 n-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.

2017-07-11 00:45:09
1 + 0 Twitter

1 0 0 0 クラスタリングを利用した語義曖昧性解消の誤り原因のタイプ分け

著者: 新納浩幸村田真樹白井清昭福本文代藤田早苗佐々木稔古宮嘉那子乾孝司
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.22, no.5, pp.319-362, 2015

語義曖昧性解消の誤り分析を行う場合,まずどのような原因からその誤りが生じているかを調べ,誤りの原因を分類しておくことが一般的である.この分類のために,分析対象データに対して分析者 7 人が独自に設定した誤り原因のタイプを付与したが,各自の分析結果はかなり異なり,それらを議論によって統合することは負荷の高い作業であった.そこでクラスタリングを利用してある程度機械的にそれらを統合することを試み,最終的に 9 種類の誤り原因として統合した.この 9 種類の中の主要な 3 つの誤り原因により,語義曖昧性解消の誤りの 9 割が生じていることが判明した.またタイプ分類間の類似度を定義することで,統合した誤り原因のタイプ分類が,各自の分析結果を代表していることを示した.また統合した誤り原因のタイプ分類と各自の誤り原因のタイプ分類を比較し,ここで得られた誤り原因のタイプ分類が標準的であることも示した.

2017-05-29 22:50:00
1 はてなブックマーク

1 0 0 0 Wikipedia を利用した上位下位関係の詳細化

著者: 山田一郎橋本力呉鍾勲鳥澤健太郎黒田航 Stijn De Saeger 土田正明風間淳一
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.19, no.1, pp.3-23, 2012
被引用文献数: 1

単語の上位下位関係を自動獲得する研究はこれまで活発に行われてきたが,上位概念の詳細さに関する議論はほとんどなされてこなかった.自動獲得された上位下位関係の中には,例えば「作品→七人の侍」や「作品→1Q84」のように,より適切と考えられる上位概念「映画」や「小説」と比べて広範囲な概念をカバーする上位概念(「作品」)が含まれることがある.このような上位概念を検索や質問応答などのタスクにおいて利用すると,より詳細な上位概念を利用する手法と比較して有用でないことが多い.そこで本論文では,自動獲得した上位下位関係を,Wikipedia の情報を利用することでより詳細にする手法を提案する.例えば「作品→七人の侍」から,「作品→映画監督の作品→黒澤明の作品→七人の侍」のように,単語「七人の侍」の上位概念(かつ,単語「作品」の下位概念)として,2種類の中間ノード「黒澤明の作品」,「映画監督の作品」を生成することにより,元の上位下位関係を詳細化する.自動獲得した 1,925,676 ペアの上位下位関係を対象とした実験では,最も詳細な上位概念となる一つ目の中間ノード(「黒澤明の作品」など)を重み付き適合率 85.3%で 2,719,441 個,二つ目の中間ノード(「映画監督の作品」など)を重み付き適合率 78.6% で 6,347,472 個生成し,高精度に上位下位関係を詳細化できることを確認した.さらに,生成した上位下位関係が「対象–属性–属性値」として解釈できることについても報告する.

2017-03-28 02:00:08
1 + 0 Twitter