著者
田添 丈博 椎野 努 桝井 文人 河合 敦夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.2, pp.43-58, 2003-04-10 (Released:2011-03-01)
参考文献数
22
被引用文献数
1 3

我々は文章中に現れる比喩表現, その中でも直喩・隠喩的な比喩について, その認識・抽出を目的として研究を進めている. 本論文では, “名詞Aのような名詞B” 表現について, 名詞の意味情報を用いたパターン分類によって比喩性を判定し, 比喩表現については喩詞 (喩えるもの) と被喩詞 (喩えられるもの) とを正確に抽出できるモデルを提案する. この表現には比喩 (直喩) とリテラル (例示など) の2つの用法があり, また比喩であっても名詞Bが被喩詞ではない場合がある. 我々はそれらを機械的に判定するために, これまでに行ってきた構文パターンやシソーラスを用いて喩詞と被喩詞の候補を抽出する手法を発展させ, 名詞Aと名詞Bの意味情報やその関係に従って “名詞Aのような名詞B” 表現を6つのパターンに分類し, 比喩性を判定し喩詞と被喩詞を特定するモデルを構築した. このモデルを日本語語彙大系の意味情報を利用して実装し, 新聞記事データを用いて検証したところ, 得られたパターン分類結果 (比喩性判定結果) と人間のそれとが一致する割合は, 学習データについては82.9% (未知語データを除く), 評価用データについては72.7% (同) であり, 比喩性判定モデルの全体的な処理の流れは実際の文章中の比喩表現認識に有効であることを示した. また, 比喩語という比喩性を決定づける語についてもその効果を示すことができ, モデルへの組み込みの可能性を示唆した.
著者
柴木 優美 永田 昌明 山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.4, pp.229-279, 2012-12-14 (Released:2013-03-19)
参考文献数
19

Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した.Wikipedia の記事にはカテゴリが付与され,そのカテゴリは他のカテゴリとリンクして階層構造を作っている.Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある.(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており,これをそのまま利用してオントロジーを構成することは適切でない.(2) Wikipedia のカテゴリ間,及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため,is-a 関係でないリンク関係が多く存在する.これに対して我々は (1) を解決するため,上位のカテゴリ階層を新しく定義し,Wikipedia の上位階層を削除して置き換えた.さらに (2) を解決するため,Wikipedia のカテゴリ間,及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで,Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した.本論文では not-is-a 関係を判定するための 3 つの手法を適用した.これにより,“人”,“組織”,“施設”,“地名”,“地形”,“具体物”,“創作物”,“動植物”,“イベント”の 9 種類の意味属性を最上位カテゴリとした,1 つに統一された is-a 関係のオントロジーを構築した.実験の結果,is-a 関係の精度は,カテゴリ間で適合率 95.3%, 再現率 96.6%,カテゴリ‐記事間で適合率 96.2%,再現率 95.6%と高精度であった.提案手法により,全カテゴリの 84.5%(約 34,000 件),全記事の 88.6%(約 422,000 件)をオントロジー化できた.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14 (Released:2013-03-19)
参考文献数
20
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
安田 圭志 喜多村 圭祐 山本 誠一 柳田 益造
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.4, pp.4_47-4_63, 2009 (Released:2011-07-28)
参考文献数
13
被引用文献数
1 1

本論文では,まず, e ラーニングシステムの研究開発のために構築された英語学習者コーパスについて解説し,次に,このコーパスの分析と,これを用いた英語能力自動測定実験について述べている.本コーパスは,496 名の被験者が各々 300 文の日本語文を英語に翻訳したテキストから構成されており,各被験者の英語の習熟度が TOEIC により測定されている.また,これらに加え,日英バイリンガルによる正解訳も整備されていることから,訳質自動評価の研究に利用することが可能である.このコーパスを用いた応用実験として,BLEU,NIST,WER,PER,METEOR,GTM の 6 つの翻訳自動評価スコアを用いた実験を行なっている.実験において,各自動評価スコアと TOEIC スコアとの相関係数を求めたところ,GTM の相関係数が最も高く,0.74 となった.次に,GTM や,英訳結果の文長や単語長などからなる 5 つのパラメータを説明変数とし,TOEIC を目的変数とした重回帰分析を行なった結果,重相関係数は 0.76 となり,0.02 の相関係数の改善が得られた.
著者
森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.4, pp.3-32, 2002-07-10 (Released:2011-03-01)
参考文献数
26
被引用文献数
5 5

本稿では, 情報検索の結果として得られた文書集合中の各々の文書を要約する一手法を提案する. この場合の要約の質は, 検索質問一要約文書間の関連性判定が, 検索質問一原文書の間の関連性判定に一致する度合で評価されるので, 検索を考慮した要約が必要となる. 検索質問により語の重みにバイアスを与え, 語の重要度を求める従来手法とは異なり, 我々の方法では, 検索された文書間の表層的類似性を適切に説明する語に高い重みを付与する. 具体的には, 検索文書集合に階層的クラスタリングを適用することにより, 文書間の類似性構造を抽出するとともに, 各クラスタにおける各語の出現確率から, その構造を説明するのに寄与する単語により高い重みを与える. 我々は, その重みづけに情報利得比を用いることを提案する. そして, この語の重み付けに基づき重要文抽出方式による検索文書要約システムを実装した. このシステムを評価型情報検索ワークショップであるNTCIR2におけるText Summarization Challengeの情報検索タスクにより評価した結果, 関連性判定において検索質問バイアス付きTF方式, リード文方式によるベースライン手法ならびに, 他参加システムよりも, 良好な結果を示した.
著者
北村 美穂子 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.1, pp.3-25, 2006

高精度の機械翻訳システムや言語横断検索システムを構築するためには, 大規模な対訳辞書が必要である.文対応済みの対訳文書に出現する原言語と目的言語の単語列の共起頻度に基づいて対訳表現を自動抽出する試みは, 対訳辞書を自動的に作成する方法として精度が高く有効な手法の一つである.本稿はこの手法をベースにし, 文節区切り情報や対訳辞書などの言語知識を利用したり, 抽出結果を人間が確認する工程を設けたりすることにより, 高精度で, かつ, カバレッジの高い対訳表現抽出方法を提案する.また, 抽出にかかる時間を削減するために, 対訳文書を分割し, 抽出対象とする文書量を徐々に増やしながら確からしい対訳表現から段階的に抽出していくという手法についても検討する.8,000文の対訳文書による実験では, 従来手法は精度40%, カバレッジ79%であったのに対し, 言語知識を利用した提案手法では, 精度89%, カバレッジ85%と向上した.さらに人手による確認工程を設けることにより, 精度が96%, カバレッジが85%と向上した.また, 16,000文の対訳文書による実験では, 対訳文書を分割しない方法では抽出時間が約16時間であったのに対し, 文書を4分割する方法では, 約9時間に短縮されたことを確認した.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016-03-14 (Released:2016-06-14)
参考文献数
47
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
冨浦 洋一 青木 さやか 柴田 雅博 行野 顕正
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.1, pp.1_25-1_46, 2009 (Released:2011-09-14)
参考文献数
17
被引用文献数
1

本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 n-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.n を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 n-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.
著者
新納 浩幸 村田 真樹 白井 清昭 福本 文代 藤田 早苗 佐々木 稔 古宮 嘉那子 乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.319-362, 2015

語義曖昧性解消の誤り分析を行う場合,まずどのような原因からその誤りが生じているかを調べ,誤りの原因を分類しておくことが一般的である.この分類のために,分析対象データに対して分析者 7 人が独自に設定した誤り原因のタイプを付与したが,各自の分析結果はかなり異なり,それらを議論によって統合することは負荷の高い作業であった.そこでクラスタリングを利用してある程度機械的にそれらを統合することを試み,最終的に 9 種類の誤り原因として統合した.この 9 種類の中の主要な 3 つの誤り原因により,語義曖昧性解消の誤りの 9 割が生じていることが判明した.またタイプ分類間の類似度を定義することで,統合した誤り原因のタイプ分類が,各自の分析結果を代表していることを示した.また統合した誤り原因のタイプ分類と各自の誤り原因のタイプ分類を比較し,ここで得られた誤り原因のタイプ分類が標準的であることも示した.
著者
山田 一郎 橋本 力 呉 鍾勲 鳥澤 健太郎 黒田 航 Stijn De Saeger 土田 正明 風間 淳一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.1, pp.3-23, 2012
被引用文献数
1

単語の上位下位関係を自動獲得する研究はこれまで活発に行われてきたが,上位概念の詳細さに関する議論はほとんどなされてこなかった.自動獲得された上位下位関係の中には,例えば「作品→七人の侍」や「作品→1Q84」のように,より適切と考えられる上位概念「映画」や「小説」と比べて広範囲な概念をカバーする上位概念(「作品」)が含まれることがある.このような上位概念を検索や質問応答などのタスクにおいて利用すると,より詳細な上位概念を利用する手法と比較して有用でないことが多い.そこで本論文では,自動獲得した上位下位関係を,Wikipedia の情報を利用することでより詳細にする手法を提案する.例えば「作品→七人の侍」から,「作品→映画監督の作品→黒澤明の作品→七人の侍」のように,単語「七人の侍」の上位概念(かつ,単語「作品」の下位概念)として,2種類の中間ノード「黒澤明の作品」,「映画監督の作品」を生成することにより,元の上位下位関係を詳細化する.自動獲得した 1,925,676 ペアの上位下位関係を対象とした実験では,最も詳細な上位概念となる一つ目の中間ノード(「黒澤明の作品」など)を重み付き適合率 85.3%で 2,719,441 個,二つ目の中間ノード(「映画監督の作品」など)を重み付き適合率 78.6% で 6,347,472 個生成し,高精度に上位下位関係を詳細化できることを確認した.さらに,生成した上位下位関係が「対象–属性–属性値」として解釈できることについても報告する.
著者
森 辰則 瀧野 弘幸 中川 裕志
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.4, pp.3-18, 1995-10

我々は,接続助詞「ので」による順接の複文と接続助詞「のに」による逆接の複文を対象とする理解システムを計算機上に構築することを目的とする.この際には,ゼロ代名詞の照応の解析が重要な問題となるが,文献(中川1994; Nakagawa and Nishizawa1994) にあるように,本論文で扱う形式の複文では動機保持者という語用論的役割を新たに定義し用いることにより,従属節と主節それぞれで設定される意味役割や語用論的役割の間の関係を制約として記述することができる.そこで,日本語の複文に対する形態素解析や構文解析の結果を素性構造で記述し,この結果に対して制約論理プログラミングの手法を用いることにより意味および語用論的役割間の制約を解消し,ゼロ代名詞照応などを分析する理解システムを計算機上に構築した.

1 0 0 0 OA 訂正

出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.4, pp.90-90, 1995 (Released:2011-03-01)
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
奥村 明俊 石川 開 佐藤 研治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.5, no.4, pp.77-93, 1998

クロス言語検索手法GDMAXは, 日本語入力から英語ドキュメントの検索を可能にする. GDMAXは, 対訳辞書によって入力キュエリから翻訳キュエリ候補を生成し, キュエリからそれぞれの言語のコーパスにおけるキュエリタームの共起頻度を成分とすそ共起頻度ベクトルを生成する. 入力共起頻度ベクトルと翻訳共起頻度ベクトルとの距離によって, 翻訳キュエリ候補をランキングし, 上位の英語キュエリ集合を検索キュエリとする. この手法によって, 一つの対訳だけでなく適切な複数の訳語集合を英言語キュエリとして得ることができる. ウォールストリートジャーナルやAP通信など2ギガの英語ドキュメントについて適合率と再現率で評価したところ, 理想訳と比べて約62%の精度を得て, 対訳辞書のすべての訳語候補を用いる場合と比べて12%, 機械翻訳による訳語選択と比べて6%高い精度を得ることができた.
著者
隅田 飛鳥 吉永 直樹 鳥澤 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_3-3_24, 2009 (Released:2011-09-01)
参考文献数
21
被引用文献数
2 6 12

本稿では,Wikipedia の記事構造を知識源として,高精度で大量の上位下位関係を自動獲得する手法について述べる.上位下位関係は情報検索や Web ディレクトリなど,膨大な Web 文書へのアクセスを容易にする様々な技術への応用が期待されており,これまでにも様々な上位下位関係の抽出手法が開発されてきた.本稿では,Wikipedia の記事構造に含まれる節や箇条書きの見出しから,大量の上位下位関係候補を抽出し,機械学習を用いてフィルタリングすることで高精度の上位下位関係を獲得する手法を開発した.実験では,2007 年 3 月の日本語版 Wikipedia 2.2 GB から,約 77 万語を含む約 135 万対の上位下位関係を精度 90% で獲得することができた.
著者
中野 てい子 冨浦 洋一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.1, pp.3-29, 2011
被引用文献数
1

日本語学習者が産出する名詞 <I>n</I>,格助詞 <I>c</I>,動詞 <I>v</I> から成る不自然な共起表現 〈<I>n</I>,<I>c</I>,<I>v</I>〉 の中には,動詞選択の誤りに起因するものがある.本稿では,学習者が入力する共起表現 〈<I>n</I>,<I>c</I>,<I>v</I>〉の <I>v</I> に対する適切な代替動詞候補を与える手法を提案する.不自然な共起表現中の動詞(誤用動詞)と自然な共起表現となるように修正した適切な動詞(正用動詞)とは出現環境が類似している傾向にあると考えられる.この仮説に基づき,大規模な母語話者コーパスから得られる統計情報を用いて,〈<I>n</I>,<I>c</I>〉 との共起が自然と言える代替動詞候補を,学習者が入力した共起表現の動詞との出現環境の類似度の降順に提示する.まず,誤用動詞とその正用動詞のデータに基づいてこの仮説を検証し,さらに,同データを用いて提案手法に基づいた共起表現に関する作文支援システムの実用性について検討する.
著者
佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.5, pp.5_1-5_1, 2010 (Released:2011-04-15)
被引用文献数
1