著者
森 辰則 瀧野 弘幸 中川 裕志
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.4, pp.3-18, 1995-10

我々は,接続助詞「ので」による順接の複文と接続助詞「のに」による逆接の複文を対象とする理解システムを計算機上に構築することを目的とする.この際には,ゼロ代名詞の照応の解析が重要な問題となるが,文献(中川1994; Nakagawa and Nishizawa1994) にあるように,本論文で扱う形式の複文では動機保持者という語用論的役割を新たに定義し用いることにより,従属節と主節それぞれで設定される意味役割や語用論的役割の間の関係を制約として記述することができる.そこで,日本語の複文に対する形態素解析や構文解析の結果を素性構造で記述し,この結果に対して制約論理プログラミングの手法を用いることにより意味および語用論的役割間の制約を解消し,ゼロ代名詞照応などを分析する理解システムを計算機上に構築した.

1 0 0 0 OA 訂正

出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.4, pp.90-90, 1995 (Released:2011-03-01)
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
奥村 明俊 石川 開 佐藤 研治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.5, no.4, pp.77-93, 1998

クロス言語検索手法GDMAXは, 日本語入力から英語ドキュメントの検索を可能にする. GDMAXは, 対訳辞書によって入力キュエリから翻訳キュエリ候補を生成し, キュエリからそれぞれの言語のコーパスにおけるキュエリタームの共起頻度を成分とすそ共起頻度ベクトルを生成する. 入力共起頻度ベクトルと翻訳共起頻度ベクトルとの距離によって, 翻訳キュエリ候補をランキングし, 上位の英語キュエリ集合を検索キュエリとする. この手法によって, 一つの対訳だけでなく適切な複数の訳語集合を英言語キュエリとして得ることができる. ウォールストリートジャーナルやAP通信など2ギガの英語ドキュメントについて適合率と再現率で評価したところ, 理想訳と比べて約62%の精度を得て, 対訳辞書のすべての訳語候補を用いる場合と比べて12%, 機械翻訳による訳語選択と比べて6%高い精度を得ることができた.
著者
隅田 飛鳥 吉永 直樹 鳥澤 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_3-3_24, 2009 (Released:2011-09-01)
参考文献数
21
被引用文献数
2 6 12

本稿では,Wikipedia の記事構造を知識源として,高精度で大量の上位下位関係を自動獲得する手法について述べる.上位下位関係は情報検索や Web ディレクトリなど,膨大な Web 文書へのアクセスを容易にする様々な技術への応用が期待されており,これまでにも様々な上位下位関係の抽出手法が開発されてきた.本稿では,Wikipedia の記事構造に含まれる節や箇条書きの見出しから,大量の上位下位関係候補を抽出し,機械学習を用いてフィルタリングすることで高精度の上位下位関係を獲得する手法を開発した.実験では,2007 年 3 月の日本語版 Wikipedia 2.2 GB から,約 77 万語を含む約 135 万対の上位下位関係を精度 90% で獲得することができた.
著者
中野 てい子 冨浦 洋一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.1, pp.3-29, 2011
被引用文献数
1

日本語学習者が産出する名詞 <I>n</I>,格助詞 <I>c</I>,動詞 <I>v</I> から成る不自然な共起表現 〈<I>n</I>,<I>c</I>,<I>v</I>〉 の中には,動詞選択の誤りに起因するものがある.本稿では,学習者が入力する共起表現 〈<I>n</I>,<I>c</I>,<I>v</I>〉の <I>v</I> に対する適切な代替動詞候補を与える手法を提案する.不自然な共起表現中の動詞(誤用動詞)と自然な共起表現となるように修正した適切な動詞(正用動詞)とは出現環境が類似している傾向にあると考えられる.この仮説に基づき,大規模な母語話者コーパスから得られる統計情報を用いて,〈<I>n</I>,<I>c</I>〉 との共起が自然と言える代替動詞候補を,学習者が入力した共起表現の動詞との出現環境の類似度の降順に提示する.まず,誤用動詞とその正用動詞のデータに基づいてこの仮説を検証し,さらに,同データを用いて提案手法に基づいた共起表現に関する作文支援システムの実用性について検討する.
著者
佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.5, pp.5_1-5_1, 2010 (Released:2011-04-15)
被引用文献数
1
著者
松本 忠博 池田 尚志
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.1, pp.23-51, 2008-01-10 (Released:2011-03-01)
参考文献数
39
被引用文献数
1 2 3

手話は言語でありろう者の母語である.手話と音声言語の間のコミュニケーションには手話通訳が必要となるが, 手話通訳士の数は圧倒的に不足している.両言語間のコミュニケーションを支援する技術が期待される.本論文は日本語と手話との間の機械翻訳を目指して, その一つのステップとして, 日本語テキストから手話テキストへの機械翻訳を試みたものである.機械翻訳をはじめとする自然言語処理技術はテキストを対象としているが, 手話には文字による表現がないため, それらを手話にそのまま適用することができない.我々は言語処理に適した日本手話の表記法を導入することで, 音声言語間の翻訳と同様に, 日本語テキストから手話テキストへの機械翻訳を試みた.日本語から種々の言語への機械翻訳を目的として開発中のパターン変換型機械翻訳エンジンjawをシステムのベースに用いている.目的言語である手話の内部表現構造を設定し, 日本語テキストを手話の表現構造へ変換する翻訳規則と, 表現構造から手話テキストを生成する線状化規則を与えることで実験的な翻訳システムを作成した.日本手話のビデオ教材等から例文を抽出し, その翻訳に必要な規則を与えることで, 日本語から手話に特徴的な表現を含んだ手話テキストへの翻訳が可能であることを確認するとともに, 現状の問題点を分析した.
著者
三品 賢一 土屋 誠司 鈴木 基之 任 福継
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.4, pp.91-110, 2010
被引用文献数
5

発話文を感情ごとに分類したコーパスを構築し,入力文と最も類似度が高い発話文を含むコーパスの感情を推定結果として出力する用例ベースの感情推定手法が提案されている.従来手法ではコーパスを構築する際,発話テキストの収集者が個人個人で発話文の分類先を決定しているため,分類先を決定する基準が個々によってぶれてしまう.これにより,例えば"希望"のコーパスの中に喜びの発話文が混じるといったことが起こり,推定成功率を下げてしまう.本稿ではこの問題を解決するため,コーパスごとにおける入力文の形態素列の出現回数を用いて,入力文とコーパスの類似度を定義する.そしてこの類似度を従来手法に導入した新たな類似度計算式を提案する.これにより,誤って分類されてしまった発話文の影響を緩和することができる.評価実験では従来手法と比べて成功率が 21.5 ポイント向上し,提案手法の有効性が確認できた.
著者
注連 隆夫 土屋 雅稔 松吉 俊 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.5, pp.167-197, 2007-10-10 (Released:2011-06-07)
参考文献数
32
被引用文献数
3 5

日本語には, 「にあたって」や「をめぐって」のように, 2つ以上の語から構成され, 全体として1つの機能的な意味をもつ機能表現という表現が存在する.一方, この機能表現に対して, それと同一表記をとり, 内容的な意味をもつ表現が存在することがある.そして, この表現が存在することによって, 機能表現の検出は困難であり, 機能表現を正しく検出できる機能表現検出器が必要とされている.そこで, 本論文では, 日本語機能表現を機械学習を用いて検出する手法を提案する.提案手法では, Support Vector Machine (SVM) を用いたチャンカーYam Chaを利用して, 形態素解析結果を入力とする機能表現検出器を構築する.具体的には, 形態素解析によって得られる形態素の情報と, 機能表現を構成している形態素の数の情報, 機能表現中における形態素の位置情報, 機能表現の前後の文脈の情報を学習・解析に使用することにより, F値で約93%という高精度の検出器を実現した.さらに, 本論文では, 機能表現検出器の解析結果を入力として, 機能表現を考慮した係り受け解析器を提案する.提案手法では, Support Vector Machine (SVM) に基づく統計的係り受け解析手法を利用して, 機能表現を考慮した係り受け解析器を構築する.具体的には, 京都テキストコーパスに対して, 機能表現の情報を人手で付与し, 機能表現の情報を基に文節の区切りや係り先の情報を機能表現を考慮したものに変換した.そして, SVMに基づく統計的係り受け解析の学習・解析ツールCabo Chaを用いて, 変i換したデータを学習し, 機能表現を考慮した係り受け解析を実現した.評価実験では, 従来の係り受け解析手法よりもよい性能を示すことができた.
著者
松吉 俊 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.2, pp.75-99, 2008-04-10 (Released:2011-03-01)
参考文献数
21
被引用文献数
4 5

日本語には, 「にたいして」や「なければならない」に代表されるような, 複数の形態素からなっているが, 全体として1つの機能語のように働く複合辞が多く存在する. われわれは, 機能語と複合辞を合わせて機能表現と呼ぶ. 本論文では, 形態階層構造と意味階層構造を持つ機能表現辞書を用いることにより, 文体と難易度を制御しつつ, 日本語機能表現を言い換える手法を提案する. ほとんどの機能表現は, 多くの形態的異形を持ち, それぞれの異形は, その文体として, 常体, 敬体, 口語体, 堅い文体のいずれかをとる. 1つの文章においては, 原則として, 一貫して1つの文体を使い続けなければならないため, 機能表現を言い換える際には, 文体を制御する必要がある. また, 文章読解支援二などの応用においては, 難易度の制御は必須である. 実装した言い換えシステムは, オープンテストにおいて, 入力文節の79% (496/628) に対して, 適切な代替表現を生成した.
著者
岡崎 直観 辻井 潤一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.89-117, 2011 (Released:2011-09-28)
参考文献数
34
被引用文献数
2

本論文では,コサイン係数,ダイス係数,ジャッカード係数,オーバーラップ係数に対し,簡潔かつ高速な類似文字列検索アルゴリズムを提案する.本論文では,文字列を任意の特徴(tri-gram など)の集合で表現し,類似文字列検索における必要十分条件及び必要条件を導出する.そして,類似文字列検索が転置リストにおける τ オーバーラップ問題として正確に解けることを示す.次に,τ オーバーラップ問題の効率的な解法として,CPMerge アルゴリズムを提案する.CPMerge は,検索クエリ文字列中のシグニチャと呼ばれる特徴と,解候補が枝刈りできる条件に着目し,τ オーバーラップ問題の解候補を絞り込む.さらに,CPMerge アルゴリズムの実装上の工夫について言及する.英語の人名,日本語の単語,生命医学分野の固有表現の 3 つの大規模文字列データセットを用い,類似文字列検索の性能を評価する.実験では,類似文字列検索の最近の手法である Locality Sensitive Hashing や DivideSkip 等と提案手法を比較し,提案手法が全てのデータセットにおいて,最も高速かつ正確に文字列を検索できることを実証する.また,提案手法による類似文字列検索が高速になる要因について,分析を行う.なお,提案手法をライブラリとして実装したものは,SimString としてオープンソースライセンスで公開している.
著者
Wenliang Gao Nobuhiro Kaji Naoki Yoshinaga Masaru Kitsuregawa
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.541-561, 2014-06-16 (Released:2014-09-16)
参考文献数
20
被引用文献数
1 3

We propose a method of collective sentiment classification that assumes dependencies among labels of an input set of reviews. The key observation behind our method is that the distribution of polarity labels over reviews written by each user or written on each product is often skewed in the real world; intolerant users tend to report complaints while popular products are likely to receive praise. We encode these characteristics of users and products (referred to as user leniency and product popularity) by introducing global features in supervised learning. To resolve dependencies among labels of a given set of reviews, we explore two approximated decoding algorithms, “easiest-first decoding” and “two-stage decoding.” Experimental results on real-world datasets with user and/or product information confirm that our method contributed greatly to classification accuracy.
著者
山本 英子 梅村 恭司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.2, pp.45-75, 2002-04-10 (Released:2011-03-01)
参考文献数
25
被引用文献数
2 6

本論文では, コーパスから事象間の一対多関係を推定する問題を考える. これまでにコーパスから事象間の関係を推定することが多く研究されている. 一般に, この問題に対する解決法の多くは, コーパスを構成する文書における事象の共起に基づき, 暗黙的に事象間の関係は一対一関係であることを想定している. しかし, 実際には, 事象間の関係は一対多関係である場合があり, この特徴のためにいくつかの工夫が必要である. 本論文では, コーパス中の一対多関係を推定するために補完類似度を利用することを提案する. この尺度は本来文字認識システムのために開発され, テンプレートの文字のパターンにオーバーラップしたパターンがある条件で有効であることが知られているが, これまでテキスト処理に利用されたことはなかった. この補完類似度の一対多関係を推定する能力を評価するために, 地名 (都道府県市郡名) を対象事象とした実験において, 平均相互情報量, 自己相互情報量, 非対称平均相互情報量, ∅相関係数, コサイン関数ダイス相関係数, 信頼度との性能比較を行う. 実験では, 三種類のコーパスを用いる. 一つ目は実際に地名問にある一対多関係から合成する人工的なデータ集合である. 二つ目も実際の関係から合成するが, 誤った関係を導く少量の要素も含むデータ集合である. 三つ目は現実の新聞記事コーパスから得られるデータ集合である. これらの評価実験において, 補完類似度がもっとも優れており, 補完類似度は一対多関係の推定問題に対して有効であることを示す.
著者
望月 源 岩山 真 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.3, pp.101-126, 1999
被引用文献数
7

計算機上の文書データの増大に伴い, 膨大なデータの中からユーザの求める文書を効率よく索き出す文書検索の重要性が高まっている. 伝統的な検索手法では, 文書全体を1つのまとまりとして考え検索要求との類似度を計算する. しかし, 実際の文書, 特に長い文書では様々な話題が存在し, 文書中の各部分によって扱われる話題が異なる場合も多く見られる. そのため, 最近の文書検索では, ユーザの入力した検索要求と関連の高い文書の一部分を取り出して類似度を計算するパッセージレベルの検索が注目されている. パッセージ検索におけるパッセージとは, 文書中で検索要求の内容と強く関連する内容を持つ連続した一部分のことを言う. パッセージ検索では, このパッセージをどのように決定するかが問題となる. 良いパッセージを決定するためには, パッセージ自体が意味的なまとまりを形成し, パッセージの位置やサイズが検索要求や文書に応じて柔軟に設定される必要があると考えられる. 本稿では, 文書中の文脈情報である語彙的連鎖を利用し, 検索要求と文書の適切な類似度を計算できるパッセージ決定手法について述べる. また, このパッセージを使用し, 検索精度を向上させる検索手法について述べる.
著者
筒井 貴士 我満 拓弥 大城 卓 菅原 晃平 永井 隆広 渋木 英潔 木村 泰知 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.125-155, 2014
被引用文献数
1

近年,国会や地方議会などの会議録が Web 上に公開されている.会議録は,首長や議員の議論が書き起こされた話し言葉のデータであり,長い年月の議論が記録された通時的なデータであることから,政治学,経済学,言語学,情報工学等の様々な分野において研究の対象とされている.国会会議録を利用した研究は会議録の整備が進んでいることから,多くの分野で行われている.その一方で,地方議会会議録を利用した研究については,各分野で研究が行われているものの,自治体によりWeb上で公開されている形式が異なることが多いため,収集作業や整形作業に労力がかかっている.また,各研究者が重複するデータの電子化作業を個別に行っているといった非効率な状況も招いている.このような背景から,我々は多くの研究者が利用することを目的として,地方議会会議録を収集し,地方議会会議録コーパスを構築した.本稿では,我々が構築した地方議会会議録コーパスについて論ずる.同コーパスは,Web上で公開されている全国の地方議会会議録を対象として,「いつ」「どの会議で」「どの議員が」「何を発言したのか」などの各種情報を付与し,検索可能な形式で収録した.また,我々は会議録における発言を基に利用者と政治的に近い考えをもつ議員を判断して提示するシステムを最終的な目的としており,その開発に向けて,分析,評価用のデータ作成のために会議録中の議員の政治的課題に対する賛否とその積極性に関する注釈付けをコーパスの一部に対して行った.本稿では,注釈付けを行った結果についても報告する.