著者
隅田 飛鳥 吉永 直樹 鳥澤 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_3-3_24, 2009 (Released:2011-09-01)
参考文献数
21
被引用文献数
2 6 12

本稿では,Wikipedia の記事構造を知識源として,高精度で大量の上位下位関係を自動獲得する手法について述べる.上位下位関係は情報検索や Web ディレクトリなど,膨大な Web 文書へのアクセスを容易にする様々な技術への応用が期待されており,これまでにも様々な上位下位関係の抽出手法が開発されてきた.本稿では,Wikipedia の記事構造に含まれる節や箇条書きの見出しから,大量の上位下位関係候補を抽出し,機械学習を用いてフィルタリングすることで高精度の上位下位関係を獲得する手法を開発した.実験では,2007 年 3 月の日本語版 Wikipedia 2.2 GB から,約 77 万語を含む約 135 万対の上位下位関係を精度 90% で獲得することができた.
著者
中野 てい子 冨浦 洋一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.1, pp.3-29, 2011
被引用文献数
1

日本語学習者が産出する名詞 <I>n</I>,格助詞 <I>c</I>,動詞 <I>v</I> から成る不自然な共起表現 〈<I>n</I>,<I>c</I>,<I>v</I>〉 の中には,動詞選択の誤りに起因するものがある.本稿では,学習者が入力する共起表現 〈<I>n</I>,<I>c</I>,<I>v</I>〉の <I>v</I> に対する適切な代替動詞候補を与える手法を提案する.不自然な共起表現中の動詞(誤用動詞)と自然な共起表現となるように修正した適切な動詞(正用動詞)とは出現環境が類似している傾向にあると考えられる.この仮説に基づき,大規模な母語話者コーパスから得られる統計情報を用いて,〈<I>n</I>,<I>c</I>〉 との共起が自然と言える代替動詞候補を,学習者が入力した共起表現の動詞との出現環境の類似度の降順に提示する.まず,誤用動詞とその正用動詞のデータに基づいてこの仮説を検証し,さらに,同データを用いて提案手法に基づいた共起表現に関する作文支援システムの実用性について検討する.
著者
佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.5, pp.5_1-5_1, 2010 (Released:2011-04-15)
被引用文献数
1
著者
松本 忠博 池田 尚志
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.1, pp.23-51, 2008-01-10 (Released:2011-03-01)
参考文献数
39
被引用文献数
1 2 3

手話は言語でありろう者の母語である.手話と音声言語の間のコミュニケーションには手話通訳が必要となるが, 手話通訳士の数は圧倒的に不足している.両言語間のコミュニケーションを支援する技術が期待される.本論文は日本語と手話との間の機械翻訳を目指して, その一つのステップとして, 日本語テキストから手話テキストへの機械翻訳を試みたものである.機械翻訳をはじめとする自然言語処理技術はテキストを対象としているが, 手話には文字による表現がないため, それらを手話にそのまま適用することができない.我々は言語処理に適した日本手話の表記法を導入することで, 音声言語間の翻訳と同様に, 日本語テキストから手話テキストへの機械翻訳を試みた.日本語から種々の言語への機械翻訳を目的として開発中のパターン変換型機械翻訳エンジンjawをシステムのベースに用いている.目的言語である手話の内部表現構造を設定し, 日本語テキストを手話の表現構造へ変換する翻訳規則と, 表現構造から手話テキストを生成する線状化規則を与えることで実験的な翻訳システムを作成した.日本手話のビデオ教材等から例文を抽出し, その翻訳に必要な規則を与えることで, 日本語から手話に特徴的な表現を含んだ手話テキストへの翻訳が可能であることを確認するとともに, 現状の問題点を分析した.
著者
三品 賢一 土屋 誠司 鈴木 基之 任 福継
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.4, pp.91-110, 2010
被引用文献数
5

発話文を感情ごとに分類したコーパスを構築し,入力文と最も類似度が高い発話文を含むコーパスの感情を推定結果として出力する用例ベースの感情推定手法が提案されている.従来手法ではコーパスを構築する際,発話テキストの収集者が個人個人で発話文の分類先を決定しているため,分類先を決定する基準が個々によってぶれてしまう.これにより,例えば"希望"のコーパスの中に喜びの発話文が混じるといったことが起こり,推定成功率を下げてしまう.本稿ではこの問題を解決するため,コーパスごとにおける入力文の形態素列の出現回数を用いて,入力文とコーパスの類似度を定義する.そしてこの類似度を従来手法に導入した新たな類似度計算式を提案する.これにより,誤って分類されてしまった発話文の影響を緩和することができる.評価実験では従来手法と比べて成功率が 21.5 ポイント向上し,提案手法の有効性が確認できた.
著者
注連 隆夫 土屋 雅稔 松吉 俊 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.5, pp.167-197, 2007-10-10 (Released:2011-06-07)
参考文献数
32
被引用文献数
3 5

日本語には, 「にあたって」や「をめぐって」のように, 2つ以上の語から構成され, 全体として1つの機能的な意味をもつ機能表現という表現が存在する.一方, この機能表現に対して, それと同一表記をとり, 内容的な意味をもつ表現が存在することがある.そして, この表現が存在することによって, 機能表現の検出は困難であり, 機能表現を正しく検出できる機能表現検出器が必要とされている.そこで, 本論文では, 日本語機能表現を機械学習を用いて検出する手法を提案する.提案手法では, Support Vector Machine (SVM) を用いたチャンカーYam Chaを利用して, 形態素解析結果を入力とする機能表現検出器を構築する.具体的には, 形態素解析によって得られる形態素の情報と, 機能表現を構成している形態素の数の情報, 機能表現中における形態素の位置情報, 機能表現の前後の文脈の情報を学習・解析に使用することにより, F値で約93%という高精度の検出器を実現した.さらに, 本論文では, 機能表現検出器の解析結果を入力として, 機能表現を考慮した係り受け解析器を提案する.提案手法では, Support Vector Machine (SVM) に基づく統計的係り受け解析手法を利用して, 機能表現を考慮した係り受け解析器を構築する.具体的には, 京都テキストコーパスに対して, 機能表現の情報を人手で付与し, 機能表現の情報を基に文節の区切りや係り先の情報を機能表現を考慮したものに変換した.そして, SVMに基づく統計的係り受け解析の学習・解析ツールCabo Chaを用いて, 変i換したデータを学習し, 機能表現を考慮した係り受け解析を実現した.評価実験では, 従来の係り受け解析手法よりもよい性能を示すことができた.
著者
松吉 俊 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.2, pp.75-99, 2008-04-10 (Released:2011-03-01)
参考文献数
21
被引用文献数
4 5

日本語には, 「にたいして」や「なければならない」に代表されるような, 複数の形態素からなっているが, 全体として1つの機能語のように働く複合辞が多く存在する. われわれは, 機能語と複合辞を合わせて機能表現と呼ぶ. 本論文では, 形態階層構造と意味階層構造を持つ機能表現辞書を用いることにより, 文体と難易度を制御しつつ, 日本語機能表現を言い換える手法を提案する. ほとんどの機能表現は, 多くの形態的異形を持ち, それぞれの異形は, その文体として, 常体, 敬体, 口語体, 堅い文体のいずれかをとる. 1つの文章においては, 原則として, 一貫して1つの文体を使い続けなければならないため, 機能表現を言い換える際には, 文体を制御する必要がある. また, 文章読解支援二などの応用においては, 難易度の制御は必須である. 実装した言い換えシステムは, オープンテストにおいて, 入力文節の79% (496/628) に対して, 適切な代替表現を生成した.
著者
岡崎 直観 辻井 潤一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.89-117, 2011 (Released:2011-09-28)
参考文献数
34
被引用文献数
2

本論文では,コサイン係数,ダイス係数,ジャッカード係数,オーバーラップ係数に対し,簡潔かつ高速な類似文字列検索アルゴリズムを提案する.本論文では,文字列を任意の特徴(tri-gram など)の集合で表現し,類似文字列検索における必要十分条件及び必要条件を導出する.そして,類似文字列検索が転置リストにおける τ オーバーラップ問題として正確に解けることを示す.次に,τ オーバーラップ問題の効率的な解法として,CPMerge アルゴリズムを提案する.CPMerge は,検索クエリ文字列中のシグニチャと呼ばれる特徴と,解候補が枝刈りできる条件に着目し,τ オーバーラップ問題の解候補を絞り込む.さらに,CPMerge アルゴリズムの実装上の工夫について言及する.英語の人名,日本語の単語,生命医学分野の固有表現の 3 つの大規模文字列データセットを用い,類似文字列検索の性能を評価する.実験では,類似文字列検索の最近の手法である Locality Sensitive Hashing や DivideSkip 等と提案手法を比較し,提案手法が全てのデータセットにおいて,最も高速かつ正確に文字列を検索できることを実証する.また,提案手法による類似文字列検索が高速になる要因について,分析を行う.なお,提案手法をライブラリとして実装したものは,SimString としてオープンソースライセンスで公開している.
著者
Wenliang Gao Nobuhiro Kaji Naoki Yoshinaga Masaru Kitsuregawa
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.541-561, 2014-06-16 (Released:2014-09-16)
参考文献数
20
被引用文献数
1 3

We propose a method of collective sentiment classification that assumes dependencies among labels of an input set of reviews. The key observation behind our method is that the distribution of polarity labels over reviews written by each user or written on each product is often skewed in the real world; intolerant users tend to report complaints while popular products are likely to receive praise. We encode these characteristics of users and products (referred to as user leniency and product popularity) by introducing global features in supervised learning. To resolve dependencies among labels of a given set of reviews, we explore two approximated decoding algorithms, “easiest-first decoding” and “two-stage decoding.” Experimental results on real-world datasets with user and/or product information confirm that our method contributed greatly to classification accuracy.
著者
山本 英子 梅村 恭司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.2, pp.45-75, 2002-04-10 (Released:2011-03-01)
参考文献数
25
被引用文献数
2 6

本論文では, コーパスから事象間の一対多関係を推定する問題を考える. これまでにコーパスから事象間の関係を推定することが多く研究されている. 一般に, この問題に対する解決法の多くは, コーパスを構成する文書における事象の共起に基づき, 暗黙的に事象間の関係は一対一関係であることを想定している. しかし, 実際には, 事象間の関係は一対多関係である場合があり, この特徴のためにいくつかの工夫が必要である. 本論文では, コーパス中の一対多関係を推定するために補完類似度を利用することを提案する. この尺度は本来文字認識システムのために開発され, テンプレートの文字のパターンにオーバーラップしたパターンがある条件で有効であることが知られているが, これまでテキスト処理に利用されたことはなかった. この補完類似度の一対多関係を推定する能力を評価するために, 地名 (都道府県市郡名) を対象事象とした実験において, 平均相互情報量, 自己相互情報量, 非対称平均相互情報量, ∅相関係数, コサイン関数ダイス相関係数, 信頼度との性能比較を行う. 実験では, 三種類のコーパスを用いる. 一つ目は実際に地名問にある一対多関係から合成する人工的なデータ集合である. 二つ目も実際の関係から合成するが, 誤った関係を導く少量の要素も含むデータ集合である. 三つ目は現実の新聞記事コーパスから得られるデータ集合である. これらの評価実験において, 補完類似度がもっとも優れており, 補完類似度は一対多関係の推定問題に対して有効であることを示す.
著者
望月 源 岩山 真 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.3, pp.101-126, 1999
被引用文献数
7

計算機上の文書データの増大に伴い, 膨大なデータの中からユーザの求める文書を効率よく索き出す文書検索の重要性が高まっている. 伝統的な検索手法では, 文書全体を1つのまとまりとして考え検索要求との類似度を計算する. しかし, 実際の文書, 特に長い文書では様々な話題が存在し, 文書中の各部分によって扱われる話題が異なる場合も多く見られる. そのため, 最近の文書検索では, ユーザの入力した検索要求と関連の高い文書の一部分を取り出して類似度を計算するパッセージレベルの検索が注目されている. パッセージ検索におけるパッセージとは, 文書中で検索要求の内容と強く関連する内容を持つ連続した一部分のことを言う. パッセージ検索では, このパッセージをどのように決定するかが問題となる. 良いパッセージを決定するためには, パッセージ自体が意味的なまとまりを形成し, パッセージの位置やサイズが検索要求や文書に応じて柔軟に設定される必要があると考えられる. 本稿では, 文書中の文脈情報である語彙的連鎖を利用し, 検索要求と文書の適切な類似度を計算できるパッセージ決定手法について述べる. また, このパッセージを使用し, 検索精度を向上させる検索手法について述べる.
著者
筒井 貴士 我満 拓弥 大城 卓 菅原 晃平 永井 隆広 渋木 英潔 木村 泰知 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.125-155, 2014
被引用文献数
1

近年,国会や地方議会などの会議録が Web 上に公開されている.会議録は,首長や議員の議論が書き起こされた話し言葉のデータであり,長い年月の議論が記録された通時的なデータであることから,政治学,経済学,言語学,情報工学等の様々な分野において研究の対象とされている.国会会議録を利用した研究は会議録の整備が進んでいることから,多くの分野で行われている.その一方で,地方議会会議録を利用した研究については,各分野で研究が行われているものの,自治体によりWeb上で公開されている形式が異なることが多いため,収集作業や整形作業に労力がかかっている.また,各研究者が重複するデータの電子化作業を個別に行っているといった非効率な状況も招いている.このような背景から,我々は多くの研究者が利用することを目的として,地方議会会議録を収集し,地方議会会議録コーパスを構築した.本稿では,我々が構築した地方議会会議録コーパスについて論ずる.同コーパスは,Web上で公開されている全国の地方議会会議録を対象として,「いつ」「どの会議で」「どの議員が」「何を発言したのか」などの各種情報を付与し,検索可能な形式で収録した.また,我々は会議録における発言を基に利用者と政治的に近い考えをもつ議員を判断して提示するシステムを最終的な目的としており,その開発に向けて,分析,評価用のデータ作成のために会議録中の議員の政治的課題に対する賛否とその積極性に関する注釈付けをコーパスの一部に対して行った.本稿では,注釈付けを行った結果についても報告する.
著者
安村 禎明 坂野 大作 上原 邦昭
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.297-313, 2007-04-10 (Released:2011-03-01)
参考文献数
11

本論文では, Web上の評判情報を有益に活用するために, レビューなどの評価文書をポジティブ (おすすめ) とネガティブ (おすすめしない) という極性値に分類する手法を提案する. 本手法では, 全体評判情報と部分評判情報という2つのレベルで評判情報を捉える. 全体評判情報とは評価文書の対象全般に関わる評価表現のことを指し, 部分評判情報とは対象の一属性に関する評価表現のことを指す. 全体評判情報の極性値は評価文書の極性値と一致すると考えられるため, まず全体評判情報を用いて評価文書を分類し, 全体評判情報がない場合は部分評判情報を用いて分類する. これら2つのレベルの評判情報を考慮することで分類精度の向上が期待できる. さらに, これら2つのレベルの評判情報を用いることで, 評判情報の信頼性評価の一手法を提案する. ここでは, 評価文書の極性値とその中の部分評判情報の極性値が異なる場合にその部分評判情報は信頼性が高いと評価する. 映画のレビューを用いた評価実験の結果, ナイーブベイズを用いた分類手法よりも本手法の方が良い結果が得られた. また, 提案した評価指標が評価文書の信頼性評価の1つとなりうることを示唆した.
著者
松林 優一郎 岡崎 直観 辻井 潤一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.4, pp.4_59-4_89, 2010 (Released:2011-06-09)
参考文献数
26

FrameNet,PropBank といった意味タグ付きコーパスの出現とともに,機械学習の枠組みを利用した自動意味役割付与システムが数多く研究されてきた.しかし,これらのコーパスは個々のフレームに固有の意味役割を定義するため,コーパス中に低頻度,或いは未出現の意味役割が数多く存在し,効率的な学習を妨げている.本論文は,意味役割付与における意味役割の汎化問題を取り上げ,既存の汎化指標と新たに提案する指標を役割の分類精度を通して比較し,それぞれの特徴を探求する.また,複数の汎化指標を同時に利用する分類モデルが自動意味役割付与の精度を向上させることを示す.実験では,FrameNet において全体の精度で 19.16% のエラー削減,F1 マクロ平均で 7.42% の向上を,PropBank において全体の精度で 24.07% のエラー削減,未知動詞に対するテストで 26.39% のエラー削減を達成した.
著者
保田 祥 小西 光 浅原 正幸 今田 水穂 前川 喜久雄
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.5, pp.657-681, 2013-12-13 (Released:2014-03-13)
参考文献数
22

時間情報抽出は大きく分けて時間情報表現抽出,時間情報正規化,時間的順序関係解析の三つのタスクに分類される.一つ目の時間情報表現抽出は,固有表現・数値表現抽出の部分問題として解かれてきた.二つ目の時間情報正規化は書き換え系により解かれることが多い.三つ目のタスクである時間的順序関係解析は,事象の時間軸上への対応付けと言い換えることができる.日本語においては時間的順序関係解析のための言語資源が整備されているとは言い難く,アノテーション基準についても研究者で共有されているものはない.本論文では国際標準である ISO-TimeML を日本語に適応させた時間的順序関係アノテーション基準を示す.我々は『現代日本語書き言葉均衡コーパス』(BCCWJ) の新聞記事の部分集合に対して,動詞・形容詞事象表現に TimeML の 〈EVENT〉 相当タグを付与し,その事象の性質に基づき分類を行った.また,この事象表現と先行研究 (小西, 浅原, 前川 2013) により付与されている時間情報表現との間の関係として,TimeML の 〈TLINK〉 相当タグを付与した.事実に基づき統制可能な時間情報正規化と異なり,事象構造の時間的順序関係の認識は言語受容者間で異なる傾向がある.このようなレベルのアノテーションにおいては唯一無二の正解データを作ることは無意味である.むしろ,言語受容者がいかに多様な判断を行うかを評価する被験者実験的なアノテーションが求められている.そこで,本研究では三人の作業者によるアノテーションにおける時間的順序関係認識の齟齬の傾向を分析した.アノテーション結果から,時間軸上の相対的な順序関係については一致率が高い一方,時区間の境界については一致率が低いことがわかった.
著者
江村 優花 関 洋平
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.401-418, 2012-12-14 (Released:2013-03-19)
参考文献数
21
被引用文献数
1 2

現在,電子メール,チャット,マイクロブログなどのメディアで,顔文字は日常的に使用されている.顔文字は,言語コミュニケーションで表現できない,ユーザの感情やコミュニケーションの意図を表すのに便利であるが,反面,その種類は膨大であり,場面に合った顔文字を選ぶことは難しい.本研究では,ユーザの顔文字選択支援を目的として,ユーザが入力したテキストに現れる感情,コミュニケーション,動作のタイプ推定を行い,顔文字を推薦する方法を提案する.感情,コミュニケーション,動作のタイプは,Twitter から収集したコーパスを用いてカテゴリを定義し,推定システムは,k-NN に基づき実現した.また,システムが推薦する顔文字がユーザの意図にどの程度適合しているか,5名の被験者により評価した結果,91件のつぶやきに対して66.6%の顔文字が適切に推定されており,感情カテゴリのみを用いて推薦された結果と比べて,提案手法の顔文字推薦の精度が有意に向上していることがわかった.