著者
中嶋 健一郎 斎藤 憲 東条 敏
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.1, pp.21-41, 2004

本研究では古典ギリシア語で書かれたユークリッドの『原論』を主辞駆動型句構造文法 (HPSG) により構文解析することを目的とする. 単一化をベースにした文法を用いる理由は, 古典ギリシア語が語順よりも性・数・格の素性の一致によってより強く文構造が決定されるためである. 文法を記述するにあたっては他の言語と同様な基本的な文法規則に加えて, 古典ギリシア語特有の文法規則, すなわち素性の一致によって推測される省略語や係り受け交差に対処する規則を追加した. 構文解析システムはLiLFeSを用い, それにより, ユークリッドの『原論』7巻・8巻1154文に対して約79%のカヴァレッジを得ることができた.
著者
新納 浩幸 浅原 正幸 古宮 嘉那子 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.705-720, 2017-12-15 (Released:2018-03-15)
参考文献数
13
被引用文献数
8

我々は国語研日本語ウェブコーパスと word2vec を用いて単語の分散表現を構築し,その分散表現のデータを nwjc2vec と名付けて公開している.本稿では nwjc2vec を紹介し,nwjc2vec の品質を評価するために行った2種類の評価実験の結果を報告する.第一の評価実験では,単語間類似度の評価として,単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する.第二の評価実験では,タスクに基づく評価として,nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言語モデルの構築を行う.どちらの評価実験においても,新聞記事7年分の記事データから構築した分散表現を用いた場合の結果と比較することで,nwjc2vec が高品質であることを示す.
著者
牧野 拓哉 野呂 智哉 岩倉 友哉
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.1, pp.117-134, 2017-02-15 (Released:2017-05-15)
参考文献数
15

本論文では,ユーザからの自然文による問い合わせを対応する Frequently Asked Question (FAQ) に分類する文書分類器を用いた FAQ 検索手法を提案する.本文書分類器は,問い合わせ中の単語を手掛かりに,対応する FAQ を判別する.しかし,FAQ の多くは冗長性がないため,FAQ を学習データとして文書分類器を作成する方法では,ユーザからの多様な問い合わせに対応するのが難しい.そこで,この問題に対処するために,蓄積されたユーザからの問い合わせ履歴から学習データを自動生成し,文書分類器を作成する.さらに,FAQ および文書分類用に自動生成した学習データを用いて,通常使われる表層的な手がかりに加えて,本文書分類器の出力を考慮するランキングモデルを学習する.ある企業のコールセンターの 4,738 件の FAQ および問い合わせ履歴 54 万件を用いて本手法を評価した.その結果,提案手法が,pseudo-relevance feedback および,統計的機械翻訳のアライメント手法を用いて得られる語彙知識によるクエリ拡張手法と比較し,高いランキング性能を示した.
著者
滝澤 修
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.2, no.2, pp.3-22, 1995-04-10
参考文献数
17

比喩の一種である「駄洒落」は, 言語記号 (音声) とその記号が表す概念の意味との両方に, 比喩を成立させる「根拠 (ground) 」 (比喩における被喩辞 (tenor) と喩辞 (vehicle) とを結びつける関係) があるという点で, 高度な修辞表現に位置づけられる. 筆者らは, 「併置型」と呼ぶ駄洒落の一種 (例「トイレに行っといれ」) を, 外国語専攻の大学生54名に筆記によって創作させ, 203個を収集した. そしてこのデータに対して, 駄洒落理解システムの構築に必要な知見を得るという観点から, 「先行喩辞」 (例では「トイレ」) と「後続喩辞」 (例では「…といれ」) の関係, 及び「出現喩辞」 (例では「…といれ」) と「復元喩辞」 (例では「…ておいで」) の関係に着目し, 以下の3つの分析を行った.(1) 先行-後続出現喩辞間の音素列は, どれ位の長さの一致が見られるか.(2) 先行-後続出現喩辞間の音素の相違にはどのような特徴があるか.(3) 出現-復元喩辞間の音素の相違にはどのような特徴があるか. その結果, 出現喩辞の音節数は先行と後続とで一致する場合が多いこと, 先行-後続出現喩辞間及び出現-復元喩辞間の音素の相違は比較的少なく, 相違がある場合もかなり高い規則性があること, などがわかった. 以上の知見から, 計算機による駄洒落理解手法, 即ち出現喩辞と復元喩辞を同定するアルゴリズムを構築できる見通しが得られた.
著者
東中 竜一郎 船越 孝太郎 荒木 雅弘 塚原 裕史 小林 優佳 水上 雅博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.59-86, 2016-01-25 (Released:2016-04-25)
参考文献数
32
被引用文献数
6

対話システムが扱う対話は大きく課題指向対話と非課題指向対話(雑談対話)に分けられるが,近年Webからの自動知識獲得が可能になったことなどから,雑談対話への関心が高まってきている.課題指向対話におけるエラーに関しては一定量の先行研究が存在するが,雑談対話に関するエラーの研究はまだ少ない.対話システムがエラーを起こせば対話の破綻が起こり,ユーザが円滑に対話を継続することができなくなる.しかし複雑かつ多様な内部構造を持つ対話システムの内部で起きているエラーを直接分析することは容易ではない.そこで我々はまず,音声誤認識の影響を受けないテキストチャットにおける雑談対話の表層に注目し,破綻の類型化に取り組んだ.本論文では,雑談対話における破綻の類型化のために必要な人・機械間の雑談対話コーパスの構築について報告し,コーパスに含まれる破綻について分析・議論する.
著者
城光 英彰 松田 源立 山口 和紀
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.2, pp.187-204, 2017-03-15 (Released:2017-06-15)
参考文献数
21
被引用文献数
2

本論文では,分布仮説に基づく同義語獲得を行う際に,周辺単語の様々な属性情報を活用するために,文脈限定 Skip-gram モデルを提案する.既存の Skip-gram モデルでは,学習対象となる単語の周辺単語(文脈)を利用して,単語ベクトルを学習する.一方,提案する文脈限定 Skip-gram モデルでは,周辺単語を,特定の品詞を持つものや特定の位置に存在するものに限定し,各限定条件に対して単語ベクトルを学習する.したがって,各単語は,様々な限定条件を反映した複数の単語ベクトルを所持する.提案手法では,これら複数種類の単語ベクトル間のコサイン類似度をそれぞれ計算し,それらを,線形サポートベクトルマシンと同義対データを用いた教師あり学習により合成することで,同義語判別器を構成する.提案手法は単純なモデルの線形和として構成されるため,解釈可能性が高い.そのため,周辺単語の様々な単語属性が同義語獲得に与える影響の分析が可能である.また,限定条件の変更も容易であり,拡張可能性も高い.実際のコーパスを用いた実験の結果,多数の文脈限定 Skip-gram モデルの組合せを利用することで,単純な Skip-gram モデルに比べて同義語獲得の精度を上げられることがわかった.また,様々な単語属性に関する重みを調査した結果,日本語の言語特性を適切に抽出できていることもわかった.
著者
柏野 和佳子 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1133-1161, 2014

従来の紙版の国語辞典はコンパクトにまとめることが優先され,用例の記述は厳選され,必要最小限にとどめられていた.しかし,電子化編集が容易になり,電子化された国語辞典データや種々のコーパスが活用できるようになった今,豊富な用例を増補した電子化版国語辞典の構築が可能になった.そうした電子化版国語辞典は,人にも計算機にも有用性の高いものと期待される.著者らはその用例記述の際に見出し語のもつ文体的特徴を明記する方法を提案し,より利用価値の高い,電子化版の「コーパスベース国語辞典」の構築を目指している.文体的特徴の記述は,語の理解を助け,文章作成時にはその語を用いる判断の指標になり得るため,作文指導や日本語教育,日本語生成処理といった観点からの期待も高い.本論文では,古さを帯びながらも現代語として用いられる「古風な語」を取り上げる.これに注目する理由は,三点ある.一点目は,現代語の中で用いられる「古風な語」は少なくないにも関わらず,「古語」にまぎれ辞書記述に取り上げ損なってしまう危険性のあるものであること.二点目は,その「古風な語」には,文語の活用形をもつなど,その文法的な扱いに注意の必要なものがあること.三点目は,「古さ」という文体的特徴を的確かつ,効果的に用いることができるよう,十分な用法説明が必要な語であるということ,である.そこで,本論文では,これら三点に留意して「古風な語」の用法をその使用実態に即して分析し,その辞書記述を提案する.はじめに,現行国語辞典5種における「古風な語」の扱いを概観する.次に,「古風な語」の使用実態を『現代日本語書き言葉均衡コーパス』に収録される図書館サブコーパスを用いて分析し,「古風な語」の使用を,(1) 古典の引用,(2) 明治期から戦前まで,(3) 時代・歴史小説,(4) 現代文脈,に4分類する.そして,その 4 分類に基づく「コーパスベース国語辞典」の辞書記述方法を提案する.このような辞書記述は例えば,作文指導や日本語教育,日本語生成処理の際の語選択の参考になるものと期待される.
著者
乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.1, pp.1-2, 2014-03-14 (Released:2014-06-14)
著者
大出 訓史 今井 篤 安藤 彰男 谷口 高士
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.81-97, 2007
被引用文献数
1

日常生活の様々な体験において, その体験の素晴らしさを表現する言葉として, 『感動』という言葉がしばしば用いられる.感動とは, 『美しいものや素晴らしいことに接して強い印象を受け, 心を奪われること』 (大辞林 (松村1995)) であり, 体験に対する肯定的な評価であると共に, 記憶の定着や感情の喚起を伴った心理状態の大きな変化である.感動を喚起する対象としては, マスメディアが提供するドラマや映画, 音楽などの割合が高いとされている (三菱総合研究所2003).しかし, 感動という心理状態の定義については, 研究者の中でも曖昧である.<BR>我々の目的は, 放送番組の品質評価, 特に音の評価に, 『感動』をキーワードとした評価指標を導入するために, 感動という心理状態を明確にすることにある.まず, アンケート調査を実施し, 感動という言葉で表現される体験と, 感動を表現する言葉 (以下, 感動語) を収集した.次に, 感動語同士の一対比較による主観評価実験を行い, 感動語から連想される心理状態の類似度を求めた.他の感動語との類似度によって表現される類似度ベクトルの距離に基づいて, 感動語の分類を行った.その結果, 感情とは, 特定の感情そのものではなく, 大きく心が動かされたという体験に対して, 肯定的な印象を持っているという個々の心理状態の総称であり, 感動という心理状態が, 感動の対象と感情の種類, 感情の動きの組み合わせによって分類できることが分かった.
著者
松吉 俊
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.249-270, 2014

「誰がいつどこで何をする」という文に「ない」や「ん」,「ず」などの語が付くと,いわゆる否定文となる.否定文において,否定の働きが及ぶ範囲をスコープと呼び,その中で特に否定される部分を焦点と呼ぶ.否定の焦点が存在する場合,一般にその焦点の箇所を除いた文の命題は成立する.それゆえ,自然言語処理において,否定の焦点が存在するか,および,どの部分が否定の焦点になっているかを自動的に判定する処理は,含意認識や情報抽出などの応用処理の高度化のために必要な技術である.本論文では,否定の焦点検出システムを構築するための基盤として,日本語における否定の焦点をテキストにアノテーションする枠組みを提案し,構築した否定の焦点コーパスについて報告する.否定文において否定の焦点を判断するための基準を提案し,否定の形態素および焦点の部分にアノテーションすべき情報について議論する.否定の焦点の判断には,「は」や「しか」などのとりたて詞や前後の文脈などが手がかりとなるため,これらを明確にアノテーションする.我々は,提案するアノテーション体系に基づいて,楽天トラベルのレビューデータと『現代日本語書き言葉均衡コーパス』内の新聞を対象としてアノテーションコーパスを構築した.本論文では,コーパス内に存在する 1,327 の否定に対するアノテーション結果を報告する.
著者
藤田 彬 藤田 央 田村 直良
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.4, pp.281-301, 2012-12-14 (Released:2013-03-19)
参考文献数
35
被引用文献数
1

本稿では,文章に対する評点と国語教育上扱われる言語的要素についての特徴量から,個々の評価者の文章評価モデルを学習する手法について述べる.また,学習した文章評価モデルにおける素性毎の配分を明示する手法について述べる.評価モデルの学習には SVR を用いる.SVR の教師データには,「表層」「語」「文体」「係り受け」「文章のまとまり」「モダリティ」「内容」というカテゴリに分けられる様々な素性を用意する.これらには日本の国語科教育において扱われる作文の良悪基準に関わる素性が多く含まれる.なおかつ,全ての素性が評価対象文章に設定される論題のトピックに依存しない汎用的なものである.本手法により,文章の総合的な自動評価,個々の評価者が着目する言語的要素の明示,さらに評点決定に寄与する各要素の重みの定量化が実現された.
著者
赤部 晃一 Graham Neubig Sakriani Sakti 戸田 智基 中村 哲
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.87-117, 2016-01-25 (Released:2016-04-25)
参考文献数
30

複雑化する機械翻訳システムを比較し,問題点を把握・改善するため,誤り分析が利用される.その手法として,様々なものが提案されているが,多くは単純にシステムの翻訳結果と正解訳の差異に着目して誤りを分類するものであり,人手による分析への活用を目的とするものではなかった.本研究では,人手による誤り分析を効率化する手法として,機械学習の枠組みを導入した誤り箇所選択手法を提案する.学習によって評価の低い訳出と高い訳出を分類するモデルを作成し,評価低下の手がかりを自動的に獲得することで,人手による誤り分析の効率化を図る.実験の結果,提案法を活用することで,人手による誤り分析の効率が向上した.
著者
村田 真樹 長尾 真
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.4, no.1, pp.87-109, 1997-01-10 (Released:2011-03-01)
参考文献数
23
被引用文献数
1 2

日本語文章における代名詞などの代用表現の指す対象が何であるかを把握することは, 対話システムや高品質の機械翻訳システムを実現するために必要である. そこで, 本研究では用例, 表層表現, 主題・焦点などの情報を用いて指示詞・代名詞・ゼロ代名詞などの指示対象を推定する. 従来の研究では, 代名詞などの指示対象の推定の際には意味的制約として意味素性が用いられてきたが, 本研究では対照実験を通じて用例を意味素性と同様に用いることができることを示す. また, 連体詞形態指示詞の推定に意味的制約として「AのB」の用例を用いるなどの新しい手法を提案する. 指示対象を推定する枠組は, 以下のとおりである. 指示対象の推定に必要な情報をすべて規則にする. この規則により指示対象の候補をあげながら, その候補に得点を与える. 得点の合計点が最も高い候補を指示対象とする. この枠組では規則を柔軟に書くことができるという利点がある. この枠組で実際に実験を行なった結果, 指示詞・代名詞・ゼロ代名詞の指示対象を学習サンプルにおいて87%の正解率で, テストサンプルにおいて78%の正解率で, 推定することができた.
著者
石〓 友子 片岡 明 増山 繁 山本 和英 中川 聖一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.7, no.4, pp.119-142, 2000-10-10
被引用文献数
2

字幕生成のためのニュース文要約のような報知的要約では, 原文の情報を落とさないことが望まれる. 本論文では, このような原文の情報を極力落とさない要約手法の一っとして, 重複部削除による要約手法について議論する. テキスト内に, 同一の事象を表す部分が再度出現したならば, その部分を削除することによって冗長度を減少させ, 情報欠落を可能な限り回避した要約を行う. 事象の重複を認定するために, 係り受け関係のある2語が一つの事象を表していると仮定し, 2語の係り受け関係の重複を事象の重複と認定する. また, 2語の係り受け関係を用いて重複部を削除するだけでは, 読みやすく, かつ, 自然な要約文を生成することができない. そのために考慮すべきいくつかの情報について議論する. 以上の方法のうち, 実装可能な部分を計算機上に実装し, 評価実験を行った. 人間による削除箇所と本手法による削除箇所とを比較したところ, 再現率81.0%, 適合率85.1%の結果を得た.
著者
馬 青 谷河 息吹 村田 真樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.4, pp.225-250, 2015-12-14 (Released:2016-03-14)
参考文献数
32
被引用文献数
1

本稿は機械学習を用いて関連語・周辺語または説明文書から適切な検索用語を予測する手法を提案する.機械学習には深層学習の一種である Deep Belief Network (DBN) を用いる.DBN の有効性を確認するために,用例に基づくベースライン手法,多層パーセプトロン (MLP),サポートベクトルマシン (SVM) との比較を行った.学習と評価に用いるデータは手動と自動の 2 通りの方法でインターネットから収集した.加えて,自動生成した疑似データも用いた.各種機械学習の最適なパラメータはグリッドサーチと交差検証を行うことにより決定した.実験の結果,DBN の予測精度はベースライン手法よりはるかに高く MLP と SVM のいずれよりも高かった.また,手動収集データに自動収集のデータと疑似データを加えて学習することにより予測精度は向上した.さらに,よりノイズの多い学習データを加えても DBN の予測精度はさらに向上したのに対し,MLP の精度向上は見られなかった.このことから,DBN のほうが MLP よりもノイズの多い学習データを有効利用できることが分かった.
著者
小原 京子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.1, pp.1-2, 2013-03-15 (Released:2013-06-15)
著者
渡部 広一 河岡 司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.8, no.2, pp.39-54, 2001-04-10 (Released:2011-03-01)
参考文献数
20
被引用文献数
2 16

コンピュータに人間のような常識的判断を行わせるための主要素は, 概念ベースおよび概念間の関連性に基づく概念連鎖機能であると考えられる. 概念ベースは, 自動学習などにより恒常的に拡張・精錬を行わなければならないために, その構造はできるだけ単純なものが望ましい. 本論文では, 概念間の関連度を評価するための新しい手法を提案している. 従来の手法では, 概念はその1次属性のベクトルモデルとして表現され, 関連度はベクトル間の内積により求められている. そのような従来手法では, 各1次属性をカテゴリーに変換しなければならないためシソーラスなどのカテゴリーデータベースが必要となる. 提案手法では, 関連度をカテゴリーを利用せず概念連鎖により求めている. 約4万の概念よりなる概念ベースを用いた実験により, 提案手法はベクトル内積を用いる方法に比べ正解率の面でやや優れる上に, 概念知識の追加/変更が容易で利用を通じての質の向上が図れることを示した.
著者
大熊 智子 増市 博 吉岡 健
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.1, pp.27-52, 2006-01-10 (Released:2011-03-01)
参考文献数
19

本稿では, 意味判定ルールを段階的に適用することにより, 副助詞「まで」, 「など」, 「だけ」が生来的に持つ曖昧性を自動的に判別する手法を提案し, その有効性を検証した.本手法では, まず着目する副助詞の前後の形態素を参照する形態素ルールを優先度に応じて適用し, 意味を決定する.次に, 形態素ルールだけではうまく判別できない構文に対して日本語LFGシステムによる構文意味解析を行い, LFGの出力結果であるf-structureの意味機能を参照する意味機能ルールを適用して多義性の解消を行う.EDRコーパスを用いた実験では, 殆どの形態素ルールで高精度の多義性解消が可能であることを実証することができた.さらに, この実験で判別精度が低かった5種類の構文 (「まで」2種, 「など」2種, 「だけ」1種) に対して, 意味機能ルールを用いて多義性の解消を行うことで, 形態素ルールよりも, 高い精度の多義性解消を確認できた.「まで」の多義性解消では, 69.6%から73.2%と58.4%から61.8%への向上, 「など」の多義性解消では29.6%から72.5%と47.2%から60.3%への向上, 「だけ」の多義性解消では55.8%から76.1%への向上を確認することができた.