著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.2, pp.109-131, 2005-03-31 (Released:2011-03-01)
参考文献数
19
被引用文献数
8 6

本稿では, 格フレーム辞書を漸次的に自動構築する手法を提案する.カバレージの高い格フレーム辞書を構築するために, 大規模コーパスから徐々に確からしい情報を抽出する.まず, コーパスを構文解析し, 構文的曖昧性のない述語項構造のみを抽出・クラスタリングすることによって, 1次格フレーム辞書を得る.次に, 1次格フレーム辞書を用いてコーパスを格解析し, 新たに分かる確実な情報を抽出し, 2次格フレーム辞書を構築する.このように徐々に新たな情報を加えていくことによって, 高次格フレーム辞書を構築する.結果として得られた格フレーム辞書は, 二重主語構文, 連体修飾の外の関係, 格変化といった複雑な言語現象を解析することを可能にする.新聞記事26年分, 約2600万文のコーパスから格フレーム辞書を構築し2種類の評価を行った.1つは, 得られた格フレームを人手で評価するものであり, もう1つは得られた格フレーム辞書を用いた構文・格解析実験による評価である.これらの結果, 本手法の有効性が確かめられた.
著者
萩行 正嗣 河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.213-247, 2014-04-18 (Released:2014-07-17)
参考文献数
12
被引用文献数
2 3

現在,自然言語処理では意味解析の本格的な取り組みが始まりつつある.意味解析の研究には意味関係を付与したコーパスが必要であるが,従来の意味関係のタグ付きコーパスは新聞記事を中心に整備されてきた.しかし,文書には多様なジャンル,文体が存在し,その中には新聞記事では出現しないような言語現象も出現する.本研究では,従来のタグ付け基準では扱われてこなかった現象に対して新たなタグ付け基準を設定した.Webを利用することで多様な文書の書き始めからなる意味関係タグ付きコーパスを構築し,その分析を行った.
著者
松村 真宏 河原 大輔 岡本 雅史 黒橋 禎夫 西田 豊明
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.22, no.1, pp.93-102, 2007 (Released:2007-01-05)
参考文献数
18
被引用文献数
1 3

To overcome the limitation of conventional text-mining approaches in which frequent patterns of word occurrences are to be extracted to understand obvious user needs, this paper proposes an approach to extracting questions behind messages to understand potential user needs. We first extract characteristic case frames by comparing the case frames constructed from target messages with the ones from 25M sentences in the Web and 20M sentences in newspaper articles of 20 years. Then we extract questions behind messages by transforming the characteristic case frames into interrogative sentences based on new information and old information, i.e., replacing new information with WH-question words. The proposed approach is, in other words, a kind of classification of word occurrence pattern. Qualitative evaluations of our preliminary experiments suggest that extracted questions show problem consciousness and alternative solutions -- all of which help to understand potential user needs.
著者
吉越 卓見 河原 大輔 黒橋 禎夫
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.6, pp.1-8, 2020-06-26

言語を理解するには,字義通りの意味を捉えるだけでなく,それが含意する意味を推論することが不可欠である.このような推論能力を計算機に与えるために,自然言語推論(NLI)の研究が盛んに行われている.NLI は,前提が与えられたときに,仮説が成立する(含意),成立しない(矛盾),判別できない(中立)かを判断するタスクある.自然言語推論を計算機で解くには数十万規模の前提・仮説ペアのデータセットが必要となるが,これまでに構築された自然言語推論データセットは言語間でその規模に大きな隔たりがある.この状況は,自然言語推論の研究の進展を妨げる要因となっている.このような背景から,本研究では,機械翻訳に基づく,安価かつ高速な自然言語推論データセットの構築手法を提案する.提案する構築手法は二つのステップからなる.まず,既存の大規模な自然言語推論データセットを機械翻訳によって目的の言語に変換する.次に,翻訳によって生じるノイズを軽減するため,フィルタリングを行う.フィルタリングの手法として,評価データと学習データに対し,それぞれ別のアプローチをとる.評価データは,正確さが重要となるため,クラウドソーシングを用い,人手で検証する.学習データは,大規模な自然言語推論データセットでは数十万ペアの問題が存在するため,翻訳文の検証を自動的に行い,効率的にデータをフィルタリングする.本研究では,機械翻訳を用いた逆翻訳による手法と,言語モデルによる手法の二つを提案する.本研究では,SNLI を翻訳対象とし,日本語を対象言語として実験を行った.その結果,評価データが 3,917 ペア,学習データが 53 万ペアのデータセットを構築した.このデータセットは BERT に基づく自然言語推論モデルによって 93.0 %の精度で解くことが可能である.
著者
萩行 正嗣 河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.563-600, 2014-06-16 (Released:2014-09-16)
参考文献数
22
被引用文献数
2 3

日本語では用言の項が省略されるゼロ照応と呼ばれる現象が頻出する.ゼロ照応は照応先が文章中に明示的に出現する文章内ゼロ照応と,明示的に出現しない外界ゼロ照応に分類でき,従来のゼロ照応解析は主に前者を対象としてきた.近年,Web が社会基盤となり,Web上でのテキストによる情報伝達がますます重要性をましている.そこでは,情報の送り手・受け手である著者・読者が重要な役割をはたすため,Web テキストの言語処理においても著者・読者を正確にとらえることが必要となる.しかし,文脈中で明確な表現(人称代名詞など)で言及されていない著者・読者は,従来の文章内ゼロ照応中心のゼロ照応解析では多くの場合対象外であった.このような背景から,本論文では,外界ゼロ照応および文章の著者・読者を扱うゼロ照応解析モデルを提案する.提案手法では外界ゼロ照応を扱うために,ゼロ代名詞の照応先の候補に外界ゼロ照応に対応する仮想的な談話要素を加える.また,語彙統語パターンを利用することで,文章中で著者や読者に言及している表現を自動的に識別する.実験により,我々の提案手法が外界ゼロ照応解析だけでなく,文章内ゼロ照応解析に対しても有効であることを示す.
著者
橋本 力 黒橋 禎夫 河原 大輔 新里 圭司 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.175-201, 2011 (Released:2011-09-28)
参考文献数
22
被引用文献数
5 7

近年,ブログを対象とした情報アクセス・情報分析技術が盛んに研究されている.我々は,この種の研究の基礎データの提供を目的とし,249 記事,4,186 文からなる,解析済みブログコーパスを構築した.主な特長は次の 4 点である.i) 文境界のアノテーション.ii) 京大コーパス互換の,形態素,係り受け,格・省略・照応,固有表現のアノテーション.iii) 評価表現のアノテーション.iv) アノテーションを可視化した HTML ファイルの提供.記事は,大学生 81 名に「京都観光」「携帯電話」「スポーツ」「グルメ」のいずれかのテーマで執筆してもらうことで収集した.解析済みブログコーパスを構築する際,不明瞭な文境界,括弧表現,誤字,方言,顔文字等,多様な形態素への対応が課題になる.本稿では,本コーパスの全容とともに,いかに上記の課題に対応しつつコーパスを構築したかについて述べる.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.4, pp.67-81, 2007-07-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
1 2

本稿では, 格フレームに基づき構文・格解析を統合的に行う確率モデルを提案する.格フレームは, ウェブテキスト約5億文から自動的に構築した大規模なものを用いる.確率モデルは, 述語項構造を基本単位とし, それを生成する確率であり, 格フレームによる語彙的な選好を利用するものである.ウェブのテキストを用いて実験を行い, 特に述語項構造に関連する係り受けの精度が向上することを確認した.また, 語彙的選好がどの程度用いられているかを調査したところ, 60.7%という高い割合で使われていることがわかり, カバレージの高さを確認することができた.
著者
笹野 遼平 河原 大輔 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1207-1233, 2014-12-15 (Released:2015-03-15)
参考文献数
31

日本語において受身文や使役文を能動文に変換する際,格交替が起こる場合がある.本論文では,対応する受身文・使役文と能動文の格の用例や分布の類似性に着目し,Web から自動構築した大規模格フレームと,人手で記述した少数の格の交替パターンを用いることで,受身文・使役文と能動文の表層格の対応付けに関する知識を自動獲得する手法を提案する.さらに,自動獲得した知識を受身文・使役文の能動文への変換における格交替の推定に利用することによりその有用性を示す.
著者
河原 大輔
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.12-13, 2015-12-15

本稿では,構文解析,特に日本語係り受け解析の現状と課題について解説する.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.1, pp.67-73, 2006-01-13
被引用文献数
28 25

本稿では、高性能計算環境を利用して、Webから大規模テキストコーパスを抽出し、格フレームを構築する方法について述べる。格フレームは人間のもっている常識的な知識のうちもっとも基本的なものであり、これを自動構築するには大規模かつ偏りのないテキストが必要となる。そこで、Webから日本語文を抽出することによって大規模コーパスを作成し、それを用いて格フレームを構築するということを行う。約4億Webぺ-ジから約5億文からなるテキストコーパスを作成し、さらにこのコーパスから約9万用言からなる格フレームを構築した。これらのプロセスは、巨大なデータを扱うため1つの計算機で行えば数年を要し現実的ではないことから、約350CPUからなる高性能計算環境を利用することによって実現した。This paper describes a method of constructing a wide-coverage case frames from the Web. To obtain such knowledge, an enormous amount of balanced corpus is required. We consider the Web as a balanced corpus, and first build a huge text corpus from the Web. We then construct case frames from the corpus. It is infeasible to do these processes by one CPU, and so we employ a high-performance computing environment. The acquired corpus and case frames are extremely larger than previously built corpora and case frames. The resultant case frames contain most examples of usual use, and are ready to be applied to lots of NLP applications.
著者
粟村誉 荒牧英治 河原大輔 柴田知秀 黒橋禎夫
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.14, pp.1-8, 2014-06-26

近年,膨大な量の文書が Web 上に溢れるようになるにつれ,それらから有用な情報を抽出する技術が重要になってきた.特に,Twitter などのソーシャルネットワークサービス (SNS) は地域固有の情報を含むことが多いため,文書内の地名表現がどこの地名,地域を指しているかを同定することが必要となる.これまで,このような地名曖昧性解消の問題は,語義曖昧性解消の手法を利用して,語彙情報に基づいて解かれることが多く,地名特有の手がかりが使われていない.本研究では,(1) 空間的近接性と (2) 時間的一貫性の 2 つの手がかりを用いて,地名曖昧性解消の精度向上を目指す.空間的近接性は,投稿内の地名同士は距離が近いことが多いという傾向,時間的一貫性は,一連の投稿に現れる地名はそれぞれ関連性があるという傾向をとらえるために導入する.位置情報付きツイートを用いた実験によって,2つの手がかりの有効性を確認した.
著者
河原 大輔
出版者
京都大学
雑誌
特別研究員奨励費
巻号頁・発行日
2007

本研究は、アメリカ映画におけるポスト古典映画の諸相を明らかにするべく、近年積極的に行われてきたポスト古典論争の再検討を、とりわけインディペンデント映画研究、ニューメディア論との比較検討から重点的に行った。インディペンデント映画研究においては、とりわけ、ポスト古典初期ともいえる60年代後半からそのキャリアをスタートさせたデイヴィッド・リンチを主たる研究対象とし、彼の作品の製作・配給・上映形態がいかなる変化を遂げてきたのかを検証した。そこで明らかになったのは、深夜上映からブロックバスター、テレビドラマ、ウェブサイトへと、変則的ながらもゆるやか移行を見せるリンチの製作態度が、ポスト古典論を展開する理論家が提示してきた現代アメリカ映画の諸特徴と連動するのみならず、90年代以降のニューメディア論とも共振しているということである。また、テレビドラマのパイロット版を映画として公開したり、ウェブサイトでの公開用に撮影したデジタル映像を映画館でフィルム上映したりする近年のリンチの変則的な製作態度を、オールド・メディアとしての映画からインターネットをはじめとするニューメディアへの移行という直線的なメディア史の記述方法に疑問を投げかける重要な事例として検討した。これらの結果判明したことは、現代はむしろ、ヘンリー・ジェンキンスが説くように、新旧のメディア双方が乗り入れ、奇妙な同居を見せる時代として理解されるべきであり、このように理解したとき、リンチの映画および60年代以降のポスト古典映画は旧来の古典映画とニューメディアを段階的に繋ぐ領域として、より広義にはポストモダンへの移行を記述するメディアとして、意義深い視点を提供するであろうということである。研究成果は日本映画学会および日本アメリカ学会において順次発表される予定である。