著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.2, pp.109-131, 2005-03-31 (Released:2011-03-01)
参考文献数
19
被引用文献数
8 6

本稿では, 格フレーム辞書を漸次的に自動構築する手法を提案する.カバレージの高い格フレーム辞書を構築するために, 大規模コーパスから徐々に確からしい情報を抽出する.まず, コーパスを構文解析し, 構文的曖昧性のない述語項構造のみを抽出・クラスタリングすることによって, 1次格フレーム辞書を得る.次に, 1次格フレーム辞書を用いてコーパスを格解析し, 新たに分かる確実な情報を抽出し, 2次格フレーム辞書を構築する.このように徐々に新たな情報を加えていくことによって, 高次格フレーム辞書を構築する.結果として得られた格フレーム辞書は, 二重主語構文, 連体修飾の外の関係, 格変化といった複雑な言語現象を解析することを可能にする.新聞記事26年分, 約2600万文のコーパスから格フレーム辞書を構築し2種類の評価を行った.1つは, 得られた格フレームを人手で評価するものであり, もう1つは得られた格フレーム辞書を用いた構文・格解析実験による評価である.これらの結果, 本手法の有効性が確かめられた.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014-12-15 (Released:2015-03-15)
参考文献数
24
被引用文献数
3

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.
著者
村脇 有吾 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.1, pp.1_55-1_75, 2010 (Released:2011-06-30)
参考文献数
21
被引用文献数
2 1 6

日本語の形態素解析における未知語問題を解決するために,オンライン未知語獲得という枠組みと,その具体的な実現手法を提案する.オンライン未知語獲得では,形態素解析器と協調して動作する未知語獲得器が,文が解析されるたびに未知語を検出し,その可能な解釈の候補を列挙し,最適な候補を選択する.このうち,列挙は日本語の持つ形態論的制約を利用し,選択は蓄積した複数用例の比較により行う.十分な用例の比較により曖昧性が解消されると,解析器の辞書を直接更新し,獲得された未知語が以降の解析に反映される.実験により,比較的少数の用例から高精度に未知語が獲得され,その結果形態素解析の精度が改善することが示された.
著者
萩行 正嗣 河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.213-247, 2014-04-18 (Released:2014-07-17)
参考文献数
12
被引用文献数
2 3

現在,自然言語処理では意味解析の本格的な取り組みが始まりつつある.意味解析の研究には意味関係を付与したコーパスが必要であるが,従来の意味関係のタグ付きコーパスは新聞記事を中心に整備されてきた.しかし,文書には多様なジャンル,文体が存在し,その中には新聞記事では出現しないような言語現象も出現する.本研究では,従来のタグ付け基準では扱われてこなかった現象に対して新たなタグ付け基準を設定した.Webを利用することで多様な文書の書き始めからなる意味関係タグ付きコーパスを構築し,その分析を行った.
著者
黒橋 禎夫
出版者
デジタルアーカイブ学会
雑誌
デジタルアーカイブ学会誌 (ISSN:24329762)
巻号頁・発行日
vol.6, no.s1, pp.s23-s24, 2022-06-01 (Released:2022-05-28)
参考文献数
1
著者
松村 真宏 河原 大輔 岡本 雅史 黒橋 禎夫 西田 豊明
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.22, no.1, pp.93-102, 2007 (Released:2007-01-05)
参考文献数
18
被引用文献数
1 3

To overcome the limitation of conventional text-mining approaches in which frequent patterns of word occurrences are to be extracted to understand obvious user needs, this paper proposes an approach to extracting questions behind messages to understand potential user needs. We first extract characteristic case frames by comparing the case frames constructed from target messages with the ones from 25M sentences in the Web and 20M sentences in newspaper articles of 20 years. Then we extract questions behind messages by transforming the characteristic case frames into interrogative sentences based on new information and old information, i.e., replacing new information with WH-question words. The proposed approach is, in other words, a kind of classification of word occurrence pattern. Qualitative evaluations of our preliminary experiments suggest that extracted questions show problem consciousness and alternative solutions -- all of which help to understand potential user needs.
著者
塚田 元 永田 昌明 隅田 英一郎 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.49, no.2, pp.194-202, 2008-02-15

近年,統計的機械翻訳研究コミュニティが中心となって,コンテスト形式の評価型ワークショップが開かれている.この評価型ワークショップが,(上)統計的機械翻訳入門で紹介した統計翻訳技術の急速な進歩を後押しする立役者となった.本稿では,代表的な評価型ワークショップを紹介するとともに,これを背景に進展した自動評価などの技術動向を解説する.また,これらのワークショップに日本から参加している研究機関の翻訳システムを紹介することで,日本における統計的機械翻訳研究の動向も合わせて報告する.
著者
黒橋 禎夫
出版者
デジタルアーカイブ学会
雑誌
デジタルアーカイブ学会誌 (ISSN:24329762)
巻号頁・発行日
vol.7, no.3, pp.145-148, 2023-08-01 (Released:2023-10-11)
参考文献数
2

デジタル知識の構築や循環を持続的なものにするためには産業化の視点がかかせない。そのためには、DAに関する多様な活動や技術を共有し、さらにはDA産業化に関する活動・課題の鳥瞰図が必要である。このような動機から、2022年度から月1回のペースで開催しているDAショートトークの概要について述べる。
著者
西田 豊明 馬場口 登 谷口 倫一郎 黒橋 禎夫 植田 一博 伝 康晴 辻井 潤一 美濃 導彦 中村 裕一
出版者
京都大学
雑誌
学術創成研究費
巻号頁・発行日
2001

(1)講義のコミュニケーションに関する一連の研究の総括を行った.マルチモーダルセンシングによる会議環境の記録の手法について知見を得た.会話に適切な構造を与えて記録し,再利用を促進するための手法を提案した.非言語的な手がかりに注目した会話量子の自動抽出法の研究を行い,実装した.(2)会話の雰囲気や焦点などの自動認識と会話構造化のための知見を得た.会話記録をマルチメディアコンテンツとして加工する研究を行った.会話量子を風景として可視化できる会話コンテンツアーカイブシステムの開発を進めた.深い理解のための言語情報処理基盤の研究と,人間の言語活動に関する認知言語学的考察を行い,種々のアプリケーションシステムを構築した.(3)身体性のある知識メディアとしての会話ロボットを一部実装した.種々の身体表現が人間に与える影響を調査した.体格に依存しない情報提示を実現した.会話エージェントパッケージUAPを用いて,異文化コミュニケーションの学習支援システムと,ユキャンパスガイドエージェントシステムを試作した.(4)人間の嘘を視線・顔方向・表情のみから自動的に判別するシステムを構築し,その評価を行った.インタラクション時の行動的指標と生理指標とユーザのインタラクション状態の関連を明らかにした.ターン構成単位の認定のための手続き的な基準を与えた.包括的読解課題および局所的読解と,「心の理論」の関係を検討し,児童期の心の発達を分析した.同調性・信頼感と心的プロセスとの間の関連を実証的に検証した.対話中の身体動作を定量的に評価する手法を提案した.会話記録のスコアリング手法を提案した.ウェアラブルセンサ・環境センサを用いて獲得された多視点の同期した体験データを閲覧・分析可能とするシステムiCorpus Studioを開発した.
著者
吉越 卓見 河原 大輔 黒橋 禎夫
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.6, pp.1-8, 2020-06-26

言語を理解するには,字義通りの意味を捉えるだけでなく,それが含意する意味を推論することが不可欠である.このような推論能力を計算機に与えるために,自然言語推論(NLI)の研究が盛んに行われている.NLI は,前提が与えられたときに,仮説が成立する(含意),成立しない(矛盾),判別できない(中立)かを判断するタスクある.自然言語推論を計算機で解くには数十万規模の前提・仮説ペアのデータセットが必要となるが,これまでに構築された自然言語推論データセットは言語間でその規模に大きな隔たりがある.この状況は,自然言語推論の研究の進展を妨げる要因となっている.このような背景から,本研究では,機械翻訳に基づく,安価かつ高速な自然言語推論データセットの構築手法を提案する.提案する構築手法は二つのステップからなる.まず,既存の大規模な自然言語推論データセットを機械翻訳によって目的の言語に変換する.次に,翻訳によって生じるノイズを軽減するため,フィルタリングを行う.フィルタリングの手法として,評価データと学習データに対し,それぞれ別のアプローチをとる.評価データは,正確さが重要となるため,クラウドソーシングを用い,人手で検証する.学習データは,大規模な自然言語推論データセットでは数十万ペアの問題が存在するため,翻訳文の検証を自動的に行い,効率的にデータをフィルタリングする.本研究では,機械翻訳を用いた逆翻訳による手法と,言語モデルによる手法の二つを提案する.本研究では,SNLI を翻訳対象とし,日本語を対象言語として実験を行った.その結果,評価データが 3,917 ペア,学習データが 53 万ペアのデータセットを構築した.このデータセットは BERT に基づく自然言語推論モデルによって 93.0 %の精度で解くことが可能である.
著者
笹野 遼平 黒橋 禎夫
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.11, pp.3765-3776, 2008-11-15

本稿では大域的情報を用いた日本語固有表現認識手法を提案する.提案する手法では,SVMを用いた固有表現認識手法を基とし,構造的な解析などから得られる大域的な情報として,先行文における同一形態素の解析結果,共参照関係にある表現の解析結果,係り先から得られる情報,固有表現情報を付与した格フレームを用いた格解析から得られる情報の4つの情報を新たに導入する.CRL固有表現データ(5分割交差検定),IREXテストセット,および,ウェブテキストに固有表現を付与したデータを用いた評価実験の結果,従来手法より高い精度が得られ,手法の有効性が確認された.
著者
鍜治 伸裕 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.1, pp.81-106, 2004-01-10 (Released:2011-03-01)
参考文献数
18

言い換え処理は, 様々な自然言語処理アプリケーションで必要とされている非常に重要な技術である. 言い換え処理の一つとして, 本論文では「名詞+格助詞+動詞」という形の迂言表現と重複表現を国語辞典を用いて認識し, さらにそれらを言い換える手法を提案する. 迂言表現とは, 動詞が動作を表していない表現や, 名詞が動作の主体や対象を表わさずに動作の状態を表している表現のことである. そして重複表現とは, 動詞と名詞の問に意味の重複がある表現のことである. これらの表現には, 多くの場合, 同じ意味をより簡潔な形であらわした表現が存在する. 提案手法の認識処理と言い換え処理の精度を二人の被験者が判断したところ, 認識処理の精度は, 平均して適合率78%, 再現率52%であった. また, 言い換え処理の精度は平均して91%であった.
著者
萩行 正嗣 河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.563-600, 2014-06-16 (Released:2014-09-16)
参考文献数
22
被引用文献数
2 3

日本語では用言の項が省略されるゼロ照応と呼ばれる現象が頻出する.ゼロ照応は照応先が文章中に明示的に出現する文章内ゼロ照応と,明示的に出現しない外界ゼロ照応に分類でき,従来のゼロ照応解析は主に前者を対象としてきた.近年,Web が社会基盤となり,Web上でのテキストによる情報伝達がますます重要性をましている.そこでは,情報の送り手・受け手である著者・読者が重要な役割をはたすため,Web テキストの言語処理においても著者・読者を正確にとらえることが必要となる.しかし,文脈中で明確な表現(人称代名詞など)で言及されていない著者・読者は,従来の文章内ゼロ照応中心のゼロ照応解析では多くの場合対象外であった.このような背景から,本論文では,外界ゼロ照応および文章の著者・読者を扱うゼロ照応解析モデルを提案する.提案手法では外界ゼロ照応を扱うために,ゼロ代名詞の照応先の候補に外界ゼロ照応に対応する仮想的な談話要素を加える.また,語彙統語パターンを利用することで,文章中で著者や読者に言及している表現を自動的に識別する.実験により,我々の提案手法が外界ゼロ照応解析だけでなく,文章内ゼロ照応解析に対しても有効であることを示す.
著者
橋本 力 黒橋 禎夫 河原 大輔 新里 圭司 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.175-201, 2011 (Released:2011-09-28)
参考文献数
22
被引用文献数
5 7

近年,ブログを対象とした情報アクセス・情報分析技術が盛んに研究されている.我々は,この種の研究の基礎データの提供を目的とし,249 記事,4,186 文からなる,解析済みブログコーパスを構築した.主な特長は次の 4 点である.i) 文境界のアノテーション.ii) 京大コーパス互換の,形態素,係り受け,格・省略・照応,固有表現のアノテーション.iii) 評価表現のアノテーション.iv) アノテーションを可視化した HTML ファイルの提供.記事は,大学生 81 名に「京都観光」「携帯電話」「スポーツ」「グルメ」のいずれかのテーマで執筆してもらうことで収集した.解析済みブログコーパスを構築する際,不明瞭な文境界,括弧表現,誤字,方言,顔文字等,多様な形態素への対応が課題になる.本稿では,本コーパスの全容とともに,いかに上記の課題に対応しつつコーパスを構築したかについて述べる.