著者
滝澤 修
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.2, pp.3-22, 1995-04-10 (Released:2011-03-01)
参考文献数
17
被引用文献数
1 or 0

比喩の一種である「駄洒落」は, 言語記号 (音声) とその記号が表す概念の意味との両方に, 比喩を成立させる「根拠 (ground) 」 (比喩における被喩辞 (tenor) と喩辞 (vehicle) とを結びつける関係) があるという点で, 高度な修辞表現に位置づけられる. 筆者らは, 「併置型」と呼ぶ駄洒落の一種 (例「トイレに行っといれ」) を, 外国語専攻の大学生54名に筆記によって創作させ, 203個を収集した. そしてこのデータに対して, 駄洒落理解システムの構築に必要な知見を得るという観点から, 「先行喩辞」 (例では「トイレ」) と「後続喩辞」 (例では「…といれ」) の関係, 及び「出現喩辞」 (例では「…といれ」) と「復元喩辞」 (例では「…ておいで」) の関係に着目し, 以下の3つの分析を行った.(1) 先行-後続出現喩辞間の音素列は, どれ位の長さの一致が見られるか.(2) 先行-後続出現喩辞間の音素の相違にはどのような特徴があるか.(3) 出現-復元喩辞間の音素の相違にはどのような特徴があるか. その結果, 出現喩辞の音節数は先行と後続とで一致する場合が多いこと, 先行-後続出現喩辞間及び出現-復元喩辞間の音素の相違は比較的少なく, 相違がある場合もかなり高い規則性があること, などがわかった. 以上の知見から, 計算機による駄洒落理解手法, 即ち出現喩辞と復元喩辞を同定するアルゴリズムを構築できる見通しが得られた.
著者
梅谷 俊治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.5, pp.1059-1090, 2014-09-16 (Released:2014-12-16)
参考文献数
41

線形計画問題において変数が整数値を取る制約を持つ整数計画問題は,産業や学術の幅広い分野における現実問題を定式化できる汎用的な最適化問題の 1 つであり,最近では分枝限定法に様々なアイデアを盛り込んだ高性能な整数計画ソルバーがいくつか公開されている.しかし,整数計画問題では線形式のみを用いて現実問題を記述する必要があるため,数理最適化の専門家ではない利用者にとって現実問題を整数計画問題に定式化することは決して容易な作業ではない.本論文では,数理最適化の専門家ではない利用者が現実問題の解決に取り組む際に必要となる整数計画ソルバーの基本的な利用法と定式化の技法を解説する.
著者
相田 慎 新堂 安孝 内山 将夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.405-422, 2013-06-14 (Released:2013-09-14)
参考文献数
46

東日本大震災初期,Twitter に寄せられた膨大なツィートには,緊急性の高い救助要請候補が多数含まれていたものの,他の震災関連ツィートや「善意のリツィート」によって,通報されるべき情報が埋もれてしまった.この様な状況を解消するために,筆者らは 2011 年 3 月 16 日,Twitter 上の救助要請情報をテキストフィルタリングで抽出し,類似文を一つにまとめ一覧表示する Webサイトを開発・公開した.本論文では,本サイト技術のみならず,通報支援活動プロジェクト #99japan との具体的な連携・活用事例についても詳述する.なお #99japan は,救助状況の進捗・完了報告を重視する Twitter を用いた活動であると共に,発災 2 時間後に 2 ちゃんねる臨時地震板ボランティアらによって立ち上げられたスレッドに由来する.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.2, pp.109-131, 2005-03-31 (Released:2011-03-01)
参考文献数
19
被引用文献数
8 or 0

本稿では, 格フレーム辞書を漸次的に自動構築する手法を提案する.カバレージの高い格フレーム辞書を構築するために, 大規模コーパスから徐々に確からしい情報を抽出する.まず, コーパスを構文解析し, 構文的曖昧性のない述語項構造のみを抽出・クラスタリングすることによって, 1次格フレーム辞書を得る.次に, 1次格フレーム辞書を用いてコーパスを格解析し, 新たに分かる確実な情報を抽出し, 2次格フレーム辞書を構築する.このように徐々に新たな情報を加えていくことによって, 高次格フレーム辞書を構築する.結果として得られた格フレーム辞書は, 二重主語構文, 連体修飾の外の関係, 格変化といった複雑な言語現象を解析することを可能にする.新聞記事26年分, 約2600万文のコーパスから格フレーム辞書を構築し2種類の評価を行った.1つは, 得られた格フレームを人手で評価するものであり, もう1つは得られた格フレーム辞書を用いた構文・格解析実験による評価である.これらの結果, 本手法の有効性が確かめられた.
著者
飯田 龍 小町 守 井之上 直也 乾 健太郎 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_25-2_50, 2010 (Released:2011-06-23)
参考文献数
25
被引用文献数
5 or 0

本論文では,日本語書き言葉を対象とした述語項構造と照応関係のタグ付与について議論する.述語項構造解析や照応解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの解析のための主要な手法はタグ付与コーパスを用いた学習に基づく手法である.この手法を実現するためには大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で導入されているタグ付与の基準は,言語の違いや最終的に出力したい解析結果の粒度が異なるため,そのまま利用することができない.そこで,我々は既存のいくつかのタグ付与の仕様を吟味し,述語項構造と共参照関係のアノテーションを行うためにタグ付与の基準がどうあるべきかについて検討した.本論文ではその結果について報告する.また,京都コーパス第 3.0 版の記事を対象にタグ付与作業を行った結果とその際に問題となった点について報告する.さらにタグ付与の仕様の改善案を示し,その案にしたがい作業をやり直した結果についても報告する.
著者
杉山 一成 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.5, pp.5_23-5_49, 2009 (Released:2011-07-28)
参考文献数
28

人名は検索語として,しばしば検索エンジンに入力される.しかし,この入力された人名に対して,検索エンジンは,いくつかの同姓同名人物についての Web ページを含む長い検索結果のリストを返すだけである.この問題を解決するために,Web 検索結果における人名の曖昧性解消を目的とした従来研究の多くは,凝集型クラスタリングを適用している.一方,本研究では,ある種文書に類似した文書をマージする半教師有りクラスタリングを用いる.我々の提案する半教師有りクラスタリングは,種文書を含むクラスタの重心の変動を抑えるという点において,新規性がある.
著者
Neubig Graham
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.419-419, 2014-06-16 (Released:2014-09-16)
著者
大和田 裕亮 水野 淳太 岡崎 直観 乾 健太郎 石塚 満
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.423-459, 2013-06-14 (Released:2013-09-14)
参考文献数
18
被引用文献数
0 or 1

東日本大震災では安否確認や被災者支援のためにTwitterが活躍したが,一方で多種多様な情報が流通し,混乱を招いた.我々は,情報の信憑性や重要性を評価するには,ツイート空間の論述的な構造を解析・可視化し,情報の「裏」を取ることが大切だと考えている.本稿では,ツイートの返信および非公式リツイート(以下,両者をまとめて返信と略す)に着目し,ツイート間の論述的な関係を認識する手法を提案する.具体的には,返信ツイートによって,投稿者の「同意」「反論」「疑問」などの態度が表明されると考え,これらの態度を推定する分類器を教師有り学習で構築する.評価実験では,返信ツイートで表明される態度の推定性能を報告する.さらに,本手法が直接的に返信関係のないツイート間の論述的な関係の推定にも応用できることを示し,ツイート間の含意関係認識に基づくアプローチとの比較を行う.
著者
村脇 有吾 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.1, pp.1_55-1_75, 2010 (Released:2011-06-30)
参考文献数
21
被引用文献数
2 or 6

日本語の形態素解析における未知語問題を解決するために,オンライン未知語獲得という枠組みと,その具体的な実現手法を提案する.オンライン未知語獲得では,形態素解析器と協調して動作する未知語獲得器が,文が解析されるたびに未知語を検出し,その可能な解釈の候補を列挙し,最適な候補を選択する.このうち,列挙は日本語の持つ形態論的制約を利用し,選択は蓄積した複数用例の比較により行う.十分な用例の比較により曖昧性が解消されると,解析器の辞書を直接更新し,獲得された未知語が以降の解析に反映される.実験により,比較的少数の用例から高精度に未知語が獲得され,その結果形態素解析の精度が改善することが示された.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014-12-15 (Released:2015-03-15)
参考文献数
24

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.
著者
石川 徹也 北内 啓 城塚 音也
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.4, pp.3-18, 2008-10

本研究の目的は、歴史資料(史料)を対象に歴史知識の構造化の基盤となる「歴史オントロジー」を構築するシステムを開発し、広く提供することによって歴史学の発展に寄与することにある。この目標を具体的に検証するために、昭和15年に時の帝国学士院において始められた明治前日本科学史の編纂成果である『明治前日本科学史』(刊本全28巻)の全文を日本学士院の許諾の下に電子化し、明治前の日本の科学技術を創成してきた科学技術者に関する属性および業績の情報を抽出することにより、前近代日本の人物情報データベースの構築を試みる。人物の属性として人名とそれに対する役職名と地名を、人物の業績として人名とそれに対する書名を、いずれもパターンマッチングなどのルールベースの手法によって抽出する。『明治前日本科学史総説・年表』を対象とした性能評価を行った結果、人名、人名とその役職名、および人名とその地名について、F値で0.8を超える結果が得られた。
著者
木村 大翼 田中 久美子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.119-137, 2011 (Released:2011-09-28)
参考文献数
17
被引用文献数
1 or 0

本稿では,文書量に不変な定数を考える.このような定数には,言語や文書の複雑さや冗長性を定量化して捉える計算言語学上の意義がある.これらの指標は既存研究でさまざまなものが提案されてきたが,ほとんどの場合英語を中心とする小規模な文書を対象としてきた.本研究では英語以外のさまざまな言語や,大規模な文書も対象として扱い,主に先行研究において値が文長に依らないとされる 3 つの指標 K, Z, VM と本研究で新たに試みた指標である H と r の 5 つの指標に対し,値が一定となるかどうかの実験を行った.結果,値が言語の種類や文長に依らずに一定となる指標は K と VM の 2 つの指標であった.なおかつこの 2 つの指標の値には自然言語とプログラミング言語の間で有意な差が見られ,言語の複雑さや冗長性をある観点で表した指標となっていると考えることができる.
著者
荻野 孝野 植田 禎子 小林 正博 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.4, pp.21-54, 2005-08-26 (Released:2011-03-01)
参考文献数
16
被引用文献数
1 or 0

係り受け関係のついた大量のコーパスを元にして作成されたデータを対象として, 動詞の結合価に関する検討を行った.これは, 係り受け関係まで付与された大量データからなるコーパスが存在してはじめて可能となった分析である.動詞の結合価に関する検討は, 各動詞の基本的な格パターンに着目して結合価を決定することを中心として検討されてきた.しかし, 省略を含め, 結合価が実際の言語データでどういう形で出現しているかについて, 全容を示すようなものは報告されていない.ここでは, 大量のコーパスデータから作成した結合価データを用い, 実際のデータで動詞にかかる格助詞がどういうパターンで出ているのかを調査し, 格助詞パターンの出現状況を把握するとともに, それらの格助詞パターンを用いて同音異表記がどの程度判定できるかを検討した.動詞約12, 400概念 (表記の異なりレベルで約9, 400単語) から作成した動詞の格助詞組み合わせパターンは, 延べパターン数で37, 237パターン, 異なりパターンで188パターンとなった.また, 同音異表記セットについて, これらのパターンを用い, 表記確定を試みたところ, 結合価のうち格助詞組み合わせパターンの異なりによる判定でも格助詞パターンの出現頻度などを判定基準に付加することによって約73%の判定が可能であることがわかった.
著者
松崎 拓也 横野 光 宮尾 祐介 川添 愛 狩野 芳伸 加納 隼人 佐藤 理史 東中 竜一郎 杉山 弘晃 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 新井 紀子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.119-159, 2016-01-25 (Released:2016-04-25)
参考文献数
35

「ロボットは東大に入れるか」は,大学入試試験問題を計算機で解くという挑戦を通じ,言語処理を含む AI 諸技術の再統合と,知的情報処理の新たな課題の発見を目指すプロジェクトである.知的能力の測定を第一目的として設計された入試問題は,AI 技術の恰好のベンチマークであるとともに,人間の受験者と機械のエラー傾向を直接比較することが可能である.本稿では,大手予備校主催のセンター試験形式模試を主たる評価データとして,各科目の解答システムのエラーを分析し,高得点へ向けた今後の課題を明らかにするとともに,分野としての言語処理全体における現在の課題を探る.
著者
藤田 早苗 平 博順 小林 哲生 田中 貴秋
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.515-539, 2014-06-16 (Released:2014-09-16)
参考文献数
21

これまで,主に新聞などのテキストを対象とした解析では,形態素解析器を始めとして高い解析精度が達成されている.しかし分野の異なるテキストに対しては,既存の解析モデルで,必ずしも高い解析精度を得られるわけではない.そこで本稿では,既存の言語資源を対象分野の特徴にあわせて自動的に変換する手法を提案する.本稿では,絵本を解析対象とし,既存の言語資源を絵本の特徴にあわせて自動的に変換し,学習に用いることで相当な精度向上が可能であることを示す.学習には既存の形態素解析器の学習機能を用いる.さらに,絵本自体にアノテーションしたデータを学習に用いる実験を行い,提案手法で得られる効果は,絵本自体への約 11,000 行,90,000 形態素のアノテーションと同程度であることを示す.また,同じ絵本の一部を学習データに追加する場合と,それ以外の場合について,学習曲線や誤り内容の変化を調査し,効果的なアノテーション方法を示す.考察では,絵本の対象年齢と解析精度の関係や,解析精度が向上しにくい語の分析を行い,更なる改良案を示す.また,絵本以外への適用可能性についても考察する.
著者
西川 仁 平尾 努 牧野 俊朗 松尾 義博 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.4, pp.585-612, 2013-09-13 (Released:2013-12-12)
参考文献数
29

本論文では,複数文書要約を冗長性制約付きナップサック問題として捉える.この問題に基づく要約モデルは,ナップサック問題に基づく要約モデルに対し,冗長性を削減するための制約を加えることで得られる.この問題は NP 困難であり,計算量が大きいことから,高速に求解するための近似解法として,ラグランジュヒューリスティックに基づくデコーディングアルゴリズムを提案する.ROUGE に基づく評価によれば,我々の提案する要約モデルは,モデルの最適解において,最大被覆問題に基づく要約モデルを上回る性能を持つ.要約の速度に関しても評価を行い,我々の提案するデコーディングアルゴリズムは最大被覆問題に基づく要約モデルの最適解と同水準の近似解を,整数計画ソルバーと比べ100倍以上高速に発見できることがわかった.
著者
鍋島 啓太 渡邉 研斗 水野 淳太 岡崎 直観 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.461-484, 2013-06-14 (Released:2013-09-14)
参考文献数
14

東日本大震災では,「コスモ石油の爆発で有害物質の雨が降る」などの誤情報の拡散が問題となった.本研究の目的は,東本日大震災後 1 週間の全ツイートから誤情報を網羅的に抽出し,誤情報の拡散と訂正の過程を分析することである.本稿では,誤情報を訂正する表現(以下,訂正パターン)に着目し,誤情報を認識する手法を提案する.具体的には,訂正パターンを人手で整備し,訂正パターンにマッチするツイートを抽出する.次に,収集したツイートを内容の類似性に基づいてクラスタリングし,最後に,その中から誤情報を過不足なく説明する1文を選択する.実験では,誤情報を人手でまとめたウェブサイトを正解データとして,評価を行った.また,誤情報とその訂正情報の拡散状況を,時系列で可視化するシステムを構築した.本システムにより,誤情報の出現・普及,訂正情報の出現・普及の過程を分析できる.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-45, 2003-01-10 (Released:2011-03-01)
参考文献数
22
被引用文献数
11 or 0

本論文では, 専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する. 本論文では名詞 (単名詞と複合名詞) を対象として専門用語抽出について検討する. 基本的アイデアは, 単名詞のバイグラムから得られる単名詞の統計量を利用するという点である. より具体的に言えば, ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる. この頻度を利用した数種類の複合名詞スコア付け法を提案する. NTCIR1 TMRECテストコレクションによって提案方法を実験的に評価した. この結果, スコアの上位の1, 400用語候補以内, ならびに, 12,000用語候補以上においては, 単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.