著者
滝澤 修
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.2, pp.3-22, 1995-04-10 (Released:2011-03-01)
参考文献数
17
被引用文献数
1

比喩の一種である「駄洒落」は, 言語記号 (音声) とその記号が表す概念の意味との両方に, 比喩を成立させる「根拠 (ground) 」 (比喩における被喩辞 (tenor) と喩辞 (vehicle) とを結びつける関係) があるという点で, 高度な修辞表現に位置づけられる. 筆者らは, 「併置型」と呼ぶ駄洒落の一種 (例「トイレに行っといれ」) を, 外国語専攻の大学生54名に筆記によって創作させ, 203個を収集した. そしてこのデータに対して, 駄洒落理解システムの構築に必要な知見を得るという観点から, 「先行喩辞」 (例では「トイレ」) と「後続喩辞」 (例では「…といれ」) の関係, 及び「出現喩辞」 (例では「…といれ」) と「復元喩辞」 (例では「…ておいで」) の関係に着目し, 以下の3つの分析を行った.(1) 先行-後続出現喩辞間の音素列は, どれ位の長さの一致が見られるか.(2) 先行-後続出現喩辞間の音素の相違にはどのような特徴があるか.(3) 出現-復元喩辞間の音素の相違にはどのような特徴があるか. その結果, 出現喩辞の音節数は先行と後続とで一致する場合が多いこと, 先行-後続出現喩辞間及び出現-復元喩辞間の音素の相違は比較的少なく, 相違がある場合もかなり高い規則性があること, などがわかった. 以上の知見から, 計算機による駄洒落理解手法, 即ち出現喩辞と復元喩辞を同定するアルゴリズムを構築できる見通しが得られた.
著者
梅谷 俊治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.5, pp.1059-1090, 2014-09-16 (Released:2014-12-16)
参考文献数
41

線形計画問題において変数が整数値を取る制約を持つ整数計画問題は,産業や学術の幅広い分野における現実問題を定式化できる汎用的な最適化問題の 1 つであり,最近では分枝限定法に様々なアイデアを盛り込んだ高性能な整数計画ソルバーがいくつか公開されている.しかし,整数計画問題では線形式のみを用いて現実問題を記述する必要があるため,数理最適化の専門家ではない利用者にとって現実問題を整数計画問題に定式化することは決して容易な作業ではない.本論文では,数理最適化の専門家ではない利用者が現実問題の解決に取り組む際に必要となる整数計画ソルバーの基本的な利用法と定式化の技法を解説する.
著者
相田 慎 新堂 安孝 内山 将夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.405-422, 2013-06-14 (Released:2013-09-14)
参考文献数
46

東日本大震災初期,Twitter に寄せられた膨大なツィートには,緊急性の高い救助要請候補が多数含まれていたものの,他の震災関連ツィートや「善意のリツィート」によって,通報されるべき情報が埋もれてしまった.この様な状況を解消するために,筆者らは 2011 年 3 月 16 日,Twitter 上の救助要請情報をテキストフィルタリングで抽出し,類似文を一つにまとめ一覧表示する Webサイトを開発・公開した.本論文では,本サイト技術のみならず,通報支援活動プロジェクト #99japan との具体的な連携・活用事例についても詳述する.なお #99japan は,救助状況の進捗・完了報告を重視する Twitter を用いた活動であると共に,発災 2 時間後に 2 ちゃんねる臨時地震板ボランティアらによって立ち上げられたスレッドに由来する.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.2, pp.109-131, 2005-03-31 (Released:2011-03-01)
参考文献数
19
被引用文献数
8 5

本稿では, 格フレーム辞書を漸次的に自動構築する手法を提案する.カバレージの高い格フレーム辞書を構築するために, 大規模コーパスから徐々に確からしい情報を抽出する.まず, コーパスを構文解析し, 構文的曖昧性のない述語項構造のみを抽出・クラスタリングすることによって, 1次格フレーム辞書を得る.次に, 1次格フレーム辞書を用いてコーパスを格解析し, 新たに分かる確実な情報を抽出し, 2次格フレーム辞書を構築する.このように徐々に新たな情報を加えていくことによって, 高次格フレーム辞書を構築する.結果として得られた格フレーム辞書は, 二重主語構文, 連体修飾の外の関係, 格変化といった複雑な言語現象を解析することを可能にする.新聞記事26年分, 約2600万文のコーパスから格フレーム辞書を構築し2種類の評価を行った.1つは, 得られた格フレームを人手で評価するものであり, もう1つは得られた格フレーム辞書を用いた構文・格解析実験による評価である.これらの結果, 本手法の有効性が確かめられた.
著者
飯田 龍 小町 守 井之上 直也 乾 健太郎 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_25-2_50, 2010 (Released:2011-06-23)
参考文献数
25
被引用文献数
5 5

本論文では,日本語書き言葉を対象とした述語項構造と照応関係のタグ付与について議論する.述語項構造解析や照応解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの解析のための主要な手法はタグ付与コーパスを用いた学習に基づく手法である.この手法を実現するためには大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で導入されているタグ付与の基準は,言語の違いや最終的に出力したい解析結果の粒度が異なるため,そのまま利用することができない.そこで,我々は既存のいくつかのタグ付与の仕様を吟味し,述語項構造と共参照関係のアノテーションを行うためにタグ付与の基準がどうあるべきかについて検討した.本論文ではその結果について報告する.また,京都コーパス第 3.0 版の記事を対象にタグ付与作業を行った結果とその際に問題となった点について報告する.さらにタグ付与の仕様の改善案を示し,その案にしたがい作業をやり直した結果についても報告する.
著者
杉山 一成 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.5, pp.5_23-5_49, 2009 (Released:2011-07-28)
参考文献数
28

人名は検索語として,しばしば検索エンジンに入力される.しかし,この入力された人名に対して,検索エンジンは,いくつかの同姓同名人物についての Web ページを含む長い検索結果のリストを返すだけである.この問題を解決するために,Web 検索結果における人名の曖昧性解消を目的とした従来研究の多くは,凝集型クラスタリングを適用している.一方,本研究では,ある種文書に類似した文書をマージする半教師有りクラスタリングを用いる.我々の提案する半教師有りクラスタリングは,種文書を含むクラスタの重心の変動を抑えるという点において,新規性がある.
著者
Neubig Graham
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.419-419, 2014-06-16 (Released:2014-09-16)
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.203-222, 2005
被引用文献数
20

近年, web上に多数存在する掲示板などの文書から, 意見を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には, 評価を表す表現が重要な手がかりとなるが, それらの表現には「燃費がよい」「CGがきれい」といった領域依存の表現が多数存在するため, 人手で書き尽くすことは困難である.そこで, 我々は, 評価対象表現, 属性表現, 評価表現の共起情報を利用して, これら領域依存の表現を効率的に収集することを試みた.本稿では, 共起パタンに基づく属性・評価値表現の半自動的収集方法を提案し, 「コンピュータ」と「ゲーム」の2つの領域を対象に, 人手と提案手法で行なった収集効率実験の結果について報告する.
著者
藤田 早苗 服部 正嗣 小林 哲生 奥村 優子 青山 一生
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.1, pp.49-73, 2017-02-15 (Released:2017-05-15)
参考文献数
43

本稿では,子どもに「内容」と「読みやすさ」がぴったりな絵本を見つけるためのシステム「ぴたりえ」を提案する.本システムは,親や保育士,司書など,子どもに絵本を選ぶ大人が利用することを想定している.絵本を読むことは,子どもの言語発達と情操教育の両面で効果が期待できる.しかし,難しさも内容も様々な絵本が数多くある中で,子ども 1 人 1 人にとってぴったりな絵本を選ぶのは容易なことではない.そこで,ぴたりえでは,ひらがなの多い絵本のテキストを高精度に解析できる形態素解析や,文字の少ない絵本に対しても精度の高いテキストの難易度推定技術などの言語処理技術により,子どもにぴったりな絵本を探す絵本検索システムを実現する.本稿では,こうした言語処理技術を中心にぴたりえの要素技術を紹介し,各技術の精度が高いことを示す.また,システム全体としても,アンケート評価の結果,ぴたりえで選んだ絵本は「読みやすさ」も「内容」も,5 段階評価で平均値が 4.44~4.54 と高い評価が得られたことを示す.
著者
大和田 裕亮 水野 淳太 岡崎 直観 乾 健太郎 石塚 満
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.423-459, 2013-06-14 (Released:2013-09-14)
参考文献数
18
被引用文献数
1

東日本大震災では安否確認や被災者支援のためにTwitterが活躍したが,一方で多種多様な情報が流通し,混乱を招いた.我々は,情報の信憑性や重要性を評価するには,ツイート空間の論述的な構造を解析・可視化し,情報の「裏」を取ることが大切だと考えている.本稿では,ツイートの返信および非公式リツイート(以下,両者をまとめて返信と略す)に着目し,ツイート間の論述的な関係を認識する手法を提案する.具体的には,返信ツイートによって,投稿者の「同意」「反論」「疑問」などの態度が表明されると考え,これらの態度を推定する分類器を教師有り学習で構築する.評価実験では,返信ツイートで表明される態度の推定性能を報告する.さらに,本手法が直接的に返信関係のないツイート間の論述的な関係の推定にも応用できることを示し,ツイート間の含意関係認識に基づくアプローチとの比較を行う.
著者
村脇 有吾 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.1, pp.1_55-1_75, 2010 (Released:2011-06-30)
参考文献数
21
被引用文献数
2 1 6

日本語の形態素解析における未知語問題を解決するために,オンライン未知語獲得という枠組みと,その具体的な実現手法を提案する.オンライン未知語獲得では,形態素解析器と協調して動作する未知語獲得器が,文が解析されるたびに未知語を検出し,その可能な解釈の候補を列挙し,最適な候補を選択する.このうち,列挙は日本語の持つ形態論的制約を利用し,選択は蓄積した複数用例の比較により行う.十分な用例の比較により曖昧性が解消されると,解析器の辞書を直接更新し,獲得された未知語が以降の解析に反映される.実験により,比較的少数の用例から高精度に未知語が獲得され,その結果形態素解析の精度が改善することが示された.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014-12-15 (Released:2015-03-15)
参考文献数
24
被引用文献数
1

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.
著者
松崎 拓也 横野 光 宮尾 祐介 川添 愛 狩野 芳伸 加納 隼人 佐藤 理史 東中 竜一郎 杉山 弘晃 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 新井 紀子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.119-159, 2016-01-25 (Released:2016-04-25)
参考文献数
35

「ロボットは東大に入れるか」は,大学入試試験問題を計算機で解くという挑戦を通じ,言語処理を含む AI 諸技術の再統合と,知的情報処理の新たな課題の発見を目指すプロジェクトである.知的能力の測定を第一目的として設計された入試問題は,AI 技術の恰好のベンチマークであるとともに,人間の受験者と機械のエラー傾向を直接比較することが可能である.本稿では,大手予備校主催のセンター試験形式模試を主たる評価データとして,各科目の解答システムのエラーを分析し,高得点へ向けた今後の課題を明らかにするとともに,分野としての言語処理全体における現在の課題を探る.
著者
斉藤 いつみ 貞光 九月 浅野 久子 松尾 義博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.2, pp.297-314, 2017-03-15 (Released:2017-06-15)
参考文献数
16
被引用文献数
1

ソーシャルメディア等の崩れた日本語の解析においては,形態素解析辞書に存在しない語が多く出現するため解析誤りが新聞等のテキストに比べ増加する.辞書に存在しない未知語の中でも,既知の辞書語からの派生に関しては,正規形を考慮しながら解析するという表記正規化との同時解析の有効性が確認されている.本研究では,これまで焦点があてられていなかった,文字列の正規化パタン獲得に着目し,アノテーションデータから文字列の正規化パタンを統計的に抽出する.統計的に抽出した文字列正規化パタンと文字種正規化を用いて辞書語の候補を拡張し形態素解析を行った結果,従来法よりも再現率,精度ともに高い解析結果を得ることができた.
著者
木村 大翼 田中 久美子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.119-137, 2011 (Released:2011-09-28)
参考文献数
17
被引用文献数
1 1

本稿では,文書量に不変な定数を考える.このような定数には,言語や文書の複雑さや冗長性を定量化して捉える計算言語学上の意義がある.これらの指標は既存研究でさまざまなものが提案されてきたが,ほとんどの場合英語を中心とする小規模な文書を対象としてきた.本研究では英語以外のさまざまな言語や,大規模な文書も対象として扱い,主に先行研究において値が文長に依らないとされる 3 つの指標 K, Z, VM と本研究で新たに試みた指標である H と r の 5 つの指標に対し,値が一定となるかどうかの実験を行った.結果,値が言語の種類や文長に依らずに一定となる指標は K と VM の 2 つの指標であった.なおかつこの 2 つの指標の値には自然言語とプログラミング言語の間で有意な差が見られ,言語の複雑さや冗長性をある観点で表した指標となっていると考えることができる.
著者
荻野 孝野 植田 禎子 小林 正博 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.4, pp.21-54, 2005-08-26 (Released:2011-03-01)
参考文献数
16
被引用文献数
1 1

係り受け関係のついた大量のコーパスを元にして作成されたデータを対象として, 動詞の結合価に関する検討を行った.これは, 係り受け関係まで付与された大量データからなるコーパスが存在してはじめて可能となった分析である.動詞の結合価に関する検討は, 各動詞の基本的な格パターンに着目して結合価を決定することを中心として検討されてきた.しかし, 省略を含め, 結合価が実際の言語データでどういう形で出現しているかについて, 全容を示すようなものは報告されていない.ここでは, 大量のコーパスデータから作成した結合価データを用い, 実際のデータで動詞にかかる格助詞がどういうパターンで出ているのかを調査し, 格助詞パターンの出現状況を把握するとともに, それらの格助詞パターンを用いて同音異表記がどの程度判定できるかを検討した.動詞約12, 400概念 (表記の異なりレベルで約9, 400単語) から作成した動詞の格助詞組み合わせパターンは, 延べパターン数で37, 237パターン, 異なりパターンで188パターンとなった.また, 同音異表記セットについて, これらのパターンを用い, 表記確定を試みたところ, 結合価のうち格助詞組み合わせパターンの異なりによる判定でも格助詞パターンの出現頻度などを判定基準に付加することによって約73%の判定が可能であることがわかった.
著者
藤田 早苗 平 博順 小林 哲生 田中 貴秋
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.515-539, 2014-06-16 (Released:2014-09-16)
参考文献数
21

これまで,主に新聞などのテキストを対象とした解析では,形態素解析器を始めとして高い解析精度が達成されている.しかし分野の異なるテキストに対しては,既存の解析モデルで,必ずしも高い解析精度を得られるわけではない.そこで本稿では,既存の言語資源を対象分野の特徴にあわせて自動的に変換する手法を提案する.本稿では,絵本を解析対象とし,既存の言語資源を絵本の特徴にあわせて自動的に変換し,学習に用いることで相当な精度向上が可能であることを示す.学習には既存の形態素解析器の学習機能を用いる.さらに,絵本自体にアノテーションしたデータを学習に用いる実験を行い,提案手法で得られる効果は,絵本自体への約 11,000 行,90,000 形態素のアノテーションと同程度であることを示す.また,同じ絵本の一部を学習データに追加する場合と,それ以外の場合について,学習曲線や誤り内容の変化を調査し,効果的なアノテーション方法を示す.考察では,絵本の対象年齢と解析精度の関係や,解析精度が向上しにくい語の分析を行い,更なる改良案を示す.また,絵本以外への適用可能性についても考察する.
著者
西川 仁 平尾 努 牧野 俊朗 松尾 義博 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.4, pp.585-612, 2013-09-13 (Released:2013-12-12)
参考文献数
29

本論文では,複数文書要約を冗長性制約付きナップサック問題として捉える.この問題に基づく要約モデルは,ナップサック問題に基づく要約モデルに対し,冗長性を削減するための制約を加えることで得られる.この問題は NP 困難であり,計算量が大きいことから,高速に求解するための近似解法として,ラグランジュヒューリスティックに基づくデコーディングアルゴリズムを提案する.ROUGE に基づく評価によれば,我々の提案する要約モデルは,モデルの最適解において,最大被覆問題に基づく要約モデルを上回る性能を持つ.要約の速度に関しても評価を行い,我々の提案するデコーディングアルゴリズムは最大被覆問題に基づく要約モデルの最適解と同水準の近似解を,整数計画ソルバーと比べ100倍以上高速に発見できることがわかった.