著者
飯田 龍 小町 守 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.71-78, 2007-01-26
被引用文献数
12

本稿では,日本語書き言葉を対象とした述語項構造と共参照のタグ付与について議論する.述語項構造や共参照解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの問題の主要な解析手法はタグ付与コーパスに基づく学習ベースの手法である.この手法で利用するための大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で採用されているタグ付与の基準は,言語の違いや我々が対象としたい解析と異なるために,そのまま採用することができない.そこで,既存のいくつかのタグ付与の仕様を比較し,我々のタグ付与作業で採用する基準について吟味する.また,実際に京都コーパス第3.0版の文章を対象にタグ付与の仕様について検討した結果とタグ付与の際に問題となった点や今後検討すべき点について報告する.In this paper, we discuss how to annotate predicate-argument and coreference relations in Japanese written text. Predicate argument analysis and coreference resolution are particularly important as they often provide a crucial bridge between basic NLP techniques such as morpho-syntactic analysis and end-level applications, and they have been mainly developed with corpus-based empirical approaches. In order to train a classification model in such approaches, a large scale corpus annotated with predicate-argument and coreference information is needed. To our best knowledge, however, there is no corpus including plenty of such tags in Japanese. In addition, we have difficulty adopting the traditional specifications for annotating tags due to the problem setting of each task and the difference between Japanese and English. So, we develop a new criteria for our annotating processes by examining the previous work on annotating tasks. This paper explains our annotating specification cultivated through actual annotating processes for the texts in Kyoto Text Corpus version 3.0, and discusses the future directions.
著者
山田 寛康 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.112(2001-NL-146), pp.33-38, 2001-11-20

本研究では 日本語固有表現抽出タスクを題材に 機械学習アルゴリズムSupport Vector Machine(SVM)を多値分類問題に適用する手法を提案し 代表的な従来手法である one vs. rest 法 及び pairwise法 との比較を行なう. 二値分類器であるSVMを固有表現抽出タスクに適用するためには 多値分類器に拡張する必要がある. しかし分類するクラス数に比例して計算コストが増加するため 現実的な時間での学習 及び分類が困難となる. 我々は 多値分類問題を 比較的分類が容易な二値分類へ分割し 二分木を構築する手法を応用し 効率的な学習 及び分類ができるよう SVMの多値分類器への拡張を行う. 固有表現抽出実験では 従来法である pairwise 法 及び one vs. rest 法と比べ ほぼ同等な抽出精度を維持し 抽出時間を削減できることを確認した.
著者
井上 剛 進藤 裕之 松本 裕治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2017-NL-232, no.8, pp.1-9, 2017-07-12

アラビア語などの形態的に豊かな言語の品詞タグ付けは,英語など形態的に乏しい言語の品詞タグ付けに比べ,タグセットが膨大になるため,困難な問題である.これは,言語固有の情報を反映した高粒度な品詞タグが,各形態統語的カテゴリごとに定義されたタグの組み合わせによって構成されるためである.既存のアラビア語品詞タグ付けでは,各形態統語的カテゴリを独立に予測しており,各カテゴリを予測する上で有益な情報をカテゴリ間で共有できていなかった.本研究では,マルチタスク学習の枠組みを用いて,各形態統語的カテゴリを同時に予測する手法を提案する.また,入力語に対して各形態統語的カテゴリが取りうるタグを登録した辞書情報をモデルに組み込むことで,さらなる性能向上が得られることを示す.Penn Arabic Treebank を用いた評価実験の結果,これまでに報告されている最高性能の品詞タガーの正解率を上回ることを確認した.
著者
太田 瑶子 進藤 裕之 松本 裕治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-235, no.1, pp.1-8, 2018-05-06

文学の一つとして詩がある.詩は言葉の表面的な意味だけでなく,言葉が持つ美学的 ・ 喚起的な性質を用いて表現される.詩は短い文字列であっても,詩として表現する事で,言葉の持つ奥深さによってその場の雰囲気を封じ込めることが出来る.しかし,実際にいざ詩を作ろうとすると,どのように始めれば良いのか難しい.そのような場合であっても,手軽に詩を作れるようにしたいと考えた.本研究では,詩の中でも有季定型俳句を選び,言葉を入力することにより俳句の自動生成を行った.本研究ではより柔軟な表現が生成できるように,深層学習を使った.また,韻律や季語のような有季定型俳句の規定を素性や制限として用いた.俳句としての体をなすような生成結果が得られた.
著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.
著者
武智 峰樹 徳永 健伸 松本 裕治 田中 穂積
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.SIG12(TOD19), pp.51-63, 2003-09-15

要素技術としての文書分類は,質問応答やWeb ナビゲーションにおける主要な構成要素である.特に表層的なテキストの特徴を主に利用する質問応答では,与えられた質問のタイプに応じて適切な回答候補を抽出できる分類エンジンが重要である.またWeb ナビゲーションにおいては,従来の質問応答が扱ってこなかった質問も扱う必要があり,そのような質問に対しても適切な回答候補を選び出すための分類技術が求められる.本研究は,Web ナビゲーションが扱う質問のうち,特に手順に関する質問を取り上げ,その回答候補の分類に有効な特徴量を明らかにすることを目的とする.その試みとしてWeb ページにおいてHTML のリストタグが付与されたテキストを記事集合として,それを手順について書かれたテキストとそれ以外のテキストに分類するタスクを考える.検索エンジンを用いて箇条書きを収集し,機械学習の一手法であるSupport Vector Machine を用いた文書分類を行い,その結果の観察に基づいて手順について書かれた箇条書きの抽出に有効な特徴量を考察した.N-gram や語の頻度情報をベースにした手法により,コンピュータ分野に関しては90%以上の精度で分類可能な特徴量の組合せを得た.
著者
松本 裕治 武田 浩一 永田 昌明 宇津呂 武仁 田代 敏久 山下 達雄 林 良彦 渡辺 日出雄 竹澤 寿幸
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48(1998-NL-125), pp.1-8, 1998-05-28

近年,電子化テキストの急激な増加,および,インターネットによる一般利用者の電子媒体への日常的なアクセスに伴って,言語処理研究と言語に関する実用技術の間のギャップが徐々に狭まってきており,実用的な自然言語処理研究という言葉が真に現実的な意味を持ち出してきた.本報告では,そのような実用的言語処理技術の事例のいくつかを「ここまでできるぞ言語処理技術」というタイトルで紹介する.
著者
北村 美穂子 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.1, pp.3-25, 2006

高精度の機械翻訳システムや言語横断検索システムを構築するためには, 大規模な対訳辞書が必要である.文対応済みの対訳文書に出現する原言語と目的言語の単語列の共起頻度に基づいて対訳表現を自動抽出する試みは, 対訳辞書を自動的に作成する方法として精度が高く有効な手法の一つである.本稿はこの手法をベースにし, 文節区切り情報や対訳辞書などの言語知識を利用したり, 抽出結果を人間が確認する工程を設けたりすることにより, 高精度で, かつ, カバレッジの高い対訳表現抽出方法を提案する.また, 抽出にかかる時間を削減するために, 対訳文書を分割し, 抽出対象とする文書量を徐々に増やしながら確からしい対訳表現から段階的に抽出していくという手法についても検討する.8,000文の対訳文書による実験では, 従来手法は精度40%, カバレッジ79%であったのに対し, 言語知識を利用した提案手法では, 精度89%, カバレッジ85%と向上した.さらに人手による確認工程を設けることにより, 精度が96%, カバレッジが85%と向上した.また, 16,000文の対訳文書による実験では, 対訳文書を分割しない方法では抽出時間が約16時間であったのに対し, 文書を4分割する方法では, 約9時間に短縮されたことを確認した.
著者
工藤 拓 山本 薫 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.47(2004-NL-161), pp.89-96, 2004-05-14

本稿では Conditonal Random Fields (CRF) に基づく日本語形態素解析を提案する. CRFを適用したこれまでの研究の多くは 単語の境界位置が既知の状況を想定していた. しかし 日本語には明示的な単語境界が無く 単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である. 本稿ではまず 単語境界が存在する問題に対するCRFの適用方法について述べる. さらに CRFが既存手法(HMM MEMM) の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す. CRFは 階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし label biasやlength biasを低減する効果を持つ. 前者はHMM の欠点であり 後者はMEMMの欠点である. また 2つの正則化手法(L1-CRF/L2-CRF) を適用し それぞれの性質について論じる.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016-03-14 (Released:2016-06-14)
参考文献数
47
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
東 藍 浅原 正幸 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.53(2006-NL-173), pp.67-74, 2006-05-19

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証した
著者
高村 大也 松本 裕治
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.SIG03(TOD17), pp.1-10, 2003-03-15

Latent Semantic Indexing(LSI)などの次元圧縮手法による構成的帰納学習法を,サポートベクターマシン(Support Vector Machine,SVM)と組み合わせて文書分類に応用した場合の振舞いを論じる.SVM の分類能力は,通常用いられる次元圧縮では向上させることが困難である.しかし,次元圧縮手法により変換された文書ベクトルを素性として元のベクトルに追加することにより,その向上が可能であることを示す.実験では,次元圧縮に用いる未知データの量が十分大きい場合に精度改善が見られた.
著者
中村 哲 松本 裕治 戸田 智基 サクリアニ サクティ Neubig Graham Duh Kevin 小町 守 高道 慎之介
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(A)
巻号頁・発行日
2012-05-31

同時通訳基本方式研究として、フレーズベース統計翻訳における右確率を用いた同時通訳方法により、翻訳単位を短くする方法、翻訳単位の長さを調整する手法を提案した。さらに、形態素情報を使って文を分割する方法、Tree-to-string翻訳での部分構文構造を考慮して分割する方法を提案して高精度化を実現。さらなる精度改善のため、訳文に単語順序の入れ替えが発生するかを予測するモデルを構築すると共に、ニューラル翻訳の実装、統計翻訳のリランキング、注意型ニューラル翻訳の研究を進めた。また、同時通訳コーパスとして日英合計約80時間、講義データの書き起こし約50時間、うち約22時間分の日英翻訳を完了した。
著者
吉本 暁文 新保 仁 原 一夫 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理
巻号頁・発行日
vol.2015, no.5, pp.1-6, 2015-05-18

一般的に依存構造解析のアルゴリズムでは,句構造を扱わないために並列構造を考慮することが難しい.そこで,依存構造解析のための Eisner アルゴリズムを,並列構造解析ができるように拡張した.その規則の導出木は,既存の依存構造のアノテーションから導出することができる.
著者
林部 祐太 小町 守 松本 裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.10, pp.1-8, 2011-05-09

文脈情報と格構造の類似度を用いた日本語文間述語項構造解析手法を提案する.センタリング理論に基づく局所文脈情報と述語と項候補の共起頻度といった意味的情報という大まかには2つの情報を用いて従来の文間述語項構造解析は行われてきた.ところが,いずれの手法を用いても,「Xを逮捕した」という文をもとに「自首した」のガ格項がXであると判定することはできなかった.そこで本論文では,格構造の類似度と述語項構造解析の履歴を用いることで,文章全体の文脈情報(大域文脈情報)から文間述語項構造解析を行うことを提案する.We improve Japanese inter-sentential predicate argument structure analysis with contextual information and similarity between case structures. Two types of clues have been often used in previous work. One is local contextual information based on centering theory, and the other is semantic information such as co-occurrences between a predicate and an argument candidate. However, those approaches fail to identify the nominative argument in the sentence "He turned himself in to police", even if the document has a sentence like "The police arrested him." Thus, we propose a new method using global contextual information and similarity between case structures in order to exploit global contextual information over a document.
著者
浅原 正幸 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.5, pp.1442-1450, 2004-05-15

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組合せによる.形態素解析出力結果をそのままチャンカの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn 次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカにより決定的に固有表現となる語の語境界を推定する.CRL 固有表現データを用いて評価実験(交差検定5-fold )を行った結果,F 値0.87 という高精度の結果が得られた.