著者
飯田 龍 小町 守 井之上 直也 乾 健太郎 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_25-2_50, 2010 (Released:2011-06-23)
参考文献数
25
被引用文献数
5 5

本論文では,日本語書き言葉を対象とした述語項構造と照応関係のタグ付与について議論する.述語項構造解析や照応解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの解析のための主要な手法はタグ付与コーパスを用いた学習に基づく手法である.この手法を実現するためには大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で導入されているタグ付与の基準は,言語の違いや最終的に出力したい解析結果の粒度が異なるため,そのまま利用することができない.そこで,我々は既存のいくつかのタグ付与の仕様を吟味し,述語項構造と共参照関係のアノテーションを行うためにタグ付与の基準がどうあるべきかについて検討した.本論文ではその結果について報告する.また,京都コーパス第 3.0 版の記事を対象にタグ付与作業を行った結果とその際に問題となった点について報告する.さらにタグ付与の仕様の改善案を示し,その案にしたがい作業をやり直した結果についても報告する.
著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.Raw historical texts often include mark-lacking characters, which lack compulsory voiced consonant mark. Since mark-lacking characters degrade readability and retrievability, voiced consonant marks are annotated when creating historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical texts. In this paper, we propose an approach to automatic labeling of voiced consonant marks for mark-lacking characters. We formulate the task into a character-based classification problem. Since our method uses as its feature set only surface information about the surrounding characters, we do not require corpus annotated with word boundaries and POS-tags for training. We exploited large data sets and achieved 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo.
著者
水本 智也 小町 守
雑誌
情報処理
巻号頁・発行日
vol.53, no.3, pp.217-223, 2012-02-15

日本語学習者は世界的に増加傾向であり,自然言語処理を利用した学習者支援が望まれている.しかしながら,日本語学習者の書いた文は誤りやひらがな,ローマ字を含んでおり,従来の日本語母語話者の文を対象とした自然言語処理の技術をそのまま適用してもうまく処理することができないといった問題がある.本稿では,ウェブの登場によって新しく産まれつつある日本語学習者コーパスとそこに含まれる従来の自然言語処理の技術では扱えない学習者の誤りを紹介し,ウェブから抽出した大規模データを用いた日本語学習支援の新しいアプローチについて述べ,自然言語処理を使った日本語学習支援のための今後の課題を示す.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
1

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
内海 慶 小町 守
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.1, pp.16-28, 2013-01-23

近年のウェブ検索エンジンの多くはクエリ拡張機能やクエリ書き換えを備えている.これらの機能の実現にはシソーラスや同義語辞書を用いるが,人手での辞書作成はコストがかかる.そのため,ウェブ検索ログやクリックスルーログを用いた同義語獲得の研究が行われている.これまでに提案された手法では,生成モデルである Noisy Channel Model によって同義語獲得をモデル化しており,柔軟な素性設計が行えなかったため,クエリと同義語候補の表層の編集距離を素性として追加する等が難しかった.我々は,この問題に対処すべく,同義語獲得に識別モデルを用いた手法を提案する.クエリ書き換えのための同義語辞書では, 1 つのクエリに対してより適切と考えられる 1 つの同義語を登録する.そのため同義語獲得手法には,同義語候補が複数ある場合には最適な候補を 1 位に提示することが求められる.そこで提案手法では,クエリと同義語候補の表層に基づく素性を利用した ListNet を用いて 1 位正解率を直接最大化する.また,従来の識別モデルでは,有効な組合せ素性の追加等,素性エンジニアリングを行う必要があったが,我々は ListNet に隠れ層を導入することで,素性エンジニアリングなしに有効な組合せ素性の生成と重み付けを可能とした.これにより, Noisy Channel Model を用いた従来の手法に比べ,より高い精度で同義語を獲得することができた.Recent web search engines often employ query expansion and query reformulation techniques. These techniques use thesauri and synonym dictionaries, but manually making dictionary requires time and costs. Thus, automatic acquisition of synonymous expressions using web-search logs and click-through logs has been studied. One of the previous work formulates the synonym extraction problem as a generative process using the noisy channel model, but since generative models do not allow flexible feature design, it is difficult to use as features edit distance between the surface of a query and its synonym. To deal with this problem, we employed discriminative approaches for synonym extraction. When creating a synonym dictionary for query reformulation, only one synonym which better leads to appropriate search results is registered for each query. Therefore, it is required that the synonym acquisition method for query reformulation must pick an optimal entry if there are several synonym candidates. Hence we propose to maximize the 1-best accuracy using ListNet with features based on the surface of a query and its synonym to achieve the goal. Moreover, though most traditional discriminative methods require feature engineering to find efficient combinations of features, we automate this process by introducing hidden layers to the ranking function. Our proposed method outperformed previous method based on the noisy channel model in the task of synonym extraction.
著者
小町 守 牧本 慎平 内海 慶 颯々野 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.196-205, 2010 (Released:2010-01-06)
参考文献数
23
被引用文献数
2 2

As the web grows larger, knowledge acquisition from the web has gained increasing attention. Web search logs are getting a lot more attention lately as a source of information for applications such as targeted advertisement and query suggestion. However, it may not be appropriate to use queries themselves because query strings are often too heterogeneous or inspecifiec to characterize the interests of the search user population. the web. Thus, we propose to use web clickthrough logs to learn semantic categories. We also explore a weakly-supervised label propagation method using graph Laplacian to alleviate the problem of semantic drift. Experimental results show that the proposed method greatly outperforms previous work using only web search query logs.
著者
内海 慶 小町 守 町永 圭吾 前澤 敏之 佐藤 敏紀 小林 義徳
出版者
情報処理学会
雑誌
情報処理学会研究報告 (ISSN:18840930)
巻号頁・発行日
vol.2010, no.4, pp.1-7, 2010-12

我々は,クエリ訂正を統一的に行う手法として,検索クエリログとクリックスルーログを用いたグラフに基づく手法を提案する.提案手法では,クリックスルーログを用いたラベル伝播により,入力されたクエリで検索を行った場合と同一のページに到達するクエリを獲得し,これをクエリの訂正候補とした.次に,獲得した訂正候補に対して,検索クエリログから生成した言語モデルを用いて尤度を計算し,ラベル伝播時のスコアとあわせて候補のランキングを行った.これによって,人手による学習コーパスを必要とせずに,入力されたクエリと高く関連し,かつクエリとして適切な候補をログから抽出できることを示す.In this paper, we propose a new method to refine web search queries. This method is based on a graph theoretic label propagation and uses web search query and clickthrough logs. Our method first enumerates query candidates with common landing pages with regard to the given query. Then it calculates likelihoods of the candidates, making use of language model generated from web search query logs. Finally the candidates are sorted by their scores calculated from the likelihoods and the label propagations. As a result, we are able to extract appropriate candidates from web search query and clickthrough logs, without using hand-crafted training data.
著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.
著者
嶋中 宏希 梶原 智之 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.3, pp.613-634, 2019-09-15 (Released:2019-12-15)
参考文献数
34

本稿では,参照文を用いた文単位での機械翻訳自動評価手法について述べる.現在のデファクトスタンダードである BLEU をはじめとして,多くの従来手法は文字や単語の N-gram に基づく素性に頼っており,文単位での評価にとっては限定的な情報しか扱えていない.そこで本研究では,文全体の大域的な情報を考慮するために,事前学習された文の分散表現を用いる機械翻訳自動評価手法を提案する.提案手法では,大規模コーパスによって事前学習された文の符号化器を用いて,翻訳文と参照文の分散表現を得る.そして,翻訳文と参照文の分散表現を入力とする回帰モデルによって,人手でラベル付けされた翻訳品質を推定する.WMT-2017 Metrics Shared Task における翻訳品質のラベル付きデータセットを用いた実験の結果,我々の提案手法は文単位の全ての to-English 言語対において最高性能を達成した.
著者
飯田 龍 小町 守 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.71-78, 2007-01-26
被引用文献数
12

本稿では,日本語書き言葉を対象とした述語項構造と共参照のタグ付与について議論する.述語項構造や共参照解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの問題の主要な解析手法はタグ付与コーパスに基づく学習ベースの手法である.この手法で利用するための大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で採用されているタグ付与の基準は,言語の違いや我々が対象としたい解析と異なるために,そのまま採用することができない.そこで,既存のいくつかのタグ付与の仕様を比較し,我々のタグ付与作業で採用する基準について吟味する.また,実際に京都コーパス第3.0版の文章を対象にタグ付与の仕様について検討した結果とタグ付与の際に問題となった点や今後検討すべき点について報告する.In this paper, we discuss how to annotate predicate-argument and coreference relations in Japanese written text. Predicate argument analysis and coreference resolution are particularly important as they often provide a crucial bridge between basic NLP techniques such as morpho-syntactic analysis and end-level applications, and they have been mainly developed with corpus-based empirical approaches. In order to train a classification model in such approaches, a large scale corpus annotated with predicate-argument and coreference information is needed. To our best knowledge, however, there is no corpus including plenty of such tags in Japanese. In addition, we have difficulty adopting the traditional specifications for annotating tags due to the problem setting of each task and the difference between Japanese and English. So, we develop a new criteria for our annotating processes by examining the previous work on annotating tasks. This paper explains our annotating specification cultivated through actual annotating processes for the texts in Kyoto Text Corpus version 3.0, and discusses the future directions.
著者
高橋 啓吾 大森 光 小町 守
出版者
人工知能学会
雑誌
2019年度 人工知能学会全国大会(第33回)
巻号頁・発行日
2019-04-08

近年文内述語項構造解析(PASA)においてニューラルネットワークモデルが利用されている.しかしながら,系列ラベリングを用いた手法は一つの項候補に複数の必須格を割り当ててしまう問題がある.我々は新たな手法としてPointer Networksを用いたものを提案し,複数の必須格を割り当ててしまう問題が改善されることを確認した.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016-03-14 (Released:2016-06-14)
参考文献数
47
被引用文献数
1

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
1

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.5, pp.420-432, 2013-09-01 (Released:2013-07-10)
参考文献数
16
被引用文献数
1

Recently, natural language processing research has begun to pay attention to second language learning. However, it is not easy to acquire a large-scale learners' corpus, which is important for a research for second language learning by natural language processing. We present an attempt to extract a large-scale Japanese learners' corpus from the revision log of a language learning social network service.This corpus is easy to obtain in large-scale, covers a wide variety of topics and styles, and can be a great source of knowledge for both language learners and instructors. We also demonstrate that the extracted learners' corpus of Japanese as a second language can be used as training data for learners' error correction using a statistical machine translation approach.We evaluate different granularities of tokenization to alleviate the problem of word segmentation errors caused by erroneous input from language learners.We propose a character-based SMT approach to alleviate the problem of erroneous input from language learners.Experimental results show that the character-based model outperforms the word-based model when corpus size is small and test data is written by the learners whose L1 is English.
著者
中村 哲 松本 裕治 戸田 智基 サクリアニ サクティ Neubig Graham Duh Kevin 小町 守 高道 慎之介
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(A)
巻号頁・発行日
2012-05-31

同時通訳基本方式研究として、フレーズベース統計翻訳における右確率を用いた同時通訳方法により、翻訳単位を短くする方法、翻訳単位の長さを調整する手法を提案した。さらに、形態素情報を使って文を分割する方法、Tree-to-string翻訳での部分構文構造を考慮して分割する方法を提案して高精度化を実現。さらなる精度改善のため、訳文に単語順序の入れ替えが発生するかを予測するモデルを構築すると共に、ニューラル翻訳の実装、統計翻訳のリランキング、注意型ニューラル翻訳の研究を進めた。また、同時通訳コーパスとして日英合計約80時間、講義データの書き起こし約50時間、うち約22時間分の日英翻訳を完了した。
著者
林部 祐太 小町 守 松本 裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.10, pp.1-8, 2011-05-09

文脈情報と格構造の類似度を用いた日本語文間述語項構造解析手法を提案する.センタリング理論に基づく局所文脈情報と述語と項候補の共起頻度といった意味的情報という大まかには2つの情報を用いて従来の文間述語項構造解析は行われてきた.ところが,いずれの手法を用いても,「Xを逮捕した」という文をもとに「自首した」のガ格項がXであると判定することはできなかった.そこで本論文では,格構造の類似度と述語項構造解析の履歴を用いることで,文章全体の文脈情報(大域文脈情報)から文間述語項構造解析を行うことを提案する.We improve Japanese inter-sentential predicate argument structure analysis with contextual information and similarity between case structures. Two types of clues have been often used in previous work. One is local contextual information based on centering theory, and the other is semantic information such as co-occurrences between a predicate and an argument candidate. However, those approaches fail to identify the nominative argument in the sentence "He turned himself in to police", even if the document has a sentence like "The police arrested him." Thus, we propose a new method using global contextual information and similarity between case structures in order to exploit global contextual information over a document.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

我々は統計的機械翻訳の手法を使い,学習者の作文誤り訂正を行ってきた.これまでの研究では,単語から単語への訂正ではなく,文字から文字への訂正を行なう文字単位の手法を用いて性能を向上させた.一方で,文字単位を用いることで単語の情報は失われ,訂正できなくなる場合もあった.そこで本研究では,これまで行ってきた研究の文字単位の手法を発展させ,文字単位と単語単位を組み合せることで性能が向上することを確かめた.
著者
小嵜 耕平 新保 仁 小町 守 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.4, pp.400-408, 2013 (Released:2013-06-20)
参考文献数
30

Graph construction is an important step in graph-based semi-supervised classification. While the k-nearest neighbor graphs have been the de facto standard method of graph construction, this paper advocates using the less well-known mutual k-nearest neighbor graphs for high-dimensional natural language data. To evaluate the quality of the graphs apart from classification algortihms, we measure the assortativity of graphs. In addition, to compare the performance of these two graph construction methods, we run semi-supervised classification methods on both graphs in word sense disambiguation and document classification tasks. The experimental results show that the mutual k-nearest neighbor graphs, if combined with maximum spanning trees, consistently outperform the k-nearest neighbor graphs. We attribute better performance of the mutual k-nearest neighbor graph to its being more resistive to making hub vertices. The mutual k-nearest neighbor graphs also perform equally well or even better in comparison to the state-of-the-art b-matching graph construction, despite their lower computational complexity.
著者
柴田 智広 為井 智也 岡田 洋平 和田 佳郎 小町 守
出版者
九州工業大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

Assist-As-Needed原理に基づいた強化学習エージェントが個人適応的にヒトの運動学習を支援することにより,その運動学習を促進可能であることを科学的に示した.また姿勢異常を呈する疾患を持つ症例のための姿勢評価,フィードバックトレーニングシステムを開発し,めまい平衡系疾患およびパーキンソン病を対象に姿勢リハビリテーションに関する医工連携を進め,後者については,在宅における姿勢リハビリテーションの実施可能性および即時効果を確認した.