著者
飯田 龍 小町 守 井之上 直也 乾 健太郎 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_25-2_50, 2010 (Released:2011-06-23)
参考文献数
25
被引用文献数
5 6

本論文では,日本語書き言葉を対象とした述語項構造と照応関係のタグ付与について議論する.述語項構造解析や照応解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの解析のための主要な手法はタグ付与コーパスを用いた学習に基づく手法である.この手法を実現するためには大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で導入されているタグ付与の基準は,言語の違いや最終的に出力したい解析結果の粒度が異なるため,そのまま利用することができない.そこで,我々は既存のいくつかのタグ付与の仕様を吟味し,述語項構造と共参照関係のアノテーションを行うためにタグ付与の基準がどうあるべきかについて検討した.本論文ではその結果について報告する.また,京都コーパス第 3.0 版の記事を対象にタグ付与作業を行った結果とその際に問題となった点について報告する.さらにタグ付与の仕様の改善案を示し,その案にしたがい作業をやり直した結果についても報告する.
著者
杉山 雅和 吉村 綾馬 友松 祐太 小町 守
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第35回 (2021)
巻号頁・発行日
pp.2Yin504, 2021 (Released:2021-06-14)

近年、音声認識や音声合成の性能が向上しておりそれらを用いた音声自動応答サービスが広く提供され始めている。音声自動応答サービスでは音声認識の精度がサービスの質に直結する重要な要素であるが、性能が向上しているとはいえ音声認識の精度は完璧ではない。そこで我々は音声認識誤りを含む音声認識結果を、文法誤り訂正と同じように訂正することを考える。文法誤り訂正は、巨大なコーパスで事前学習した言語モデルを用いた深層学習系の手法の台頭により性能が飛躍的に向上しているが、音声認識誤りを含む大規模な日本語コーパスは存在しない。そこで小規模な音声認識コーパスから誤り傾向を分析して誤り付与ルールを策定し、そのルールを巨大な日本語コーパスに適用することで、自動的に擬似音声認識誤りコーパスを作成した。本研究では複数の条件で作成した擬似誤りコーパスを事前学習に用いてTransformerによる誤り訂正の実験を行い、コーパス作成の設定が精度に与える影響の評価を行う。
著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.Raw historical texts often include mark-lacking characters, which lack compulsory voiced consonant mark. Since mark-lacking characters degrade readability and retrievability, voiced consonant marks are annotated when creating historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical texts. In this paper, we propose an approach to automatic labeling of voiced consonant marks for mark-lacking characters. We formulate the task into a character-based classification problem. Since our method uses as its feature set only surface information about the surrounding characters, we do not require corpus annotated with word boundaries and POS-tags for training. We exploited large data sets and achieved 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo.
著者
小山 碧海 喜友名 朝視顕 小林 賢治 新井 美桜 三田 雅人 岡 照晃 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.330-371, 2023 (Released:2023-06-15)
参考文献数
144

本稿では,日本語文法誤り訂正のための誤用タグ付き評価コーパスを構築する.評価コーパスはモデルの性能評価に欠かすことができない.英語文法誤り訂正では様々な評価コーパスの公開により,モデル間の精緻な比較が可能になりコミュニティが発展していった.しかし日本語文法誤り訂正では利用可能な評価コーパスが不足しており,コミュニティの発展を阻害している.本研究ではこの不足を解消するため,日本語文法誤り訂正のための評価コーパスを構築し,一般利用可能な形で公開する.我々は文法誤り訂正において代表的な学習者コーパス Lang-8 コーパスの日本語学習者文から評価コーパスを作成する.また文法誤り訂正分野の研究者や開発者が使いやすい評価コーパスとするため,評価コーパスの仕様を英語文法誤り訂正で代表的なコーパスやツールに寄せる.最後に作成した評価コーパスで代表的な文法誤り訂正モデルを評価し,今後の日本語文法誤り訂正においてベースラインとなるスコアを報告する.
著者
水本 智也 小町 守
雑誌
情報処理
巻号頁・発行日
vol.53, no.3, pp.217-223, 2012-02-15

日本語学習者は世界的に増加傾向であり,自然言語処理を利用した学習者支援が望まれている.しかしながら,日本語学習者の書いた文は誤りやひらがな,ローマ字を含んでおり,従来の日本語母語話者の文を対象とした自然言語処理の技術をそのまま適用してもうまく処理することができないといった問題がある.本稿では,ウェブの登場によって新しく産まれつつある日本語学習者コーパスとそこに含まれる従来の自然言語処理の技術では扱えない学習者の誤りを紹介し,ウェブから抽出した大規模データを用いた日本語学習支援の新しいアプローチについて述べ,自然言語処理を使った日本語学習支援のための今後の課題を示す.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.5, pp.420-432, 2013-09-01 (Released:2013-07-10)
参考文献数
16
被引用文献数
3 3

Recently, natural language processing research has begun to pay attention to second language learning. However, it is not easy to acquire a large-scale learners' corpus, which is important for a research for second language learning by natural language processing. We present an attempt to extract a large-scale Japanese learners' corpus from the revision log of a language learning social network service.This corpus is easy to obtain in large-scale, covers a wide variety of topics and styles, and can be a great source of knowledge for both language learners and instructors. We also demonstrate that the extracted learners' corpus of Japanese as a second language can be used as training data for learners' error correction using a statistical machine translation approach.We evaluate different granularities of tokenization to alleviate the problem of word segmentation errors caused by erroneous input from language learners.We propose a character-based SMT approach to alleviate the problem of erroneous input from language learners.Experimental results show that the character-based model outperforms the word-based model when corpus size is small and test data is written by the learners whose L1 is English.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
内海 慶 小町 守
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.1, pp.16-28, 2013-01-23

近年のウェブ検索エンジンの多くはクエリ拡張機能やクエリ書き換えを備えている.これらの機能の実現にはシソーラスや同義語辞書を用いるが,人手での辞書作成はコストがかかる.そのため,ウェブ検索ログやクリックスルーログを用いた同義語獲得の研究が行われている.これまでに提案された手法では,生成モデルである Noisy Channel Model によって同義語獲得をモデル化しており,柔軟な素性設計が行えなかったため,クエリと同義語候補の表層の編集距離を素性として追加する等が難しかった.我々は,この問題に対処すべく,同義語獲得に識別モデルを用いた手法を提案する.クエリ書き換えのための同義語辞書では, 1 つのクエリに対してより適切と考えられる 1 つの同義語を登録する.そのため同義語獲得手法には,同義語候補が複数ある場合には最適な候補を 1 位に提示することが求められる.そこで提案手法では,クエリと同義語候補の表層に基づく素性を利用した ListNet を用いて 1 位正解率を直接最大化する.また,従来の識別モデルでは,有効な組合せ素性の追加等,素性エンジニアリングを行う必要があったが,我々は ListNet に隠れ層を導入することで,素性エンジニアリングなしに有効な組合せ素性の生成と重み付けを可能とした.これにより, Noisy Channel Model を用いた従来の手法に比べ,より高い精度で同義語を獲得することができた.Recent web search engines often employ query expansion and query reformulation techniques. These techniques use thesauri and synonym dictionaries, but manually making dictionary requires time and costs. Thus, automatic acquisition of synonymous expressions using web-search logs and click-through logs has been studied. One of the previous work formulates the synonym extraction problem as a generative process using the noisy channel model, but since generative models do not allow flexible feature design, it is difficult to use as features edit distance between the surface of a query and its synonym. To deal with this problem, we employed discriminative approaches for synonym extraction. When creating a synonym dictionary for query reformulation, only one synonym which better leads to appropriate search results is registered for each query. Therefore, it is required that the synonym acquisition method for query reformulation must pick an optimal entry if there are several synonym candidates. Hence we propose to maximize the 1-best accuracy using ListNet with features based on the surface of a query and its synonym to achieve the goal. Moreover, though most traditional discriminative methods require feature engineering to find efficient combinations of features, we automate this process by introducing hidden layers to the ranking function. Our proposed method outperformed previous method based on the noisy channel model in the task of synonym extraction.
著者
小町 守 牧本 慎平 内海 慶 颯々野 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.196-205, 2010 (Released:2010-01-06)
参考文献数
23
被引用文献数
2 2

As the web grows larger, knowledge acquisition from the web has gained increasing attention. Web search logs are getting a lot more attention lately as a source of information for applications such as targeted advertisement and query suggestion. However, it may not be appropriate to use queries themselves because query strings are often too heterogeneous or inspecifiec to characterize the interests of the search user population. the web. Thus, we propose to use web clickthrough logs to learn semantic categories. We also explore a weakly-supervised label propagation method using graph Laplacian to alleviate the problem of semantic drift. Experimental results show that the proposed method greatly outperforms previous work using only web search query logs.
著者
小林 千真 相田 太一 岡 照晃 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.713-747, 2023 (Released:2023-06-15)
参考文献数
32

単語が持つ意味や用法は時代とともに変わっていく.BERT から獲得した単語ベクトルをグルーピングし,時期ごとの使用率を算出することで意味変化を分析する方法がある.英語の意味変化分析では既にいくつかこの類の手法が導入されているが,日本語への適用はまだない.また,英語での分析では手法ごとの比較が行われていない.そのため,日本語に適用した際の性能や各手法がどのような条件で有効か明らかになっていない.そこで本研究では日本語を対象に,以下の実験を行なった.現代語で事前訓練された BERT の文脈依存ベクトルに,辞書を使った教師ありのグルーピング手法とクラスタリングを使った教師なしのグルーピング手法を適用し比較した.また BERT を通時的なコーパスで fine-tuning し, BERT の文脈依存ベクトルが捉える通時的な特徴を分析した.比較と分析の結果,充実した辞書がない場合,クラスタリングを使った手法が意味変化を捉えるのに適していることが分かった.さらに,現代語 BERT を通時的なコーパスで fine-tuning することで古い時期特有の表現により適した意味変化の分析が可能になることが分かった.一方で,古い時期に出現しない現代特有の用法がある場合には,意味変化を捉えられないケースも存在した.
著者
梶原 智之 西原 大貴 小平 知範 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.4, pp.801-824, 2020-12-15 (Released:2021-03-15)
参考文献数
50

本研究では,日本語の語彙平易化のために,評価用データセット・辞書・実装や評価を支援するツールキットの 3 種類の言語資源を整備する.我々は既存の小規模な単語難易度辞書をもとに単語難易度の推定器を訓練し,大規模な日本語の単語難易度辞書および難解な単語から平易な単語への言い換え辞書を自動構築する.本研究で構築する評価用データセットを用いた評価実験によって,この辞書に基づく語彙平易化システムが高い性能を達成することを示す.我々のツールキットは,辞書の他,語彙平易化パイプラインにおける主要な手法を実装しており,これらの手法を組み合わせたシステムの構築および構築したシステムの自動評価の機能を提供する.
著者
本間 広樹 小町 守
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.37, no.1, pp.B-L22_1-14, 2022-01-01 (Released:2022-01-01)
参考文献数
33

There are several problems in applying grammatical error correction (GEC) to a writing support system. One of them is the handling of sentences in the middle of the input. Till date, the performance of GEC for incomplete sentences is not well-known. Hence, we analyze the performance of GEC model for incomplete sentences. Another problem is the correction speed. When the speed is slow, the usability of the system is limited, and the user experience is degraded. Therefore, in this study, we also focus on the non-autoregressive (NAR) model, which is a widely studied fast decoding method. We perform GEC in Japanese with traditional autoregressive and recent NAR models and analyze their accuracy and speed. Furthermore, in this study, we construct a writing support system with a grammatical error correction function. Specifically, the trained NAR model is embedded in the back-end system. We confirm the system’s effectiveness by both objective and subjective evaluations.
著者
叶内 晨 北川 善彬 荒牧 英治 岡崎 直観 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.363-395, 2015-12-14 (Released:2016-03-14)
参考文献数
49

ソーシャルメディアサービスの普及により,人々や社会の状況を調査する新しいアプローチが開拓された.ひとつの応用事例として,ソーシャルメディアの投稿から疾患・症状の流行を検出する公衆衛生サーベイランスがある.本研究では,自然言語処理技術を応用して,ソーシャルメディアの投稿から風邪やインフルエンザなどの罹患を検出するタスクに取り組んだ.最先端のシステムのエラー分析を通じて,事実性解析と主体解析という重要かつ一般性のあるサブタスクを見い出した.本研究では,これらのサブタスクへの取り組みを行い,罹患検出タスクへの貢献を実証した.
著者
飯田 龍 小町 守 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.71-78, 2007-01-26
被引用文献数
12

本稿では,日本語書き言葉を対象とした述語項構造と共参照のタグ付与について議論する.述語項構造や共参照解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの問題の主要な解析手法はタグ付与コーパスに基づく学習ベースの手法である.この手法で利用するための大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で採用されているタグ付与の基準は,言語の違いや我々が対象としたい解析と異なるために,そのまま採用することができない.そこで,既存のいくつかのタグ付与の仕様を比較し,我々のタグ付与作業で採用する基準について吟味する.また,実際に京都コーパス第3.0版の文章を対象にタグ付与の仕様について検討した結果とタグ付与の際に問題となった点や今後検討すべき点について報告する.In this paper, we discuss how to annotate predicate-argument and coreference relations in Japanese written text. Predicate argument analysis and coreference resolution are particularly important as they often provide a crucial bridge between basic NLP techniques such as morpho-syntactic analysis and end-level applications, and they have been mainly developed with corpus-based empirical approaches. In order to train a classification model in such approaches, a large scale corpus annotated with predicate-argument and coreference information is needed. To our best knowledge, however, there is no corpus including plenty of such tags in Japanese. In addition, we have difficulty adopting the traditional specifications for annotating tags due to the problem setting of each task and the difference between Japanese and English. So, we develop a new criteria for our annotating processes by examining the previous work on annotating tasks. This paper explains our annotating specification cultivated through actual annotating processes for the texts in Kyoto Text Corpus version 3.0, and discusses the future directions.
著者
吉村 綾馬 金子 正弘 梶原 智之 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.2, pp.404-427, 2021 (Released:2021-06-15)
参考文献数
35

信頼できる文法誤り訂正の自動評価手法の構築は,文法誤り訂正の研究および開発の発展に有用である.可能な参照文を網羅することが難しいため,先行研究では参照文を用いない自動評価手法が提案されてきた.そのうちの一つは,文法性・流暢性・意味保存性を評価する 3 つの評価モデルを用いることで,参照文を用いる手法よりも人手評価との高い相関を達成した.しかし,各項目の評価モデルは人手評価には最適化されておらず,改善の余地が残されていた.本研究では,より適切な評価を行える自動評価手法の構築を目的として,各項目の評価モデルを事前学習された文符号化器を用いて人手評価に対して最適化する手法を提案する.また,最適化に理想的である,訂正システムの出力文に対して人手評価が付与されたデータセットの作成を行う.実験の結果,項目ごとの評価モデルおよびそれらを組み合わせた手法の両方で,従来手法と比べて人手評価との相関が向上し,事前学習された文符号化器を用いることおよび訂正文の人手評価に最適化することの両方が貢献していることがわかった.分析の結果,提案手法は従来手法に比べて多くのエラータイプの訂正を正しく評価できていることがわかった.
著者
内海 慶 小町 守 町永 圭吾 前澤 敏之 佐藤 敏紀 小林 義徳
出版者
情報処理学会
雑誌
情報処理学会研究報告 (ISSN:18840930)
巻号頁・発行日
vol.2010, no.4, pp.1-7, 2010-12

我々は,クエリ訂正を統一的に行う手法として,検索クエリログとクリックスルーログを用いたグラフに基づく手法を提案する.提案手法では,クリックスルーログを用いたラベル伝播により,入力されたクエリで検索を行った場合と同一のページに到達するクエリを獲得し,これをクエリの訂正候補とした.次に,獲得した訂正候補に対して,検索クエリログから生成した言語モデルを用いて尤度を計算し,ラベル伝播時のスコアとあわせて候補のランキングを行った.これによって,人手による学習コーパスを必要とせずに,入力されたクエリと高く関連し,かつクエリとして適切な候補をログから抽出できることを示す.In this paper, we propose a new method to refine web search queries. This method is based on a graph theoretic label propagation and uses web search query and clickthrough logs. Our method first enumerates query candidates with common landing pages with regard to the given query. Then it calculates likelihoods of the candidates, making use of language model generated from web search query logs. Finally the candidates are sorted by their scores calculated from the likelihoods and the label propagations. As a result, we are able to extract appropriate candidates from web search query and clickthrough logs, without using hand-crafted training data.