著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.
著者
嶋中 宏希 梶原 智之 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.3, pp.613-634, 2019-09-15 (Released:2019-12-15)
参考文献数
34
被引用文献数
2

本稿では,参照文を用いた文単位での機械翻訳自動評価手法について述べる.現在のデファクトスタンダードである BLEU をはじめとして,多くの従来手法は文字や単語の N-gram に基づく素性に頼っており,文単位での評価にとっては限定的な情報しか扱えていない.そこで本研究では,文全体の大域的な情報を考慮するために,事前学習された文の分散表現を用いる機械翻訳自動評価手法を提案する.提案手法では,大規模コーパスによって事前学習された文の符号化器を用いて,翻訳文と参照文の分散表現を得る.そして,翻訳文と参照文の分散表現を入力とする回帰モデルによって,人手でラベル付けされた翻訳品質を推定する.WMT-2017 Metrics Shared Task における翻訳品質のラベル付きデータセットを用いた実験の結果,我々の提案手法は文単位の全ての to-English 言語対において最高性能を達成した.
著者
高橋 啓吾 大森 光 小町 守
出版者
人工知能学会
雑誌
2019年度 人工知能学会全国大会(第33回)
巻号頁・発行日
2019-04-08

近年文内述語項構造解析(PASA)においてニューラルネットワークモデルが利用されている.しかしながら,系列ラベリングを用いた手法は一つの項候補に複数の必須格を割り当ててしまう問題がある.我々は新たな手法としてPointer Networksを用いたものを提案し,複数の必須格を割り当ててしまう問題が改善されることを確認した.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016-03-14 (Released:2016-06-14)
参考文献数
47
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
中村 哲 松本 裕治 戸田 智基 サクリアニ サクティ Neubig Graham Duh Kevin 小町 守 高道 慎之介
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(A)
巻号頁・発行日
2012-05-31

同時通訳基本方式研究として、フレーズベース統計翻訳における右確率を用いた同時通訳方法により、翻訳単位を短くする方法、翻訳単位の長さを調整する手法を提案した。さらに、形態素情報を使って文を分割する方法、Tree-to-string翻訳での部分構文構造を考慮して分割する方法を提案して高精度化を実現。さらなる精度改善のため、訳文に単語順序の入れ替えが発生するかを予測するモデルを構築すると共に、ニューラル翻訳の実装、統計翻訳のリランキング、注意型ニューラル翻訳の研究を進めた。また、同時通訳コーパスとして日英合計約80時間、講義データの書き起こし約50時間、うち約22時間分の日英翻訳を完了した。
著者
林部 祐太 小町 守 松本 裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.10, pp.1-8, 2011-05-09

文脈情報と格構造の類似度を用いた日本語文間述語項構造解析手法を提案する.センタリング理論に基づく局所文脈情報と述語と項候補の共起頻度といった意味的情報という大まかには2つの情報を用いて従来の文間述語項構造解析は行われてきた.ところが,いずれの手法を用いても,「Xを逮捕した」という文をもとに「自首した」のガ格項がXであると判定することはできなかった.そこで本論文では,格構造の類似度と述語項構造解析の履歴を用いることで,文章全体の文脈情報(大域文脈情報)から文間述語項構造解析を行うことを提案する.We improve Japanese inter-sentential predicate argument structure analysis with contextual information and similarity between case structures. Two types of clues have been often used in previous work. One is local contextual information based on centering theory, and the other is semantic information such as co-occurrences between a predicate and an argument candidate. However, those approaches fail to identify the nominative argument in the sentence "He turned himself in to police", even if the document has a sentence like "The police arrested him." Thus, we propose a new method using global contextual information and similarity between case structures in order to exploit global contextual information over a document.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

我々は統計的機械翻訳の手法を使い,学習者の作文誤り訂正を行ってきた.これまでの研究では,単語から単語への訂正ではなく,文字から文字への訂正を行なう文字単位の手法を用いて性能を向上させた.一方で,文字単位を用いることで単語の情報は失われ,訂正できなくなる場合もあった.そこで本研究では,これまで行ってきた研究の文字単位の手法を発展させ,文字単位と単語単位を組み合せることで性能が向上することを確かめた.
著者
小嵜 耕平 新保 仁 小町 守 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.4, pp.400-408, 2013 (Released:2013-06-20)
参考文献数
30

Graph construction is an important step in graph-based semi-supervised classification. While the k-nearest neighbor graphs have been the de facto standard method of graph construction, this paper advocates using the less well-known mutual k-nearest neighbor graphs for high-dimensional natural language data. To evaluate the quality of the graphs apart from classification algortihms, we measure the assortativity of graphs. In addition, to compare the performance of these two graph construction methods, we run semi-supervised classification methods on both graphs in word sense disambiguation and document classification tasks. The experimental results show that the mutual k-nearest neighbor graphs, if combined with maximum spanning trees, consistently outperform the k-nearest neighbor graphs. We attribute better performance of the mutual k-nearest neighbor graph to its being more resistive to making hub vertices. The mutual k-nearest neighbor graphs also perform equally well or even better in comparison to the state-of-the-art b-matching graph construction, despite their lower computational complexity.
著者
柴田 智広 為井 智也 岡田 洋平 和田 佳郎 小町 守
出版者
九州工業大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

Assist-As-Needed原理に基づいた強化学習エージェントが個人適応的にヒトの運動学習を支援することにより,その運動学習を促進可能であることを科学的に示した.また姿勢異常を呈する疾患を持つ症例のための姿勢評価,フィードバックトレーニングシステムを開発し,めまい平衡系疾患およびパーキンソン病を対象に姿勢リハビリテーションに関する医工連携を進め,後者については,在宅における姿勢リハビリテーションの実施可能性および即時効果を確認した.
著者
笠原 誠司 小町 守 永田 昌明 松本 裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.4, pp.1-6, 2011-09-09

本稿では日本語学習 SNS において,ローマ字で書かれた学習者の文を仮名に変換することで,添削者が訂正を容易に行えるよう支援する方法について述べる.我々のシステムは外国語の単語を検出し,日本語の単語のみを変換する.また単語のスペルに誤りが含まれていても変換することができる.学習者の作文に対し実験を行い既存の日本語入力システムよりも 10% 高い単語変換精度を達成した.誤り解析を行うことにより,母音同士を混同しやすい,母語の発音の影響を受けた書き方をしてしまう,といった学習者の誤りの傾向を明らかにした.We present an approach to help Japanese editors on language learning SNS correct learners' sentences written in roman characters by converting them into kana. Our system detects foreign words and converts only Japanese words even if it contains spelling errors. Experimental results show that our system achieves about 10 points higher conversion accuracy than one of traditional input methods. Error analysis reveals tendency of errors made by learners. For example, learners tend to be confused by vowels and make errors caused by nature of their native language.
著者
小町 守 工藤 拓 新保 仁 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.2, pp.233-242, 2010 (Released:2010-01-26)
参考文献数
27
被引用文献数
5 6

Bootstrapping has a tendency, called semantic drift, to select instances unrelated to the seed instances as the iteration proceeds. We demonstrate the semantic drift of Espresso-style bootstrapping has the same root as the topic drift of Kleinberg's HITS, using a simplified graph-based reformulation of bootstrapping. We confirm that two graph-based algorithms, the von Neumann kernels and the regularized Laplacian, can reduce the effect of semantic drift in the task of word sense disambiguation (WSD) on Senseval-3 English Lexical Sample Task. Proposed algorithms achieve superior performance to Espresso and previous graph-based WSD methods, even though the proposed algorithms have less parameters and are easy to calibrate.
著者
小町 守 鈴木 久美
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.23, no.3, pp.217-225, 2008 (Released:2008-03-11)
参考文献数
16
被引用文献数
3 6

We propose a method for learning semantic categories of words with minimal supervision from web search query logs. Our method is based on the Espresso algorithm (Pantel and Pennacchiotti, 2006) for extracting binary lexical relations, but makes important modifications to handle query log data for the task of acquiring semantic categories. We present experimental results comparing our method with two state-of-the-art minimally supervised lexical knowledge extraction systems using Japanese query log data, and show that our method achieves higher precision than the previously proposed methods.