著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

我々は統計的機械翻訳の手法を使い,学習者の作文誤り訂正を行ってきた.これまでの研究では,単語から単語への訂正ではなく,文字から文字への訂正を行なう文字単位の手法を用いて性能を向上させた.一方で,文字単位を用いることで単語の情報は失われ,訂正できなくなる場合もあった.そこで本研究では,これまで行ってきた研究の文字単位の手法を発展させ,文字単位と単語単位を組み合せることで性能が向上することを確かめた.
著者
松本 裕治 浅原 正幸 岩立 将和 森田 敏生
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.18, pp.1-6, 2010-11-11
被引用文献数
1

科研費領域研究研究 「日本語コーパス」 の一環として開発してきたコーパス管理ツール 「茶器」 の機能と現状について報告する.茶器は,形態素解析 (品詞情報),係り受け解析のアノテーション (注釈) が付与されたコーパスを格納し,様々な検索,検索結果や統計情報の表示,注釈誤りの修正などの機能をもつツールであり,注釈付きコーパスの格納,検索,作成,修正のための環境を提供する.主な機能は,文字列,形態素列,文節係り受け構造などを指定したコーパスの検索と,検索結果の KWIC 表示と係り受け木の表示,種々の統計情報の表示,注釈付けエラーの修正などである.現在は,茶筌/ MeCab による形態素解析,南瓜による係り受け解析結果をデータベースに取り込む機能を提供するが,特に言語には依存せず,任意の言語の品詞/依存構造注釈付きコーパスを扱うことができる.This paper introduces a annotated corpus management system ChaKi that has been developed under the auspices of the Japanese Corpus Project (Grantin-Aid for Scientific Research in Priority Areas). The system handles morphologican and dependency structure annotated corpora and facilitates various functions such as storing, retrieving, creating and error-correcting annotated corpora. String, word and dependency structure based corpus retrievals are possible, and the results are shown as KWIC format or as dependency trees. While the current system transfers corpora with the ChaSen/MeCab or CaboCha output format into databases, it is language independent and can be applied flexibly to any POS/dependency structure annotated corpora.
著者
小嵜 耕平 新保 仁 小町 守 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.4, pp.400-408, 2013 (Released:2013-06-20)
参考文献数
30

Graph construction is an important step in graph-based semi-supervised classification. While the k-nearest neighbor graphs have been the de facto standard method of graph construction, this paper advocates using the less well-known mutual k-nearest neighbor graphs for high-dimensional natural language data. To evaluate the quality of the graphs apart from classification algortihms, we measure the assortativity of graphs. In addition, to compare the performance of these two graph construction methods, we run semi-supervised classification methods on both graphs in word sense disambiguation and document classification tasks. The experimental results show that the mutual k-nearest neighbor graphs, if combined with maximum spanning trees, consistently outperform the k-nearest neighbor graphs. We attribute better performance of the mutual k-nearest neighbor graph to its being more resistive to making hub vertices. The mutual k-nearest neighbor graphs also perform equally well or even better in comparison to the state-of-the-art b-matching graph construction, despite their lower computational complexity.
著者
小倉 幸雄 松本 裕行 塩谷 隆 富崎 松代 三苫 至 半田 賢司
出版者
佐賀大学
雑誌
基盤研究(C)
巻号頁・発行日
2003

確率変数の取る値の空間を一般化する研究は,理論の上からも,応用数学の立場からも重要なテーマであろう.それをファジィ集合の空間に取り,極限定理を調べるのが本研究の目的である.この空間では,位相の入れ方によって可分性が壊れることがあるので注意を要する.本研究の一つの成果は,大数の法則,中心極限定理それにマルチンゲール収束定理は,可分性が壊れる一様位相を入れた空間でも成り立つことを突きとめたことである.方法としては,単調性を用いる方法と,分割を細かくするときのパラメータに関するエントロピーの可積分性を出して,経験分布の理論に持ち込む手法を取った.大偏差原理については,可分性がより大きな影響を与えるが,Levyの距離による位相についてまでは,自然な条件の下でCramer型の大偏差原理が成り立つことを得た.Skorohod位相と一様位相の場合は,やゝ強い条件の下で成り立つことを得た.また,この条件をみたす具体例を求めたが,これはM.Arcones : Large deviations of empirical processesの一つの定理の反例になっている.また自然な条件の下で,Sanov型の大偏差原理が成り立つことも得た.速度関数を具体的に求める問題は,簡単な場合しか出来ていないが,一つの例では,2つの測度の相対エントロピーになることが分かった.次に,研究分担者の松本裕行とともに,一次元ブラウン運動B(t)とその時刻tまでの最大値M(t)について,cM-Xがマルコフ過程になるのは,c=0,1,2の場合のみであることを得た.これは,15年度からの継続の研究であるが,Levyの定理(c=1の場合)とPittmanの定理(c=2の場合)を補完するものである.
著者
小山 恵美 仲 隆介 松本 裕司
出版者
京都工芸繊維大学
雑誌
基盤研究(C)
巻号頁・発行日
2010

執務空間の光環境を非定常的に時間変化させるようにデザインすることで、知的「ひらめき」につながる覚醒度、自律神経活動、心理状態などを含む生理的・心理的活性度が向上する傾向がみとめられた。また、心拍変動をモニターし、ワーカー個人の生理的・心理的活性度変動を反映した光環境の制御タイミングを盛り込むことで、光環境の非定常的時間変化が知的「ひらめき」につながる活性度に及ぼす影響が増大する可能性がみとめられた。
著者
水本智也 松本裕治
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.4, pp.1-5, 2014-05-15

第 2 言語を学習する人が増え,コンピュータによる第 2 言語学習支援に関する研究が盛んに行なわれている.その中でも特に英語の文法誤り訂正の研究が行なわれており,文法誤り訂正の性能を競う世界規模の Shared Task が 4 年連続で開催される.学習者の犯す誤りは様々なタイプがあり,全ての誤りタイプを訂正するために,統計的機械翻訳を用いた誤り訂正が提案されている.本稿では,統計的機械翻訳による誤り訂正結果の n-best の中に,1-best の場合よりもよい訂正が含まれていることに注目する.実際の出力結果を分析することで,リランキングによる性能向上が可能であるかを議論する.
著者
水本智也 松本裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.4, pp.1-5, 2014-05-15

第 2 言語を学習する人が増え,コンピュータによる第 2 言語学習支援に関する研究が盛んに行なわれている.その中でも特に英語の文法誤り訂正の研究が行なわれており,文法誤り訂正の性能を競う世界規模の Shared Task が 4 年連続で開催される.学習者の犯す誤りは様々なタイプがあり,全ての誤りタイプを訂正するために,統計的機械翻訳を用いた誤り訂正が提案されている.本稿では,統計的機械翻訳による誤り訂正結果の n-best の中に,1-best の場合よりもよい訂正が含まれていることに注目する.実際の出力結果を分析することで,リランキングによる性能向上が可能であるかを議論する.
著者
立石 健二 福島 俊一 小林 のぞみ 高橋 哲朗 藤田 篤 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.93, pp.1-8, 2004-09-16
被引用文献数
14

本稿では、Web文書から意見を抽出し、それらをレーダーチャートの形式で要約/視覚化する意見抽出分類システムを提案する。Webの意見は、商品購入の際の情報収集、市場調査等のマーケティング、企業のリスク管理等、さまざまな目的での利用が考えられる。Webの意見の収集/分析に関する研究には2つの課題がある、対象とするWeb文書から意見に該当する箇所を抽出すること、抽出した意見を要約/視覚化することである。本システムは、この2つの課題を3つ組{対象物 属性 評価}のモデルと情報抽出の手法を用いて解決する。本システムを車に関するレビューサイトの100記事を対象として評価したところ抽出精度が適合率82% 再現率52%であり、システムが出力したレーダーチャートと人手で作成したレーダーチャートが類似することを確認した。This paper proposes an opinion extraction and classification system, which extracts people's opinions from Web documents and summarize/visualizes them in the form of "radar charts". People's opinions on the Internet are available for many purposes such as surveys before purchasing products, market research and risk management for enterprises. There are two issues on this area. One is to locate opinion sentences from Web documents, and the other is to summarize/visualize the extracted opinions. The proposed system solves them by employing an opinion model {object name, attribute expression, evaluative expression} and information extraction techniques. The experimental result conducted with 100 articles on the car domain showed that the system performed 82% on precision and 52% on recall, and that both radar charts created by the system and by the hand are similar to each other.
著者
前川 喜久雄 山崎 誠 松本 裕治 傳 康晴 田野村 忠温 砂川 有里子 田中 牧郎 荻野 綱男 奥村 学 斎藤 博昭 柴崎 秀子 新納 浩幸 仁科 喜久子 宇津呂 武仁 関 洋平 小原 京子 木戸 冬子
出版者
大学共同利用機関法人人間文化研究機構国立国語研究所
雑誌
特定領域研究
巻号頁・発行日
2006

当初の予定どおりに、5000万語規模の現代日本語書籍均衡コーパスを構築して2011年に公開した。同時に構築途上のコーパスを利用しながら、コーパス日本語学の確立にむけた研究を多方面で推進し、若手研究所の育成にも努めた。現在、約200名規模の研究コミュニティーが成立しており、本領域終了後も定期的にワークショップを開催するなど活発に活動を続けている。
著者
佐藤 哲也 坂本 和子 森本 一成 浦川 宏 大谷 芳夫 松本 裕司 梶原 莞爾 石田 泰一郎
出版者
京都工芸繊維大学
雑誌
基盤研究(A)
巻号頁・発行日
2009

本研究では,人間の視感覚によって感じる印象・感情,また,質感がどのようなものであるかを数量的に解析し,消費購買活動にどの程度寄与しているのか考察した.印象と質感ついては,人間の視感覚の本質的な部分の研究を行うとともに,計測手法や統計手法を用いることで,色彩,光沢感などの客観評価の可能性を見出し,生活者が受ける印象については,モノや生活空間から受ける印象の数量的な解析を行い,その特徴を見出した.たとえば,衣服の見た目の風合いは,衣服を見る角度によって変化し,変角分光光度計で計測される反射率や明度によって捉えられることを見出した.また,実際の消費購買活動の研究では,視感覚の消費購買活動への影響について実験・調査を行い,視感覚から得られる情報が消費購買活動に影響を与えていることを見出した.
著者
北村 美穂子 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.4, pp.727-736, 1997-04-15
参考文献数
9
被引用文献数
30

特定分野の文書を翻訳する場合,その分野に特有の専門用語や定型表現の訳語が適切でないと翻訳結果の内容を把握することができない.専門用語や定型表現の訳語は翻訳品質を決める重要な要因であり,それらに関する対訳辞書の構築技術が求められている.本論文は,文対応の付いた対訳コーパスから共起する単語列を対応付けることにより,対訳表現を自動的に抽出する方法を提案する.各言語の単語列が独立して出現する回数とその単語列組が対訳文内に同時に出現する回数から単語列組の対応関係の強さを計算し,対応関係の強い単語列組から順に対訳表現として抽出する.出現回数による閾値を徐々に下げながら計算対象を増やしていく方法により,単語列の組合せ爆発を仰えることができ,高精度で対訳表現を抽出することができる.分野の異なる3種類のコーパスを用いた実験では,閾値が高い場合では100%の適合率で抽出でき,閾値が低下しても80?90%の適合率で対訳表現が抽出できるという結果が得られた.As for translation in specific fields,technical terms and idiomatic expressions appear frequently,which should be translated appropriately to get comprehensible translation.It is important to find a systematic technique to compile or to augment a translation dictionary for each specific field.This paper proposes a method of extracting translation patterns automatically from parallel corpus.Translation candidates of pairs of Japanese and English word sequences are evaluated by a similarity measure between the sequences defined by their co-occurrence frequency and independent frequency.The pairs of the sequences with higher similarity value are identified in earlier stage.An iterative method with gradual threshold lowering is proposed for preventing combinational explosion and for getting a high quality translation dictionary.The method is tested with parallel corpora of three distinct domains.The result achieved 100% on high threshold,and preserved 80縲鰀90% as the decline of the threshold.
著者
山田 寛康 工藤 拓 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.1, pp.44-53, 2002-01-15

本稿では,機械学習アルゴリズムSupport Vector Machine(SVM)を用いて日本語固有表現抽出を学習する手法を提案し,抽出実験によりその有効性を検証する.固有表現抽出規則の学習には,単語自身,品詞,文字種などを素性として使用するため,その素性空間は非常に高次元となる.SVMは汎化誤差が素性空間の次元数に依存しないため,固有表現抽出規則の学習においても過学習を起こすことなく汎化性能の高い学習が実現できる.また多項式Kernel関数を適用することで複数の素性の組合せを考慮した学習が計算量を変えることなく実現できる.CRL固有表現データを用いてIREX固有表現抽出タスクに対して実験を行った結果,語彙,品詞,文字種,およびそれら任意の2つの組合せを考慮した場合,交差検定によりF値で約83という高精度の結果が得られた.
著者
進藤 裕之 松本 裕治 永田 昌明
雑誌
研究報告数理モデル化と問題解決(MPS)
巻号頁・発行日
vol.2013-MPS-93, no.6, pp.1-6, 2013-05-16

自然言語処理分野における統計的文法獲得では,確率文法モデルの学習にGibbsサンプリング法が広く用いられている.しかしながら,木構造データを扱う場合には,Gibbsサンプリング法のように変数の値を一つずつ順番に更新していく方法では局所解に留まりやすく,十分に尤度の高い解を得られないという問題がある.この問題を解決するために,我々は新たな部分木のブロック化サンプリング法を提案する.本手法は,データ中に現れる共通の部分木まとめてブロック化し,ブロックに含まれる変数の同時分布からサンプリングを行う.そして,その部分木ブロック化サンプラーを従来のマルコフ連鎖モンテカルロ法と組み合わせて交互に実行することにより,目的関数の最適解を効率良く探索することができる.シンボル細分化文脈自由文法を用いて統計的文法獲得の実験を行ったところ,提案手法は既存手法よりも尤度の高い文法規則が獲得できることを確認した.
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.77-84, 2003-03-06
被引用文献数
26

近年,Web上に多数存在する掲示板などの文書から,意見情報を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には,評価を表す表現が重要な手がかりとなるが,評価表現には「コクがある」「液晶がきれい」といった領域依存の表現が多数存在するため,人手で書き尽くすことは困難である.そこで,我々は,テキストマイニングの技術を応用し,評価対象表現,属性表現,評価表現の共起パタンを利用して,これら領域依存表現を効率的に収集することを試みた.本稿では,共起パタンに基づく属性・評価表現の半自動的収集方法を提案し,「コンピュータ」と「ビール」の2つの領域を対象に行った経験的評価を報告する.It has been receiving increasing interest how to extract opinions from tremendous piles of Web documents. To automate the process of opinion extraction, a collection of evaluative expressions like "the monitor is fine" would be useful. However, it can be prohibitively costly to manually create an exhaustive list of evaluative expressions for each domain since they tend to be domain-dependent. Motivated by this background, we have been exploring how to accelerate the process of collecting evaluative expressions by applying a text mining technique. This paper proposes a semi-automatic method where we use particular patterns of cooccurrences between an evaluated subject, focused attribute and orientation expression, and reports the results of our empirical evaluation on the computer and beer domains.
著者
飯田 龍 小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.1, pp.21-28, 2005-01-11
被引用文献数
12

本稿では,文章に記述されている意見を抽出するタスクについて述べる.我々は,意見を<対象,属性,評価値>の3つ組として定義し,文章からその3つ組を抽出する手法を提案する.具体的には,意見抽出の問題を,(a)辞書に存在する属性候補集合と評価値候補集合から評価値候補と対となる属性を同定する問題と,(b)同定した対が意見性を持つか否かを判定する問題の2つの問題に分解し,それぞれ機械学習に基づく手法を用いて解析することにより,属性-評価値対を同定する.提案手法を用いて評価実験を行った結果を報告するとともに,今後の展望についても議論する.This paper addresses the task of extracting opinions described in a given document collection. Assuming that an opinion can be represented as a tuple < Subject, Attribute, Value>, we propose a computational method to extract such tuples from texts. In this method, the major task is decomposed into (a) the process of extracting Attribute-Value pairs from given texts and (b) the process of judging whether each extracted pair is expressed as an opinion of the author, to both of which we apply machine-learning techniques. We also report on the present results of our experiments discussing future directions.
著者
渡邉 尚子 岩田 滉一郎 中尾 國明 松本 正廣 松本 裕子 籏原 照昌 太田 裕彦 平林 寧子 高橋 和明 三代 俊治
出版者
The Japan Society of Hepatology
雑誌
肝臓 (ISSN:04514203)
巻号頁・発行日
vol.44, no.2, pp.80-84, 2003-02-25
被引用文献数
5 5

従来本邦ではE型肝炎は輸入感染症として軽視されがちであったが, 最近本邦を含む非流行地からの国内発症例の報告が相次いでおり, 我々も1例経験したので報告する. 症例は62歳男性. アルコール歴・ビタミン剤と生薬の服用歴あるも, 海外渡航歴・輸血歴・動物の飼育歴はなく, 特記すべき性交渉歴もなかった. 2000年11月初旬より全身倦怠感・褐色尿・微熱・食思不振を訴え, 職場の健康管理室を受診. 急性肝炎の疑いで同年11月21日に当科外来を紹介され, 同日入院となった. 入院時には全身倦怠感・皮膚及び眼球結膜黄染・軽度肝腫大・肝逸脱酵素上昇を認め, 急性肝炎と診断した. 安静のみで経過観察したが, 劇症化あるいは遷延・慢性化することもなく, 約20日間で軽快退院となった. 入院時より第29病日まで血清HEV-RNAが持続陽性で, 且つ第57病日の回復期血清中にHEV抗体を認めたことより, E型急性肝炎と診断した. 本患者より分離されたHEV株(JRA 1)のゲノム塩基配列の特徴に鑑みて, 本症例は「日本に土着化したHEV株」に感染して発症した急性肝炎であると考えられた.
著者
飯田 龍 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.45-52, 2008-09-17
被引用文献数
4

ゼロ照応解析の問題を結束性と首尾一貫性の観点から検討する.結束性の観点からは,Walker [21] のキャッシュモデルの実現方法を検討し,統計的機械学習に基づく実装を提案する.このキャッシュモデルを用いて文間ゼロ照応の先行詞候補削減を試み,評価実験を通じて先行詞同定時に解析対象とする先行詞候補を激減できたことを報告する.また,首尾一貫性の観点からは,含意関係認識で利用される推論知識獲得の手法を照応解析の手がかりとすることで解析精度にどのように影響するかについて調査する.新聞記事を対象に先行詞同定の実験を行い,導入した推論規則が解析に有効に働くことを示す.This paper approaches zero-anaphora resolution in the perspectives of cohesion and coherence.From the perspective of cohesion, we examine how to use the cache model addressed by Walker [21], and propose a machine learning-based approach for implementing the cache model. Empirical evaluation is conducted in order to reduce the number of antecedent candidates by the proposed cache model, and this results show that the number of the antecedent candidates of each zero-pronoun is dramatically reduced on the task of antecedent identification. From the perspective of coherence, on the other hand, we investigate whether or not the clues introduced in the area of the automatic inference rules acquisition on entailment recognition improve the performance of anaphora resolution. Through the experiments of the antecedent identification task, we demonstrate the impact of incorporating the inference rules into zero-anaphora resolution.