著者
東 藍 浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.67-74, 2006-05-19
被引用文献数
5

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証したThis paper proposes a new method forJapanese morphological analysis with unknown word (i,e out-of vocabularyword)processing The Japanese morphological analysis is based on conditional random fields(CRF)on a word trells.In the word trellis,the analyzer expands not only knownwords(i・ein-vocabularyword)but also substrings in a sentence as word candidates Kudo(Kudo 2004)discussed an issue that maximum entropy Markov model(MEMM)has label as well as length bias problems in known word processing and CRFs have potential to cope with them.We discuss the same issue in unknown word processing.Evaluation experiments on large-scale corpora show the effectiveness and impact on the proposed method.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.22, pp.17-24, 1999-03-04
被引用文献数
3

近年,インターネットの普及により,OCRを用いたテキストの電子化がますます重要な課題となってきた.日本語OCR誤り訂正の先行研究において統計的言語モデルを利用して訂正対象と同じ分野の学習コーパスを用意することで高精度の訂正能力を示す研究がある.しかし,電子化された大量テキストコーパスを期待できない場合が多い.そこで電子化されたコーパスがない分野に対して,OCR処理された誤りを含むテキストから学習を行なうモデルを構築する.この時,辞書に無い未知語獲得もOCR処理されたテキストから行なう.実際にOCR処理されたテキストに対する訂正実験の結果,学習コーパスと訂正対象の分野が一致していた先行研究に比べ約1/4程度の訂正精度を示したことを報告する.In recent years, OCR error correction is becoming more and more important technique for the purpose of converting printed texts into electronic ones on computers. As a previous work, there are some studies of OCR post processor which show high performance of error correction when they use a large on-line corpus which is the same domain as their target of correction. However, we cannot prepare large on-line corpus at every domain. In this paper, we present an OCR error correction method which uses OCR's output texts in a domain in which no large scale training text exists. We also show some methods to get unknown words using OCR's output texts. When our method is applied to error correction of OCR's output texts, the experimental results shows that the performance is quarter as much as our previous result in which target text and a on-line corpus are of the same domain.
著者
澤木 賢司 佐々木 裕明 堀内 弘司 宮田 順之 藤代 夏純 小菅 葉子 北尾 泉 松本 裕子 吉村 幸浩 立川 夏夫
出版者
一般社団法人 日本感染症学会
雑誌
感染症学雑誌 (ISSN:03875911)
巻号頁・発行日
vol.93, no.5, pp.655-658, 2019-09-20 (Released:2020-04-03)
参考文献数
13

Although biosafety in laboratories is very important, the risk of laboratory-acquired infection is usually undervalued. We report herein on two cases of laboratory-acquired infection caused by enterohemorrhagic Escherichia coli (EHEC) during student training in our hospital. We have to recognize laboratories are at risk of infection and reconsider the infection control rule.
著者
戸山 彩奈 松本 裕史 渋倉 崇行 幸野 邦男
出版者
日本スポーツ心理学会
雑誌
スポーツ心理学研究 (ISSN:03887014)
巻号頁・発行日
pp.2019-1905, (Released:2019-12-28)
参考文献数
42
被引用文献数
2

Using self-determination theory as a framework, the present study examined the effects of female college athletesʼ perceptions of controlling behaviors by coaches on their motivation toward sports. Specifically, this study examined whether basic psychological needs (satisfaction and frustration) mediated the relationships between perceived controlling coach behaviors and athletesʼ motivation. Female college student-athletes (N=243) completed questionnaires assessing perceived controlling coach behaviors, as well as their motivation (intrinsic motivation and amotivation) and perceptions of psychological need satisfaction and frustration. Structural equation modeling indicated support for a mediational effect. Specifically, the results indicated that controlling coach behaviors significantly predicted psychological need frustration, which, in turn, predicted amotivation. Therefore, it is suggested that controlling behaviors by coaches increase psychological need frustration and facilitate amotivation in female college athletes.
著者
松本 裕子 小林 友彦 坂田 雅夫 遠井 朗子 落合 研一 桐山 孝信 上村 英明
出版者
中京大学
雑誌
基盤研究(C)
巻号頁・発行日
2011

人権法以外の国際法の文脈(国際環境法・国際開発法・国際経済法)でも、先住民族が影響を受ける国際規範の定立にその参加が認められる場合があり、程度の差はあるものの、規範の実施にその権利尊重の必要性が認識されつつある。ただし、国家中心的な国際法が構造転換したといえるかについては、現状ではそれを肯定するに十分な実行の積み重ねはない。国際法上の先住民族の権利の日本国内への影響については、国連宣言採択を受けて、国及び一部の地方自治体による公文書等への一定の反映や政策決定の正当性の根拠とする動きはある。ただし、国連宣言の採択が国及び地方自治体の既存の政策の根本的変更を招くような状況は存在していない。
著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.3, pp.500-509, 1997-03-15
被引用文献数
11

本論文では日本語形態素解析システムにHMM (Hidden Markov Model)を適応する手法について提案する.日本語では英語と異なり,わかち書きがされていないため,HMMパラメータの初期確率を等確率にした単純な学習では精度が上がらない.よって以下の3つの手法に対するHMM学習の効果について実験を行った.1)初期確率の影響.2)文法制約の導入.3)スムージング.最初の実験から初期確率については少量であっても正確なタグ付きコーパスから獲得することがHMM学習に大きく効果があることを明らかにする.次に文法による制約と確率の再推定におけるスムージング化を行った場合,人手により整備されている日本語形態素解析システムと同等以上の解析精度が得られることを示す.This paper presents a method to apply Hidden Markov Model to parameter learning for Japanese morphological analyzer.When we pursued a simple approach based on HMM for Japanese part-of-speech tagging,it gives a poor performance since word boundaries are not clear in Japanese texts.We especially investigate how the following two information sources and a technique affect the results of the parameter learning:1)The initial value of parameters,i.e.,the initial probabilities,2)grammatical constraints that hold in Japanese sentences independently of any domain and 3)smoothing technique.The first results of the experiments show that initial probabilities learned from correctly tagged corpus affects greatly to the results and that even a small tagged corpus has an enough effect for the initial probabilities.The overall results gives that the total performance of the HMM-based parameter learning outperforms the human developed rule-based Japanese morphological analyzer.
著者
中川 哲治 工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.9, pp.77-82, 2001-01-25
被引用文献数
2

品詞タグ付けにおいて,辞書に存在する語と比較して未知語に対する解析精度は低く,品詞タグ付けの全体の性能を左右する要因となる。本稿では,英語における未知語の品詞をSupport Vector Machineを用いて推定する手法を提案する。単語の部分文字列やコンテキストを素性として,高い精度で品詞を推定することができた。さらに同じ枠組みで,SVMを用いて品詞のタグ付けを行ったところ,100 000トークンの訓練データによる学習の結果,95.9%という従来手法以上の精度が得られた。In part-of-speech tagging, the accuracy for unknown words is lower than for known words. In consideration of high accuracy rate of up-to-date statistical POS taggers, unknown words account for non-negligible cause of errors. This paper describes POS estimation for unknown words using Support Vector Machines. We achieved high accuracy of POS tag estimation using substrings and surrounding contexts as feature. Furthermore, we apply this method to a practical POS tagger, and achieved the accuracy of 95.9%, higher than conventional approaches.
著者
水本 智也 小町 守 永田 昌明 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.5, pp.420-432, 2013-09-01 (Released:2013-07-10)
参考文献数
16
被引用文献数
3 3

Recently, natural language processing research has begun to pay attention to second language learning. However, it is not easy to acquire a large-scale learners' corpus, which is important for a research for second language learning by natural language processing. We present an attempt to extract a large-scale Japanese learners' corpus from the revision log of a language learning social network service.This corpus is easy to obtain in large-scale, covers a wide variety of topics and styles, and can be a great source of knowledge for both language learners and instructors. We also demonstrate that the extracted learners' corpus of Japanese as a second language can be used as training data for learners' error correction using a statistical machine translation approach.We evaluate different granularities of tokenization to alleviate the problem of word segmentation errors caused by erroneous input from language learners.We propose a character-based SMT approach to alleviate the problem of erroneous input from language learners.Experimental results show that the character-based model outperforms the word-based model when corpus size is small and test data is written by the learners whose L1 is English.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
松本 裕子 盛田 清秀
出版者
日本農村生活研究会
巻号頁・発行日
no.129, pp.40-50, 2006 (Released:2011-03-05)
著者
東 藍 新保仁 松本 裕治 Azuma Ai Shimbo Masashi Matsumoto Yuji
雑誌
データマイニングと統計数理研究会(第 12 回)

When we apply machine learning or data mining technique to sequential data, it is often required to take a summation over all the possible sequences. We cannot calculate such a summation directly from its definition in practice. Although the ordinary forward-backward algorithm provides an efficient way to do it, it is applicable to quite limited types of summations. In this paper, we propose general algebraic frameworks for generalization of the forward-backward algorithm. We show some examples falling within this framework and their importance.
著者
濱口 拓男 大岩 秀和 新保 仁 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.33, no.2, pp.F-H72_1-10, 2018-03-01 (Released:2018-04-03)
参考文献数
31
被引用文献数
5

Knowledge base completion (KBC) aims to predict missing information in a knowledge base. In this paper, we address the out-of-knowledge-base (OOKB) entity problem in KBC: how to answer queries concerning test entities not observed at training time. Existing embedding-based KBC models assume that all test entities are available at training time, making it unclear how to obtain embeddings for new entities without costly retraining. To solve the OOKB entity problem without retraining, we use graph neural networks (GNNs) to compute the embeddings of OOKB entities, exploiting the limited auxiliary knowledge provided at test time. The experimental results show the effectiveness of our proposed model in the OOKB setting. Additionally, in the standard KBC setting in which OOKB entities are not involved, our model achieves state-of-the-art performance on the WordNet dataset.
著者
中村 哲 須藤 克仁 松本 裕治 田中 宏季 サクリアニ サクティ 吉野 幸一郎 高道 慎之介
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(A)
巻号頁・発行日
2017-04-01

①-A)常時音声認識:音声、非音声音響モデルに基づく常時音声認識の検討を始めた。B)自動音声同時通訳:シフトリデュースパーザを音声認識に組み込み、逐次的に音声認識デコーダで構文解析しながら次の文構成要素を予測し、訳出、待機を行う方法の高度化について文献調査を行った。C)機械翻訳の高度化:再帰的ニューラルネットワークの一種であるLSTMによる注意形ニューラル機械翻訳(NMT)の高度化に向けて研究を進めた。D)対話制御:LSTMを用いた対話状態推定法の利用、POMDPを利用した音声翻訳の高度化に向けて検討を始めた。②パラ言語:元言語の発話から強調抽出し、アライメントを求めた後、CRFおよびLSTMニューラルネットで対象言語に強調を付与する技術の改良を進めた。③リアルタイムコミュニケーション:視線検出装置Tobi、モバイル心拍計などを用いてプロの同時通訳者の作業時、および同時通訳ユーザの聴取時の聴取負荷の観察を行うため、実験計画の検討を行った。④コーパス構築:2012年から介した基盤研究Aで収集したコーパスの整理を行い、H29年度に実施すべきコーパス収集の計画を検討した。
著者
持橋 大地 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2003, no.4(2002-NL-153), pp.41-47, 2003-01-20

本報告では 語彙の意味的概念の空間内での表現に関し 空間の性質によらない評価基準を示し 確率的表現が従来のベクトル空間での表現より優れていることを見る.また 計算量上問題となる概念空間の次元数に対し AICによる最適次元数の決定を試みた.
著者
持橋 大地 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.95(1999-NL-134), pp.155-162, 1999-11-25

本論文では,単語の意味を単語間の連想関係を表す確率分布として表現し,その定式化と連想確率の獲得について述べる.単語の意味的な重みを表す指標として単語の共起確率分布の情報量から計算される連想情報量を提案し,共起確率との組み合わせにより連想確率を計算する.連想はMarkov過程の上で行われ,その状態確率分布として意味が定義される.状態遷移として連想を行うことによって,直接共起しない語の意味的な関係が表現できる.また,確率ベクトルとして捉えた意味のスケール変換として文脈を捉え,先行単語集合の数を仮定しない非線型な更新式を提案し,これにより文脈の強化と順序への依存が表現できることを示す.現実のテキストから意味を獲得し,文脈をモデル化することで,意味的類似度や文脈解析だけでなく,情報検索などにおいて様々な実際的な意味処理が可能になる.
著者
妙木 裕 松本 裕治 長尾 真
雑誌
全国大会講演論文集
巻号頁・発行日
vol.42, pp.17-18, 1991-02-25
被引用文献数
12

ユーザカスタマイズ可能な汎用日本語辞書データシステムと、それを利用した形態素解析システムについて述べる。日本語辞書データシステムは、木構造形式の辞書ファイルと、そのファイルを操作するCのライブラリ関数から構成される。木構造辞書ファイルは、ユーザが用意したテキスト形式の辞書から構築され、任意のカスタマイズが可能である。形態素解析システムの主要部分はLAX [杉村他88] のアルゴリズムを用いてPrologで記述されており、辞書の検索に際してはCのライブラリ関数を呼び出す。その解析結果は形態素により構成されたラティス構造として得られ、いくつかのヒューリスティクスを用いて曖昧さを減少させることもできる。出力はProlog上の構文解析システムSAX[桜木・杉村86]への入力として利用されることを想定しているが、テキストデータとして得ることも可能である。
著者
原 一夫 鈴木 郁美 新保 仁 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.4, pp.379-390, 2013 (Released:2013-05-23)
参考文献数
27

We propose a new measure of semantic similarity between words in context, which exploits the syntactic/semantic structure of the context surrounding each target word. For a given pair of target words and their sentential contexts, labeled directed graphs are made from the output of a semantic parser on these sentences. Nodes in these graphs represent words in the sentences, and labeled edges represent syntactic/semantic relations between them. The similarity between the target words is then computed as the sum of the similarity of walks starting from the target words (nodes) in the two graphs. The proposed measure is tested on word sense disambiguation and paraphrase ranking tasks, and the results are promising: The proposed measure outperforms existing methods which completely ignore or do not fully exploit syntactic/semantic structural co-occurrences between a target word and its neighbors.
著者
吉川 克正 浅原 正幸 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.251-271, 2013-06-14 (Released:2013-09-14)
参考文献数
23
被引用文献数
4 6

本稿ではマルコフロジックを利用した日本語述語項構造解析について述べる.日本語述語項構造解析に関する従来研究の多くは,格毎に独立した解析器を用意し,他の述語項関係との依存関係を無視したまま解析を行っていた.これに対し,本研究では同一文内にある全ての述語項候補を同時に考慮して解析する手法を提案する.この手法は複数の述語項関係の間にある依存関係を考慮した上で,文内における全ての述語項関係の候補から,最適な状態を見つけ出すことができる.さらに,本研究では,述語の項として妥当でないものを削除するための新たな論理的制約を考案し,ゼロ照応も含めて正しい項を効果的に見つけ出すことができるように工夫した.NAIST テキストコーパスにおける実験で,本研究の提案手法は,大規模データを利用せずに,従来手法と同等の結果を達成した.