著者
小山 照夫 影浦峡 竹内 孔一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.55-60, 2006-11-22
参考文献数
7
被引用文献数
8

テキストコーパスからの用語抽出は、自然言語処理技術の重要な応用である。従来テキストコーパスから用語候補を抽出する方法として、主として候補出現に関わる統計的指標を用いて用語性を判定する方法が採用されて来たが、統計的手法では出現頻度の低い候補についての判定が困難であった。今回の発表では、複合語に注目し、用語性を損なう形態素出現パターンを排除する形での用語候補抽出を行うことにより、高い精度で複合語用語抽出が可能となることを示す。Term extraction is one of the most important application of natural language processing technologies. Statistic criteria are widely adopted to evaluate the termhood of the extracted candidates. However, it is difficult to evaluate the termhood of less frequent candidates. In this study we propose a method for Japanese composite term extraction in which unproper morpheme patterns are eliminated. Using the new method, high precision of term extraction can be attained for Japanese composite terms.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.22, pp.17-24, 1999-03-04
被引用文献数
3

近年,インターネットの普及により,OCRを用いたテキストの電子化がますます重要な課題となってきた.日本語OCR誤り訂正の先行研究において統計的言語モデルを利用して訂正対象と同じ分野の学習コーパスを用意することで高精度の訂正能力を示す研究がある.しかし,電子化された大量テキストコーパスを期待できない場合が多い.そこで電子化されたコーパスがない分野に対して,OCR処理された誤りを含むテキストから学習を行なうモデルを構築する.この時,辞書に無い未知語獲得もOCR処理されたテキストから行なう.実際にOCR処理されたテキストに対する訂正実験の結果,学習コーパスと訂正対象の分野が一致していた先行研究に比べ約1/4程度の訂正精度を示したことを報告する.In recent years, OCR error correction is becoming more and more important technique for the purpose of converting printed texts into electronic ones on computers. As a previous work, there are some studies of OCR post processor which show high performance of error correction when they use a large on-line corpus which is the same domain as their target of correction. However, we cannot prepare large on-line corpus at every domain. In this paper, we present an OCR error correction method which uses OCR's output texts in a domain in which no large scale training text exists. We also show some methods to get unknown words using OCR's output texts. When our method is applied to error correction of OCR's output texts, the experimental results shows that the performance is quarter as much as our previous result in which target text and a on-line corpus are of the same domain.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.3, pp.500-509, 1997-03-15
被引用文献数
11

本論文では日本語形態素解析システムにHMM (Hidden Markov Model)を適応する手法について提案する.日本語では英語と異なり,わかち書きがされていないため,HMMパラメータの初期確率を等確率にした単純な学習では精度が上がらない.よって以下の3つの手法に対するHMM学習の効果について実験を行った.1)初期確率の影響.2)文法制約の導入.3)スムージング.最初の実験から初期確率については少量であっても正確なタグ付きコーパスから獲得することがHMM学習に大きく効果があることを明らかにする.次に文法による制約と確率の再推定におけるスムージング化を行った場合,人手により整備されている日本語形態素解析システムと同等以上の解析精度が得られることを示す.This paper presents a method to apply Hidden Markov Model to parameter learning for Japanese morphological analyzer.When we pursued a simple approach based on HMM for Japanese part-of-speech tagging,it gives a poor performance since word boundaries are not clear in Japanese texts.We especially investigate how the following two information sources and a technique affect the results of the parameter learning:1)The initial value of parameters,i.e.,the initial probabilities,2)grammatical constraints that hold in Japanese sentences independently of any domain and 3)smoothing technique.The first results of the experiments show that initial probabilities learned from correctly tagged corpus affects greatly to the results and that even a small tagged corpus has an enough effect for the initial probabilities.The overall results gives that the total performance of the HMM-based parameter learning outperforms the human developed rule-based Japanese morphological analyzer.
著者
齋藤 彰 竹内 孔一
雑誌
研究報告情報基礎とアクセス技術(IFAT) (ISSN:21888884)
巻号頁・発行日
vol.2017-IFAT-124, no.1, pp.1-5, 2017-02-03

テキスト含意認識問題の先行研究では,文に含まれる内容語の含有率などを含意の識別に用いていた. しかし,文中に現れる内容語の順序を考慮しない手法では,含意の識別において誤りが多くみられた.そこで,本研究ではテキスト含意認識を文の構造の包含関係を調べることにより,含意の識別を行うアプローチを提案する. 自然言語文から文の構造を生成する際に述語項構造解析エンジン Predicate-Argument Structure Analyzer (ASA) を利用した.従来の ASA による解析ではコピュラ文における述語について,内容語と機能語の分類が不完全であった.そのため,本研究ではその点について ASA を改良し,NTCIR-10 で提供されたRITE2 の問題セットを利用して評価実験を行った.評価実験の結果,ASA の改良により含意の識別に成功した事例が 3 件増加したことを報告する.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.6, pp.2679-2689, 1999-06-15
被引用文献数
13

近年 インターネットの普及により OCRを用いたテキストの電子化がますます重要な課題となってきた. 日本語におけるOCR誤り訂正の先行研究には OCRの文字候補と品詞タグ付きコーパスを利用した研究がある. しかしながら 分野が異なれば単語の出現分布などが変わることから 誤り訂正を行う分野と同分野のタグ付きコーパスを用意する必要があり それには大変コストがかかる. また 分野によっては統計学習に必要な電子化テキストデータがない場合も多い. そこで まず我々は学習用として電子化された大量テキストデータを仮定したOCR誤り訂正システムを構築し ランダムに生成された文字置換誤りテキストに対する訂正実験を行った. 次に 電子化テキストがない分野に対して OCR処理された誤りを含むテキストを学習に利用するシステムを作成し評価を行った. システムは 文字trigram 統計的形態素解析システム 単語trigramを用いた. 大量テキストを仮定したシステムでは 90%の文字読み取り精度のテキストを92.9%まで改善し 95%の精度のテキストを96.4%にまで改善した. また 電子化テキストデータがない場合について 実際のOCR処理されたテキストに対する訂正実験を行い その有効性を示す.In recent years, OCR error correction is getting more and more important for the purpose of converting printed texts into electronic ones on computers. As a previous work, there exists a study of OCR post processing which uses OCR's character candidates and a morphological analyzer trained on part-of-speech-tagged corpus. However, too much cost is required to prepare pos-tagged corpus for each domain. In this paper, we present an OCR error correction method which uses stochastic language models trained on large texts. We also construct an OCR error correction system which uses OCR's output texts in a domain in which no large scale training text exists. Our system consists of the models of character trigram, a stochastic morphological analyzer and word trigram. We show that the models trained on large texts improve a text of 90% correct character rate into that of 92.9% correct rate and a 95% correct text into a 96.4% correct one. We also show how the models trained on OCR's output texts correct errors in the OCR's output texts.
著者
竹内 孔一
出版者
一般社団法人 情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.69, no.9, pp.421-426, 2019-09-01 (Released:2019-09-01)

近年,認知言語学を基に構築されている概念体系を利用した用語整理手法が提案されており,概念体系の構築と利用について期待が高まりつつあると考えられる。著者は複合名詞内の係り関係を分析した語彙概念構造を発展させて,意味役割と述語の概念をシソーラス状に体系化した述語項構造シソーラスを構築して公開している。そこで,本稿では,構築している述語項構造シソーラスの基本的な設計方針と,データ構造の説明,および最近の発展について説明する。さらに,概念体系データが専門用語の整理や自然言語処理で使われた例について説明し,概念体系データの今後の展望について述べる。
著者
竹内 孔一 小山 照夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.108, no.283, pp.19-22, 2008-11-03
参考文献数
12
被引用文献数
2

公開されている動詞項構造シソーラスに基づく動詞の意味分類ならびに項に対する意味役割を京都大学コーパスに付与することで動詞の語義曖昧性を解消する基礎データを構築したい.動詞の語義はその動詞が項としてとる名詞との関係を明確化するために意味役割を付与しているが,どういう意味役割集合を作成すればどの程度の意味処理が可能なのかについて,言語処理の観点ならびに言語表現の観点からどのぐらいの種類の意味役割が必要となるのかについての決着は見られていない.本論文では処理とタグ付与実現性の観点からどのように意味役割を付与するかその方針を提案し,知識処理を指向した場合の限界について議論する.
著者
竹内 孔一 内山 清子 吉岡 真治 影浦峡 小山 照夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.5, pp.1446-1456, 2002-05-15
被引用文献数
8

本研究では,主辞がサ変名詞である複合名詞の語構成において,構成する単語間の係り関係を支配する語彙的性質に着目し,それに基づく複合名詞解析モデルの作成を試みる.主辞がサ変名詞の複合名詞内の係り関係の解析は,並列関係の場合を除くと,主辞であるサ変名詞の項関係なのか修飾なのかを同定することが解析の第1歩である.項関係とは名詞が動詞の目的語や主語といった関係であることを意味している.本論文では,この関係をとらえる方法として,語彙概念構造を利用した動詞の分類と,その構造を利用した名詞の分類に基づく複合名詞解析手法を提案する.情報処理関連の専門用語と新聞記事中の一般的な複合名詞に対してテスト的な実験を行った.その結果,平均で1231語の複合名詞対して約99.4%の複合名詞を正しく解析する結果を得た.In this paper,we describe a principled approach for analyzing relations between constituent words of compound nouns,specifically those whose heads are deverbal nouns,based on the classification of deverbal nouns by their lexical conceptual structure (LCS) and the classification of nouns in modifier position vis-a-vis LCS of head deverbal nouns.There are two kinds of relations of compounds with head deverbal nouns.The one is that a modifier noun becomes an argument of deverbal head and the other is that a modifier becomes an adjunct.It is an important starting point for analyzing relations to disambiguate the two kinds of relations.Through the qualitative analysis of the data and the experimental evaluation of 1231 compound nouns, we show that the use of LCS as the theoretical basis is very promising for constructing compound analyzer.
著者
内山 清子 竹内 孔一 吉岡 真治 影浦 峡 小山 照夫
出版者
国立情報学研究所
雑誌
学術情報センター紀要 (ISSN:09135022)
巻号頁・発行日
vol.11, pp.49-57, 1999-03
被引用文献数
1

専門分野における複合名詞を分析する時に、複合名詞を構成している語構成要素の情報が必要となってくる。本研究では、語構成要素の文法情報だけでどこまで複合名詞の性質を分析することができるかどうかを見きわめるために、語構成要素を文法情報である品詞相当カテゴリーに分類するための検討を行った。語構成要素においては、従来の文/単語関係で定義された品詞カテゴリーをそのまま適用することは難しい。そこで本研究では、従来の品詞カテゴリーを参照しつつ、新たに語構成用の品詞相当カテゴリーとその定義を設定することを試みた。
著者
竹内 孔一
出版者
岡山大学
雑誌
基盤研究(C)
巻号頁・発行日
2007

動詞の語義の曖昧性を解消するために必要な事例と語義の曖昧性を記述するための動詞と名詞の定義集合を構築した.さらに事例をもとに動詞の語義を判別する自動付与システムの構築を行った.事例は新聞記事約1500文に対して約120語の動詞について動詞の語義, 名詞の語義(日本語語彙大系), 名詞の意味役割の付与を行った(整理後公開予定).さらに, 事例を元に統計的学習モデルを利用して動詞の語義と名詞の意味役割を自動付与するシステムを構築した.
著者
源 翔三郎 竹内 孔一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.111, no.227, pp.33-37, 2011-10-03

テキスト中から専門用語を自動的に抽出する用語抽出システムの比較を行う.比較の対象となる手法は統計的学習モデルとルールベースモデルに基づく手法である.比較には感染症の用語を人手で同定したテキストデータが存在することから,これを正解データとして扱う.統計的学習モデルでは正解データを元にCRFによって学習を行うことで用語抽出システムを構築する.またルールベースモデルでは規則ベースのパターン抽出用言語としてSRLを利用した抽出システムを用いる.用語抽出実験の結果から正解データが多く存在する場合は統計的学習モデルによる用語抽出,分野依存がある場合はルールベースモデルの用語抽出を行うとよい結果が得られることを明らかにした.
著者
竹内 孔一 高橋 秀幸 小林 大介
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.110, no.245, pp.13-18, 2010-10-16

本研究ではクラスタリングを利用して動詞の類義語を獲得する方法について検討している.先行研究において,同時に2つの要素のクラスタを考慮しながらクラスタリングする同時共起クラスタリングを適用して,ベクトルベースのクラスタリングより精度が高いことを示した.しかし,近年ベクトルベースのクラスタリングでKernel K-meansという非線形境界でクラスタリングするより高度な手法が提案された.そこで,本報告ではKernel K-means法を我々の動詞類語獲得に適用し,先行研究における同じデータで同時共起クラスタリングとの比較を行う.この結果からKernel K-meansでのグラフ-ベクトルの等価性には限界があり,本研究が利用する2部グラフの構造は直接反映できないこと,先行研究の同時共起クラスタリングの方が高い精度で類語を獲得できることを報告する.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.95, no.168, pp.13-19, 1995-07-20
被引用文献数
5

日本語の形態素解析は自然言語処理を行なう上で最も基本的でかつ重要な処理である。我々の研究室で開発している形態素解析システムJUMANは、品詞の連接と単語に対してコストによる制約を与えることで曖昧性の絞り込みを行なっている。コスト値はJUMANの品質に大きな影響を与えるにも関わらず、人手で付与されるため最適化する機構は存在しなかった。そこで、本研究では、英語のタグづけなどで効果を発揮しているHMM(Hidden Markov Model)を用いて、コーパスによる学習を行なうことでJUMANのコスト値、すなわちパラメータの最適化を行なう。HMM学習の結果、現在のJUMANの解析精度を改善する結果が得られた。
著者
影浦 峡 阿辺川 武 内山 将夫 佐藤 理史 宇津呂 武仁 竹内 孔一 相澤 彰子 戸田 愼一
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2009

(1) レファレンス・ツールにおける「包括性」の概念および包括性を 実現するための要件を明らかにした。(2) 専門語彙クローラーと対訳・関連多言語アーカイヴ クローラーを開発し、機能的包括性を有するレファレンス情報資源を構築した。(3) 翻訳情報 資源を提供する統合翻訳支援サイト「みんなの翻訳」(http://trans-aid.jp/)を開発・公開し、 一般利用に提供し翻訳情報資源の有効性を検証した。