著者
冨浦洋一 日高達 吉田 将
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.32, no.1, pp.42-49, 1991-01-15
被引用文献数
5

本格的な意味処理を行うためには 単語の意味に関する知識が必要であることは言うまでもないその中で 語彙間の上位-下位関係は 最も基本的な知識の1つである本研究では 動詞間の上位-下位関係を国語辞典から抽出する手法を開発することを目的とする動詞は第一階述語論理ではn項述語に対応するまた 動詞は一般に多義であり 語義が異なれば 上位-下位関係にある動詞も異なるそこで 動詞をその語義ごとに述語に対応させ 動詞間の上位-下位関係を述語間の関係として捉えるしたがって 動詞間の上位-下位関係の抽出では 単に見出し動詞と上位-下位関係にある動詞(定義動詞)を抽出するだけでなく 定義動詞の語義の選択 および 見出し動詞と定義動詞の変数の対応も考慮しなければならない本稿では まず (1)動詞間の上位-下位関係を論理的に定義し (2)見出し動詞とその語義文の論理的関係 および 語義文の統語構造と論理的性質について述べ (3)動詞間の上位-下位関係を示す情報は語義文の統語構造中のどこに現れるかについて述べるさらに (4)定義動詞の語義 および 見出し動詞との変数の対応を適切に選択するための必要条件とヒューりスティックについて述べ 最後に (5)抽出結果について述べる
著者
本木 実 冨浦洋一 高橋 直人
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.8, pp.2779-2791, 2006-08-15

本論文では,記号列を入力し記号列を出力する階層型ニューラルネットの学習法を提案する.本論文で考察するモデルは,結合荷重だけでなく,各記号に対応する記号表現ベクトルも学習パラメータとする.この方式により,学習データの性質を反映した記号表現ベクトル(類似の使われ方をする記号の記号表現ベクトルが互いに近いベクトル)を学習することができ,予測能力の向上が期待できる.しかし,目的関数を平均二乗誤差とする通常のモデルでは,目的関数の値を最小にするタスクにとって無意味な解が存在し,出力ベクトルから記号の同定を行うと正解率がきわめて低いという問題がある.そこで本論文では,記号の同定を考慮した目的関数による学習法を提案する.実験により,提案モデルは,学習データの性質を反映した記号表現ベクトルの学習が可能であり,かつ高い正解率を持つことを示す.
著者
行野 顕正 田中 省作 冨浦洋一 柴田 雅博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.365-374, 2007-01-15
被引用文献数
1 2

スラッシュ・リーディングとは,意味のかたまりごとにスラッシュで区切られた英文を読むことにより,読解力の向上を目指す学習法である.多くのスラッシュ付き英文を読むことで,学習効果が上がると考えられるが,現在のところ十分な文書数のある学習教材が存在しないという問題がある.本稿では,統計的アプローチを用いて任意の英文にスラッシュを自動的に挿入する手法を提案する.英文中のスラッシュの位置を定める主な要因は,英文の部分的な構文構造・セグメント長のバランス・一部の単語であるという仮定に基づき,パラメトリックな確率モデルおよびSVM を構築する.既存の教材を学習データとしてモデルを学習することで,その教材のスラッシュ挿入規則を模倣したスラッシュ付き英文を作ることができる.3 つの既存教材を対象とした実験では,提案手法が,様々な教材におけるスラッシュ挿入規則を,従来手法よりも高い適合率・再現率で模倣できるという結果が示されている.In Slash Reading, learners read English sentences separated into segments (sense groups) with slashes to improve their reading skills. The more texts for Slash Reading a learner read, the more effect of learning could be expected. However, there are not enough materials for Slash Reading. This paper proposes methods for transforming automatically a plain sentence into a slashed sentence based on statistical approaches. A parametric model and a SVM model are built on the assumption that the factors to decide where to insert slashes into a sentence are a portion of the syntactic structure of the sentence, the lengths of the segments and words around the slashes. The models are learned from an existing material for Slash Reading. The systems based on these models, therefore, can transform automatically a plain sentence into a slashed sentence by imitating positions of slashes in the material. The results of the experiments using existing materials for Slash Reading indicate that the proposed methods imitate positions of slashes of the materials with the higher precision and recall than the previous methods.
著者
田中省作 冨浦洋一 宮崎佳典 小林雄一郎 徳見道夫
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.83-85, 2013-03-06

科学論文などの英語(EAP)には,EGPとよばれるような一般的な英語とは異なる表現や構成が求められる.さらに,それらは分野によっても大きく異なることが知られており,分野ごとの学術表現リストの作成はEAPにおける重要な課題の一つである.本研究では,近年,多くの研究機関で整備されつつある自組織の研究者が執筆した著作物を電子的に蓄積・公開しているデータベース・機関リポジトリに着目する.それらのデータを活用することで,当該機関が扱う研究分野に依拠したような,従来よりも粒度の細かい部局別の英語学術表現リストの効率的な作成支援を試みる.
著者
本木 実 冨浦洋一 高橋 直人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.8, pp.2779-2791, 2006-08-15
参考文献数
12

本論文では,記号列を入力し記号列を出力する階層型ニューラルネットの学習法を提案する.本論文で考察するモデルは,結合荷重だけでなく,各記号に対応する記号表現ベクトルも学習パラメータとする.この方式により,学習データの性質を反映した記号表現ベクトル(類似の使われ方をする記号の記号表現ベクトルが互いに近いベクトル)を学習することができ,予測能力の向上が期待できる.しかし,目的関数を平均二乗誤差とする通常のモデルでは,目的関数の値を最小にするタスクにとって無意味な解が存在し,出力ベクトルから記号の同定を行うと正解率がきわめて低いという問題がある.そこで本論文では,記号の同定を考慮した目的関数による学習法を提案する.実験により,提案モデルは,学習データの性質を反映した記号表現ベクトルの学習が可能であり,かつ高い正解率を持つことを示す.This paper proposes a learning method of a layered neural network whose inputs and outputs are symbol sequences. The learning parameters of the model we consider here are not only link weights but also symbol representation vectors (SRVs), each of which corresponds to each symbol. SRVs learned by this model can reflect characteristics of the training data, and are expected to lead to high performance in prediction. The conventional learning method whose objective function is mean square error has meaningless solutions for the task, which minimize the objective function. Moreover, the accuracy of the conventional model is very low when symbols are identified based on the output vectors. The learning method we propose has an objective function which is proper for identification of output symbols. Through the computational experiments, we also show that the proposed model acquires SRVs which reflect characteristics of the training data and have high performance.
著者
水田 貴章 柴田 雅博 冨浦洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.113, pp.91-98, 2008-11-19

コーパスベースで言語知識を獲得する場合には,その言語の大規模なコーパスが必要となる.Web 上には多種の言語で書かれた膨大な数の文書が存在するため,そこから文書を収集することによって様々な言語の大規模コーパスの構築が可能である.このとき,言語ごとのコーパスを構築するためには,まず,収集文書がどの言語で書かれているかを識別する必要がある.本論文では,仮説検定を導入した言語識別手法を提案する.この手法により,長い byte 列を用いた場合でも統計的な揺らぎの影響が小さい言語識別が可能となる.実験の結果,従来手法では識別が難しかった小さなサイズの文書に対しても高い精度で言語識別を行えることが確認できた.To get language knowledge based on a corpus, we need a large number of documents written in the language. In the web, there are a huge number of documents written in various languages, and we can construct corpora of various languages easily by gathering each language's documents from the web.The first step to construct corpora in this way is to identify the language of each gathered document.In this paper, we propose a language identification method using statistical hypothesis testing. The method is robust against the statistical fluctuation even when we use long and low-frequency symbol sequences as language features. Through experiments, the proposed method identified languages of short documents accurately, which the previous methods could not.