著者
増田 知子 角田 篤泰 中村 誠 佐野 智也 小川 泰弘
出版者
名古屋大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2015-04-01

本研究は「昭和天皇実録」を用い、情報の抽出・加工を行うことで、天皇を頂点とする権威的秩序と明治期から戦後まで続いた寡頭政の変遷を分析することを目的とする。(a)宮内庁から入手したデータからテキストデータを作成し、拝謁者等の氏名・肩書の抽出を行った。結果、44322種類の肩書と人名のセットを抽出できた。出現回数の多い肩書を見ると、親王、内大臣、宮内大臣が上位に来ることがわかった。また、1941-44年について、人物ごとに月ごとの拝謁回数をグラフ化したところ、歴史的事件との相関関係が見いだせる可能性が高いとわかった。(b)(a)に関連し、『法律新聞』のデータ整備を行い検索データベースを完成させた。
著者
外山 勝彦 小川 泰弘 松原 茂樹 角田 篤泰 BENNETT F・GEROGE Jr. 松浦 好治
出版者
名古屋大学
雑誌
萌芽研究
巻号頁・発行日
2005

本研究は,計算機による法制執務支援システムの開発を目的とし,特に,膨大な数の法令文書の構造化により,法令改正に伴う法令統合作業の自動化,高度化,迅速化が可能であることを明らかにする.本年度は,法令自動統合システムの実現と検証に関して,次の研究を行った.1.法令文書用DTDの拡充前年度に引き続き,わが国の法令文書の構造化のための文書型定義(DTD)を拡充した.特に,表,改正規定など,法令文書中に出現する複雑な構造を定式化する手法を明らかにした.2.法令文書自動タグ付けツールの拡充前年度までに開発した法令文書自動タグ付けツールを拡充したDTDに対応させるとともに,スクリプト化により使い勝手を向上させた.3.法令自動統合システムの実現と検証法令自動統合システムのプロトタイプを開発した.また,同システムの動作検証のために,法律17本(改め節965,改正箇所4,355)の新規制定時バージョンから一部改正法令に従って自動統合を繰り返し,現行バージョンと比較する実験を実施したところ,原データの誤植に伴うエラー,文字列の置換において,置換箇所の前後の文脈に注意して実行しなければならない場合を除き,良好な結果を得た.4.構造化法令データの蓄積主要法令101本の日本語原文および英訳,および,昭和22〜23年に新規制定された法律約300本について,構造化法令データを作成,蓄積した.なお,前者の構造化には,上述のタグ付けツールを用いた.
著者
外山 勝彦 小川 泰弘 角田 篤泰 松浦 好治
出版者
名古屋大学
雑誌
基盤研究(B)
巻号頁・発行日
2011-04-01

本研究の目的は,法令文作成支援と法令英訳支援のために,法令のターミノロジーおよび翻訳メモリの構築と利用のための手法と環境を確立することである.研究の結果,戦後のすべての日本語法律からなるコーパス(法律10,067本),戦後占領期における文対応付き日英対訳法律コーパス(法律1,624本,日英対訳156,562文)),法令翻訳メモリ(法令259本,日英対訳147,119文)を構築した.また,チャンキングや文書出現頻度を用いて法令用語を抽出する手法,対訳文からの対訳語彙意味カテゴリ自動抽出手法,法令用語とその語義文や法令用語間の関係を抽出する手法などを開発した.
著者
小川 泰弘 稲垣 康善 ムフタル・マフスット
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.114(1996-NL-116), pp.7-12, 1996-11-18

日本語の膠着言語の性質と音韻論的性質に注目した清瀬の派生文法では、活用という考え方を用いないで動詞接尾辞を考えることにより、動詞語形の形成を単純かつ体系的に取り扱うことを可能としている。本稿では、派生文法に基づく日本語形態素解析法を提案し、不規則動詞を含む各種の動詞語形の変化を簡単に解析できることを示す。また従来異形態の登録で対処されてきた音便形に対して、後方からの検索と子音の補完により余分な辞書登録をしないで解析する手法を提案し、その有効性を示す。
著者
山腰 貴大 小川 泰弘 駒水 孝裕 外山 勝彦
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.1, pp.H-J53_1-14, 2020-01-01 (Released:2020-01-01)
参考文献数
20

We propose a method that assists legislation drafters in finding inappropriate use of Japanese legal terms and their corrections from Japanese statutory sentences. In particular, we focus on sets of similar legal terms whose usages are strictly defined in legislation drafting rules that have been established over the years. In this paper, we first define input and output of legal term correction task. We regard it as a special case of sentence completion test with multiple choices. Next, we describe a legal term correction method for Japanese statutory sentences. Our method predicts suitable legal terms using Random Forest classifiers. The classifiers in our method use adjacent words to a target legal term as input features, and are optimized in various parameters including the number of adjacent words to be used for each legal term set. We conduct an experiment using actual statutory sentences from 3,983 existing acts and cabinet orders that consist of approximately 47M words in total. As for legal term sets, we pick 27 sets from legislation drafting manuals. The experimental result shows that our method outperformed existing modern word prediction methods using neural language models and that each Random Forest classifier utilizes characteristics of its corresponding legal term set.
著者
角田 篤泰 松浦 好治 外山 勝彦 小川 泰弘
出版者
名古屋大学
雑誌
基盤研究(A)
巻号頁・発行日
2012-04-01

e-Legislation(電子立法)の方法論の研究とこれに基づく支援システムの提供を行った。その結果として、条例・規則(=例規)のデータベース・システムを開発・提供し、全国の約半数の自治体で利用されるようになった。これによって自治体の立法作業に役立つことができた。このデータベースは我が国で初めての大規模な例規データベースであり、実際にその統計情報なども発表して、例規を定量分析できる学問的基盤を与えることにもなった。このシステムにはスーパーコンピュータを利用した例規分類機能や立法作業の支援機能も装備されている。さらに、この研究過程で法政策の形式的記述方法や定義条項の執筆方法論も提案した。
著者
外山 勝彦 小川 泰弘 大野 誠寛 中村 誠 角田 篤泰 松浦 好治
出版者
名古屋大学
雑誌
基盤研究(A)
巻号頁・発行日
2014-04-01

本研究の目的は,日本法の動きに関する情報を即時に,分かりやすく国際発信するための支援環境の構築である.特に,統計的機械翻訳の利用とターミノロジーの構築により,法令の要約である「法令のあらまし」の翻訳・理解・発信を支援する手法とその有効性を示す.本研究の結果,「法令のあらまし」に対する日英統計的機械翻訳手法と文書構造化手法,複単語表現対訳辞書の構築手法とそれを用いた統計的機械翻訳手法の開発,法令改正に伴う法令ターミノロジーの経時変化の抽出・可視化手法などを開発した.また,「英文官報」からの対訳法令用語2,750語の抽出や,現在有効な定義語6,890語からなる法令ターミノロジーの構築も行った.
著者
萩原 正人 小川 泰弘 外山 勝彦
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.26, no.3, pp.440-450, 2011 (Released:2011-04-01)
参考文献数
32
被引用文献数
1 1

Extraction of named entitiy classes and their relationships from large corpora often involves morphological analysis of target sentences and tends to suffer from out-of-vocabulary words. In this paper we propose a semantic category extraction algorithm called Monaka and its graph-based extention g-Monaka, both of which use character n-gram based patterns as context to directly extract semantically related instances from unsegmented Japanese text. These algorithms also use ``bidirectional adjacent constraints,'' which states that reliable instances should be placed in between reliable left and right context patterns, in order to improve proper segmentation. Monaka algorithms uses iterative induction of instaces and pattens similarly to the bootstrapping algorithm Espresso. The g-Monaka algorithm further formalizes the adjacency relation of character n-grams as a directed graph and applies von Neumann kernel and Laplacian kernel so that the negative effect of semantic draft, i.e., a phenomenon of semantically unrelated general instances being extracted, is reduced. The experiments show that g-Monaka substantially increases the performance of semantic category acquisition compared to conventional methods, including distributional similarity, bootstrapping-based Espresso, and its graph-based extension g-Espresso, in terms of F-value of the NE category task from unsegmented Japanese newspaper articles.
著者
小川 泰弘
出版者
社団法人人工知能学会
雑誌
人工知能学会誌 (ISSN:09128085)
巻号頁・発行日
vol.16, no.6, 2001-11-01

本論文は, 膠着語の特徴に着目した派生文法を利用することによる日本語形態素解析処理および, 日本語-ウイグル語機械翻訳について論じたものであり, 6章よりなる.第1章の「まえがき」に続き, 第2章の「日本語文法概説」では, 日本語文法について, 動詞の活用の扱い方を中心に簡単に紹介する.特に従来の学校文法の問題点を指摘するとともに, Bloch, 寺村の文法および清瀬の派生文法について比較しながら説明する.第3章の「派生文法に基づく形態素解析」では, 本研究で開発した日本語形態素解析システムMAJOについて述べる.MAJOは, 派生文法の特徴を活かすことで, 従来よりも文法規則が単純な解析を実現している.また, EDRコーパスを用いた形態素解析実験を通じて, MAJOの性能を評価している.第4章の「派生文法に基づく日本語動詞句のウイグル語への翻訳」では, 日本語-ウイグル語機械翻訳における動詞句の逐語翻訳について, まず日本語一ウイグル語機械翻訳における派生文法の有用性について述べ, さらに単純な逐語訳では不自然な訳になる場合への対処法を示す.第5章の「形態素解析支援可視化と機械翻訳における訳語選択への応用」では, 本研究で開発した形態素解析の結果を可視化するシステムを示すとともに, それが日本語-ウイグル語機械翻訳における訳語選択にも応用可能であることを示す.量後に第6章で本論文のまとめと, 残された課題, 将来への展望について述べる.
著者
小川 泰弘 佐藤 充晃 駒水 孝裕 外山 勝彦
出版者
一般社団法人 人工知能学会
巻号頁・発行日
pp.4E2OS7a02, 2019 (Released:2019-06-01)

本研究の目標は,日本法令の要約を提供することである.そのためにランダムフォレストによる重要文抽出に基づく自動要約を提案する. 従来の自動要約に関する研究においては,原文書の情報のみが用いられてきた.近年では機械学習に基づく手法なども提案されている. しかし,そうした機械学習において利用される学習データの量は,特に日本語においては,充分でなかった. それに対し,本研究の法令の要約においては,政府が作成する「法令のあらまし」を利用することにより,この問題を解決する. さらに,従来利用されてきた決定木やSVMを使った手法に代えて,ランダムフォレストを用いた重要文抽出を提案し,その性能が従来手法を上回ることを示す. 本論文の貢献は,従来よりもサイズの大きな要約用コーパスを作成した点と,重要文抽出におけるランダムフォレストの有効性を確認した点にある.
著者
松浦 好治 鈴木 賢 宇田川 幸則 樋口 範雄 BENNETT F. G. Jr. 姜 東局 岡 克彦 外山 勝彦 小川 泰弘 角田 篤泰 増田 知子 中村 誠 佐野 智也 SHEE Huey-Ling HWANG Ren-Hung DING Xiang-shun LEE Heejeoung
出版者
名古屋大学
雑誌
基盤研究(S)
巻号頁・発行日
2011-04-01

本研究は、日中韓台・漢字文化圏の法情報について、深い相互理解と比較法研究の推進を目的とし、次の成果を得た。法情報共有の環 境整備として、各国研究者と共同で、中韓台法令とその英訳の対訳約14万文、英文官報の画像と日英対訳約16万文を集積するとともに、4法域法令用語標準対訳辞書の項目候補約13,000語の検討を推進した。また、日本法令の機械翻訳や文書構造化の手法を開発した。一方、分かりやすい法情報の提供事例として韓国とEUを調査するとともに、特定分野の理解を促進する法情報パッケージLawPackの例を構築した。また、地方自治体例規約98万本を蓄積・横断検索するシステムeLenを開発した。
著者
小川 泰弘 釜谷 聡史 マフスット ムフタル 稲垣 康善
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.5, pp.39-61, 2004-10-10 (Released:2011-03-01)
参考文献数
18
被引用文献数
1

機械翻訳に対する要求の高まりに伴い, 日本語や英語, 韓国語といった言語の翻訳に関する研究が進み, 実用的なシステムが構築されつつある. その一方で, そうした研究があまり進んでいない言語が存在する. こうした言語においては, 翻訳の要である対訳辞書の整備も遅れている場合が多い. 一般に対訳辞書の構築には高いコストが必要であり, 機械翻訳システムを実現する上での障害となっている. しかし, 人間が翻訳作業をする場合, 対訳辞書に記載がない単語を別の表現に言い換えて辞書を引くことにより, この問題に対処する場合がある. 本研究ではこの手法を模倣し, 未登録語を登録語に言い換えることにより対訳辞書を拡充することを提案する. 本論文では, 対訳辞書の拡充に必要な単語の言い換え処理を収集段階と選抜段階の二つに分割し, 前者において語義文に基づく手法を, 後者において類似度に基づく手法をそれぞれ適用した. また, 類似度に基づく手法では, シソーラスにおける概念問の距離に加え, 単語を構成する漢字の語義を利用した. これによって, 語法や概念が近く意味的にも等価な言い換えを獲得できた. さらに, 獲得した言い換えを翻訳システムで翻訳して日本語一ウイグル語対訳辞書への追加を試みたところ, 未登録語300語のうち, その68.3%に対して利用可能な対訳が得られた.
著者
萩原 正人 小川 泰弘 外山 勝彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.22, pp.71-78, 2005-03-11
参考文献数
16
被引用文献数
2

大規模コーパスから語の類似関係を得るためには,語の共起関係や文脈などの特徴を利用する方法が一般的である.しかし,語に関する表層的な特徴をそのまま用いる手法には,ノイズの混入やスパースネスなどの問題がある.本稿では,確率論・情報理論に基づく潜在意味モデルであるPLSIを用い,語の潜在意味を推定することによって名詞間の類似関係を求める.評価実験の結果,tf・idfやLSIなどの従来手法と比較してPLSIの性能が最も高く,シソーラス自動構築におけるPLSIの有用性を明らかにした.また,PLSIを類義語の自動獲得へ適用する際の様々な基礎的利用技術についても報告する.A common way to obtain synonym relationships from large corpora is to utilize the features such as cooccurrence and words' context. However, methods based on direct use of surface information concerning to words suffer from noises and sparseness. This paper describes how to utilize PLSI, which is a latent semantic model based on probability theory and information theory, to infer the meaning of words and obtain synonym relationships between nouns. An experiment has shown that PLSI achieves the best performance compared to conventional methods such as tf・idf and LSI, which shows the effectiveness of PLSI for automated construction of thesauri. Various useful techniques when applying PLSI to automatic acquisition of synonyms are also discussed.