著者
竹中 要一 若尾 岳志
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.3, pp.193-212, 2012-09-30 (Released:2012-12-26)
参考文献数
24
被引用文献数
2 6

地方自治体が制定する条例(規則も含め,以下例規という)は,章節/条項号という階層を有する,基本的に構造化された文書である.各自治体はそれぞれ別個に各議会等でこの例規を制定するため,複数の自治体が同一の事柄に関する規定(例えば「淫行処罰規定」など)を有している事が多い.この同一の事柄に関する規定の自治体間における異同を明らかにするための比較は,法学教育や法学研究,地方自治体法務,企業法務において実施されている.実務における法の比較では,対応する条項を対とし,それらの条文を左右または上下に並べた条文対応表の作成が主体となっている.これまで条文対応表は手作業で作成されてきたが,対象とする例規の条数や文字数が多い場合の表作成には 3 時間以上も必要としていた.そのため計算機による条文対応表の作成支援が強く求められているが,本件に関する研究はこれまでに行われていない.そこで我々の研究は,条文対応表を計算機で自動作成することによる条文対応表の作成支援を目的とする.この目的を達成するため,我々は条文対応表を,各条をノードとする二部グラフとしてモデル化し,このモデルに基づき条文対応表を自動作成するために有効な手法の検討を行った.二文書間の類似度を定義する多くの研究がこれまでに報告されている.これらの類似度比較手法より本研究ではベクトル空間モデル,最長共通部分列,及び文字列アライメント(編集コスト可変のレーベンシュタイン距離)に基づく 96 個の類似尺度の性能を比較した.評価には愛媛県の 11 の条例とそれに対応する香川県の 11 の条例を用い,法学者が作成した条文対応表に基づき正解率を求めた.その結果,名詞,副詞,形容詞,動詞,連体詞を対象としたベクトル空間モデルに基づく類似尺度の正解率が 85% と最も高かった.また,文字列アライメントに基づく類似尺度の正解率は最高で 81%,最長共通部分列は最高で 75% であった.本研究は条文対応表の作成支援であるため,推定された対応関係の信頼度,あるいは尤もらしさを提示する事が望ましい.そこで各比較手法で最も正解率の高かったパラメータを用いた合計 3 つの類似尺度に対して受信者操作特性曲線による評価を行ったが,曲線下面積がいずれも狭くて信頼度の尺度として適さない.そこで,推定された対応関係の類似度を二番目に高い類似度を持つ対応関係の値で割る事による正規化を行ったところ,最長共通部分列の曲線下面積が 0.80 と最も高く,ベクトル空間モデルの面積は 0.79 と良好であった.以上の評価結果より,条文対応表の作成支援では条見出しに対して最長共通部分文字列を,条文に対してベクトル空間モデルをそれぞれ適用した類似尺度を併用する事が,そして得られた条文対応関係の信頼度を評価する尺度としては二番目に高い類似度で割った値を用いるとよい事を明らかにした.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.419-435, 2012-12-14
被引用文献数
1

近年,ウェブの情報を用いて,感染症などの疾病状態を監視するシステムに注目が集まっている.本研究では,ソーシャルメディアを用いたインフルエンザ・サーベイランスに注目する. これまでの多くのシステムは,単純な単語の頻度情報をもとに患者の状態を調査するというものであった.しかし,この方法では,実際に疾患にかかっていない場合の発言を収集してしまう恐れがある.また,そもそも,医療者でない個人の自発的な発言の集計が,必ずしもインフルエンザの流行と一致するとは限らない.本研究では,前者の問題に対応するため, 発言者が実際にインフルエンザにかかっているもののみを抽出し集計を行う.後者の問題に対して,発言と流行の時間的なずれを吸収するための感染症モデルを提案する.実験においては,Twitter の発言を材料にしたインフルエンザ流行の推定値は,感染症情報センターの患者数と相関係数 0.910 という高い相関を示し,その有効性を示した.本研究により,ソーシャルメディア上の情報をそのまま用いるのではなく,文章分類や疾患モデルと組み合わせて用いることで,さらに精度を向上できることが示された.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-46, 2003-01

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
小川 泰弘 釜谷 聡史 マフスット ムフタル 稲垣 康善
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.5, pp.39-61, 2004-10-10 (Released:2011-03-01)
参考文献数
18
被引用文献数
1

機械翻訳に対する要求の高まりに伴い, 日本語や英語, 韓国語といった言語の翻訳に関する研究が進み, 実用的なシステムが構築されつつある. その一方で, そうした研究があまり進んでいない言語が存在する. こうした言語においては, 翻訳の要である対訳辞書の整備も遅れている場合が多い. 一般に対訳辞書の構築には高いコストが必要であり, 機械翻訳システムを実現する上での障害となっている. しかし, 人間が翻訳作業をする場合, 対訳辞書に記載がない単語を別の表現に言い換えて辞書を引くことにより, この問題に対処する場合がある. 本研究ではこの手法を模倣し, 未登録語を登録語に言い換えることにより対訳辞書を拡充することを提案する. 本論文では, 対訳辞書の拡充に必要な単語の言い換え処理を収集段階と選抜段階の二つに分割し, 前者において語義文に基づく手法を, 後者において類似度に基づく手法をそれぞれ適用した. また, 類似度に基づく手法では, シソーラスにおける概念問の距離に加え, 単語を構成する漢字の語義を利用した. これによって, 語法や概念が近く意味的にも等価な言い換えを獲得できた. さらに, 獲得した言い換えを翻訳システムで翻訳して日本語一ウイグル語対訳辞書への追加を試みたところ, 未登録語300語のうち, その68.3%に対して利用可能な対訳が得られた.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-45, 2003-01-10
被引用文献数
40

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.In this paper, we propose a new idea of automatically recognizing domain specific terms from monolingual corpus. The majority of domain specific terms are compound nouns that we aim at extracting. Our idea is based on single-noun statistics calculated with single-noun bigrams. Namely we focus on how many nouns adjoin the noun in question to form compound nouns. In addition, we combine this measure and frequency of each compound nouns and single-nouns, which we call FLR method. We experimentally evaluate these methods on NTCIR1 TMREC test collection. As the results, when we take into account less than 1,400 or more than 12,000 highest term candidates, FLR method performs best.
著者
鶴岡 慶雅 近山 隆
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.3, pp.3-19, 2002-04

統計的クラス分類器としての決定リストは,近年自然言語処理における様々な分野でその有効性を示している.決定リストを構成する上で最も重要な問題の一つは,ルールの信頼度の算出法である.決定リストを用いた多くの研究では,最尤推定法と簡単なスムージングにより信頼度を算出しているが,理論的な根拠に欠け推定精度も高くないという問題がある.そこで本論文では,ベイズ学習法を利用してルールの信頼度を算出する手法を示す.さらに,証拠の種類ごとに異なる事前分布を利用することで,より正確な信頼度の推定が可能になり,決定リストの性能が向上することを示す.本手法の有効性を確かめるために,語義曖昧性解消の問題に決定リストを適用して実験を行なった.英語に関してはSenseval-1 のデータを用い,日本語に関しては疑似単語を用いた.その結果,ベイズ学習による信頼度推定手法が,ルールの確率値の推定精度を高め,決定リストの分類性能を向上させることを確認した.
著者
藤田 早苗 Kevin Duh 藤野 昭典 平 博順 進藤 裕之
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.3, pp.273-291, 2011 (Released:2011-10-04)
参考文献数
26
被引用文献数
1

本稿では,訓練データの自動拡張による語義曖昧性解消の精度向上方法について述べる.評価対象として,SemEval-2010 日本語語義曖昧性解消タスクを利用した.本稿では,まず,配布された訓練データのみを利用して学習した場合の結果を紹介する.更に,辞書の例文,配布データ以外のセンスバンク,ラベルなしコーパスなど,さまざまなコーパスを利用して,訓練データの自動拡張を試みた結果を紹介する.本稿では,訓練データの自動獲得により 79.5% の精度を得ることができた.更に,対象語の難易度に基づき,追加する訓練データの上限を制御したところ,最高 80.0% の精度を得ることができた.
著者
鍜治 伸裕 黒橋 禎夫
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.11, no.1, pp.81-106, 2004-01-10
被引用文献数
4

言い換え処理は, 様々な自然言語処理アプリケーションで必要とされている非常に重要な技術である. 言い換え処理の一つとして, 本論文では「名詞+格助詞+動詞」という形の迂言表現と重複表現を国語辞典を用いて認識し, さらにそれらを言い換える手法を提案する. 迂言表現とは, 動詞が動作を表していない表現や, 名詞が動作の主体や対象を表わさずに動作の状態を表している表現のことである. そして重複表現とは, 動詞と名詞の問に意味の重複がある表現のことである. これらの表現には, 多くの場合, 同じ意味をより簡潔な形であらわした表現が存在する. 提案手法の認識処理と言い換え処理の精度を二人の被験者が判断したところ, 認識処理の精度は, 平均して適合率78%, 再現率52%であった. また, 言い換え処理の精度は平均して91%であった.
著者
江原 遥 田中 久美子
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.5, pp.151-167, 2008-10

近年,国際化に伴い,多くの言語を頻繁に切り替えて入力する機会が増えている.既存のテキスト入力システムにおいては,言語が切り替わるたびに,ユーザーが手動で,テキスト入力ソフトウェア(IME)を切り替えなければならない点が,ユーザーにとって負担になっていた.この問題を解決するために,本論文では,多言語を入力する際にユーザーの負担を軽減するシステム,TypeAnyを提案する.TypeAnyは,ユーザーが行うキー入力からユーザーが入力しようとしている言語を判別して,IMEの切り替えを自動で行う.これによって,ユーザーがIMEを切り替える操作量が減るため,複数の言語をスムーズに切り替えながら入力することが可能になる.本研究では,隠れマルコフモデルを用いて言語の判別をモデル化し,モデルにおける確率をppM法を用いて推定することでTypeAnyを実装し,その有用性を評価した.その結果,人工的なコーパスにおける3言語間の判別において,96.7% の判別精度を得た.また,実際に多言語を含む文書を用いて実験したところ,切り替えに必要な操作の数が,既存の手法に比べて93%減少した