著者
柴木 優美 永田 昌明 山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.4, pp.229-279, 2012-12-14

Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した.Wikipedia の記事にはカテゴリが付与され,そのカテゴリは他のカテゴリとリンクして階層構造を作っている.Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある.(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており,これをそのまま利用してオントロジーを構成することは適切でない.(2) Wikipedia のカテゴリ間,及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため,is-a 関係でないリンク関係が多く存在する.これに対して我々は (1) を解決するため,上位のカテゴリ階層を新しく定義し,Wikipedia の上位階層を削除して置き換えた.さらに (2) を解決するため,Wikipedia のカテゴリ間,及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで,Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した.本論文では not-is-a 関係を判定するための 3 つの手法を適用した.これにより,"人","組織","施設","地名","地形","具体物","創作物","動植物","イベント"の 9 種類の意味属性を最上位カテゴリとした,1 つに統一された is-a 関係のオントロジーを構築した.実験の結果,is-a 関係の精度は,カテゴリ間で適合率 95.3%, 再現率 96.6%,カテゴリ‐記事間で適合率 96.2%,再現率 95.6%と高精度であった.提案手法により,全カテゴリの 84.5%(約 34,000 件),全記事の 88.6%(約 422,000 件)をオントロジー化できた.
著者
東条 敏
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.2, pp.1-2, 2007-04-10 (Released:2011-03-01)
著者
竹中 要一 若尾 岳志
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.3, pp.193-212, 2012-09-30 (Released:2012-12-26)
参考文献数
24
被引用文献数
2 6

地方自治体が制定する条例(規則も含め,以下例規という)は,章節/条項号という階層を有する,基本的に構造化された文書である.各自治体はそれぞれ別個に各議会等でこの例規を制定するため,複数の自治体が同一の事柄に関する規定(例えば「淫行処罰規定」など)を有している事が多い.この同一の事柄に関する規定の自治体間における異同を明らかにするための比較は,法学教育や法学研究,地方自治体法務,企業法務において実施されている.実務における法の比較では,対応する条項を対とし,それらの条文を左右または上下に並べた条文対応表の作成が主体となっている.これまで条文対応表は手作業で作成されてきたが,対象とする例規の条数や文字数が多い場合の表作成には 3 時間以上も必要としていた.そのため計算機による条文対応表の作成支援が強く求められているが,本件に関する研究はこれまでに行われていない.そこで我々の研究は,条文対応表を計算機で自動作成することによる条文対応表の作成支援を目的とする.この目的を達成するため,我々は条文対応表を,各条をノードとする二部グラフとしてモデル化し,このモデルに基づき条文対応表を自動作成するために有効な手法の検討を行った.二文書間の類似度を定義する多くの研究がこれまでに報告されている.これらの類似度比較手法より本研究ではベクトル空間モデル,最長共通部分列,及び文字列アライメント(編集コスト可変のレーベンシュタイン距離)に基づく 96 個の類似尺度の性能を比較した.評価には愛媛県の 11 の条例とそれに対応する香川県の 11 の条例を用い,法学者が作成した条文対応表に基づき正解率を求めた.その結果,名詞,副詞,形容詞,動詞,連体詞を対象としたベクトル空間モデルに基づく類似尺度の正解率が 85% と最も高かった.また,文字列アライメントに基づく類似尺度の正解率は最高で 81%,最長共通部分列は最高で 75% であった.本研究は条文対応表の作成支援であるため,推定された対応関係の信頼度,あるいは尤もらしさを提示する事が望ましい.そこで各比較手法で最も正解率の高かったパラメータを用いた合計 3 つの類似尺度に対して受信者操作特性曲線による評価を行ったが,曲線下面積がいずれも狭くて信頼度の尺度として適さない.そこで,推定された対応関係の類似度を二番目に高い類似度を持つ対応関係の値で割る事による正規化を行ったところ,最長共通部分列の曲線下面積が 0.80 と最も高く,ベクトル空間モデルの面積は 0.79 と良好であった.以上の評価結果より,条文対応表の作成支援では条見出しに対して最長共通部分文字列を,条文に対してベクトル空間モデルをそれぞれ適用した類似尺度を併用する事が,そして得られた条文対応関係の信頼度を評価する尺度としては二番目に高い類似度で割った値を用いるとよい事を明らかにした.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.419-435, 2012-12-14
被引用文献数
1

近年,ウェブの情報を用いて,感染症などの疾病状態を監視するシステムに注目が集まっている.本研究では,ソーシャルメディアを用いたインフルエンザ・サーベイランスに注目する. これまでの多くのシステムは,単純な単語の頻度情報をもとに患者の状態を調査するというものであった.しかし,この方法では,実際に疾患にかかっていない場合の発言を収集してしまう恐れがある.また,そもそも,医療者でない個人の自発的な発言の集計が,必ずしもインフルエンザの流行と一致するとは限らない.本研究では,前者の問題に対応するため, 発言者が実際にインフルエンザにかかっているもののみを抽出し集計を行う.後者の問題に対して,発言と流行の時間的なずれを吸収するための感染症モデルを提案する.実験においては,Twitter の発言を材料にしたインフルエンザ流行の推定値は,感染症情報センターの患者数と相関係数 0.910 という高い相関を示し,その有効性を示した.本研究により,ソーシャルメディア上の情報をそのまま用いるのではなく,文章分類や疾患モデルと組み合わせて用いることで,さらに精度を向上できることが示された.
著者
小川 泰弘 釜谷 聡史 マフスット ムフタル 稲垣 康善
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.5, pp.39-61, 2004-10-10 (Released:2011-03-01)
参考文献数
18
被引用文献数
1

機械翻訳に対する要求の高まりに伴い, 日本語や英語, 韓国語といった言語の翻訳に関する研究が進み, 実用的なシステムが構築されつつある. その一方で, そうした研究があまり進んでいない言語が存在する. こうした言語においては, 翻訳の要である対訳辞書の整備も遅れている場合が多い. 一般に対訳辞書の構築には高いコストが必要であり, 機械翻訳システムを実現する上での障害となっている. しかし, 人間が翻訳作業をする場合, 対訳辞書に記載がない単語を別の表現に言い換えて辞書を引くことにより, この問題に対処する場合がある. 本研究ではこの手法を模倣し, 未登録語を登録語に言い換えることにより対訳辞書を拡充することを提案する. 本論文では, 対訳辞書の拡充に必要な単語の言い換え処理を収集段階と選抜段階の二つに分割し, 前者において語義文に基づく手法を, 後者において類似度に基づく手法をそれぞれ適用した. また, 類似度に基づく手法では, シソーラスにおける概念問の距離に加え, 単語を構成する漢字の語義を利用した. これによって, 語法や概念が近く意味的にも等価な言い換えを獲得できた. さらに, 獲得した言い換えを翻訳システムで翻訳して日本語一ウイグル語対訳辞書への追加を試みたところ, 未登録語300語のうち, その68.3%に対して利用可能な対訳が得られた.
著者
藤田 早苗 Kevin Duh 藤野 昭典 平 博順 進藤 裕之
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.3, pp.273-291, 2011 (Released:2011-10-04)
参考文献数
26
被引用文献数
1

本稿では,訓練データの自動拡張による語義曖昧性解消の精度向上方法について述べる.評価対象として,SemEval-2010 日本語語義曖昧性解消タスクを利用した.本稿では,まず,配布された訓練データのみを利用して学習した場合の結果を紹介する.更に,辞書の例文,配布データ以外のセンスバンク,ラベルなしコーパスなど,さまざまなコーパスを利用して,訓練データの自動拡張を試みた結果を紹介する.本稿では,訓練データの自動獲得により 79.5% の精度を得ることができた.更に,対象語の難易度に基づき,追加する訓練データの上限を制御したところ,最高 80.0% の精度を得ることができた.