著者
安村 禎明 坂野 大作 上原 邦昭
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.297-313, 2007-04-10 (Released:2011-03-01)
参考文献数
11

本論文では, Web上の評判情報を有益に活用するために, レビューなどの評価文書をポジティブ (おすすめ) とネガティブ (おすすめしない) という極性値に分類する手法を提案する. 本手法では, 全体評判情報と部分評判情報という2つのレベルで評判情報を捉える. 全体評判情報とは評価文書の対象全般に関わる評価表現のことを指し, 部分評判情報とは対象の一属性に関する評価表現のことを指す. 全体評判情報の極性値は評価文書の極性値と一致すると考えられるため, まず全体評判情報を用いて評価文書を分類し, 全体評判情報がない場合は部分評判情報を用いて分類する. これら2つのレベルの評判情報を考慮することで分類精度の向上が期待できる. さらに, これら2つのレベルの評判情報を用いることで, 評判情報の信頼性評価の一手法を提案する. ここでは, 評価文書の極性値とその中の部分評判情報の極性値が異なる場合にその部分評判情報は信頼性が高いと評価する. 映画のレビューを用いた評価実験の結果, ナイーブベイズを用いた分類手法よりも本手法の方が良い結果が得られた. また, 提案した評価指標が評価文書の信頼性評価の1つとなりうることを示唆した.
著者
松林 優一郎 岡崎 直観 辻井 潤一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.4, pp.4_59-4_89, 2010 (Released:2011-06-09)
参考文献数
26

FrameNet,PropBank といった意味タグ付きコーパスの出現とともに,機械学習の枠組みを利用した自動意味役割付与システムが数多く研究されてきた.しかし,これらのコーパスは個々のフレームに固有の意味役割を定義するため,コーパス中に低頻度,或いは未出現の意味役割が数多く存在し,効率的な学習を妨げている.本論文は,意味役割付与における意味役割の汎化問題を取り上げ,既存の汎化指標と新たに提案する指標を役割の分類精度を通して比較し,それぞれの特徴を探求する.また,複数の汎化指標を同時に利用する分類モデルが自動意味役割付与の精度を向上させることを示す.実験では,FrameNet において全体の精度で 19.16% のエラー削減,F1 マクロ平均で 7.42% の向上を,PropBank において全体の精度で 24.07% のエラー削減,未知動詞に対するテストで 26.39% のエラー削減を達成した.
著者
保田 祥 小西 光 浅原 正幸 今田 水穂 前川 喜久雄
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.5, pp.657-681, 2013-12-13 (Released:2014-03-13)
参考文献数
22

時間情報抽出は大きく分けて時間情報表現抽出,時間情報正規化,時間的順序関係解析の三つのタスクに分類される.一つ目の時間情報表現抽出は,固有表現・数値表現抽出の部分問題として解かれてきた.二つ目の時間情報正規化は書き換え系により解かれることが多い.三つ目のタスクである時間的順序関係解析は,事象の時間軸上への対応付けと言い換えることができる.日本語においては時間的順序関係解析のための言語資源が整備されているとは言い難く,アノテーション基準についても研究者で共有されているものはない.本論文では国際標準である ISO-TimeML を日本語に適応させた時間的順序関係アノテーション基準を示す.我々は『現代日本語書き言葉均衡コーパス』(BCCWJ) の新聞記事の部分集合に対して,動詞・形容詞事象表現に TimeML の 〈EVENT〉 相当タグを付与し,その事象の性質に基づき分類を行った.また,この事象表現と先行研究 (小西, 浅原, 前川 2013) により付与されている時間情報表現との間の関係として,TimeML の 〈TLINK〉 相当タグを付与した.事実に基づき統制可能な時間情報正規化と異なり,事象構造の時間的順序関係の認識は言語受容者間で異なる傾向がある.このようなレベルのアノテーションにおいては唯一無二の正解データを作ることは無意味である.むしろ,言語受容者がいかに多様な判断を行うかを評価する被験者実験的なアノテーションが求められている.そこで,本研究では三人の作業者によるアノテーションにおける時間的順序関係認識の齟齬の傾向を分析した.アノテーション結果から,時間軸上の相対的な順序関係については一致率が高い一方,時区間の境界については一致率が低いことがわかった.
著者
江村 優花 関 洋平
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.401-418, 2012-12-14 (Released:2013-03-19)
参考文献数
21
被引用文献数
1 2

現在,電子メール,チャット,マイクロブログなどのメディアで,顔文字は日常的に使用されている.顔文字は,言語コミュニケーションで表現できない,ユーザの感情やコミュニケーションの意図を表すのに便利であるが,反面,その種類は膨大であり,場面に合った顔文字を選ぶことは難しい.本研究では,ユーザの顔文字選択支援を目的として,ユーザが入力したテキストに現れる感情,コミュニケーション,動作のタイプ推定を行い,顔文字を推薦する方法を提案する.感情,コミュニケーション,動作のタイプは,Twitter から収集したコーパスを用いてカテゴリを定義し,推定システムは,k-NN に基づき実現した.また,システムが推薦する顔文字がユーザの意図にどの程度適合しているか,5名の被験者により評価した結果,91件のつぶやきに対して66.6%の顔文字が適切に推定されており,感情カテゴリのみを用いて推薦された結果と比べて,提案手法の顔文字推薦の精度が有意に向上していることがわかった.
著者
東条 敏
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.2, pp.1-2, 2007-04-10 (Released:2011-03-01)
著者
竹中 要一 若尾 岳志
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.3, pp.193-212, 2012-09-30 (Released:2012-12-26)
参考文献数
24
被引用文献数
2 6

地方自治体が制定する条例(規則も含め,以下例規という)は,章節/条項号という階層を有する,基本的に構造化された文書である.各自治体はそれぞれ別個に各議会等でこの例規を制定するため,複数の自治体が同一の事柄に関する規定(例えば「淫行処罰規定」など)を有している事が多い.この同一の事柄に関する規定の自治体間における異同を明らかにするための比較は,法学教育や法学研究,地方自治体法務,企業法務において実施されている.実務における法の比較では,対応する条項を対とし,それらの条文を左右または上下に並べた条文対応表の作成が主体となっている.これまで条文対応表は手作業で作成されてきたが,対象とする例規の条数や文字数が多い場合の表作成には 3 時間以上も必要としていた.そのため計算機による条文対応表の作成支援が強く求められているが,本件に関する研究はこれまでに行われていない.そこで我々の研究は,条文対応表を計算機で自動作成することによる条文対応表の作成支援を目的とする.この目的を達成するため,我々は条文対応表を,各条をノードとする二部グラフとしてモデル化し,このモデルに基づき条文対応表を自動作成するために有効な手法の検討を行った.二文書間の類似度を定義する多くの研究がこれまでに報告されている.これらの類似度比較手法より本研究ではベクトル空間モデル,最長共通部分列,及び文字列アライメント(編集コスト可変のレーベンシュタイン距離)に基づく 96 個の類似尺度の性能を比較した.評価には愛媛県の 11 の条例とそれに対応する香川県の 11 の条例を用い,法学者が作成した条文対応表に基づき正解率を求めた.その結果,名詞,副詞,形容詞,動詞,連体詞を対象としたベクトル空間モデルに基づく類似尺度の正解率が 85% と最も高かった.また,文字列アライメントに基づく類似尺度の正解率は最高で 81%,最長共通部分列は最高で 75% であった.本研究は条文対応表の作成支援であるため,推定された対応関係の信頼度,あるいは尤もらしさを提示する事が望ましい.そこで各比較手法で最も正解率の高かったパラメータを用いた合計 3 つの類似尺度に対して受信者操作特性曲線による評価を行ったが,曲線下面積がいずれも狭くて信頼度の尺度として適さない.そこで,推定された対応関係の類似度を二番目に高い類似度を持つ対応関係の値で割る事による正規化を行ったところ,最長共通部分列の曲線下面積が 0.80 と最も高く,ベクトル空間モデルの面積は 0.79 と良好であった.以上の評価結果より,条文対応表の作成支援では条見出しに対して最長共通部分文字列を,条文に対してベクトル空間モデルをそれぞれ適用した類似尺度を併用する事が,そして得られた条文対応関係の信頼度を評価する尺度としては二番目に高い類似度で割った値を用いるとよい事を明らかにした.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-46, 2003-01

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
小川 泰弘 釜谷 聡史 マフスット ムフタル 稲垣 康善
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.5, pp.39-61, 2004-10-10 (Released:2011-03-01)
参考文献数
18
被引用文献数
1

機械翻訳に対する要求の高まりに伴い, 日本語や英語, 韓国語といった言語の翻訳に関する研究が進み, 実用的なシステムが構築されつつある. その一方で, そうした研究があまり進んでいない言語が存在する. こうした言語においては, 翻訳の要である対訳辞書の整備も遅れている場合が多い. 一般に対訳辞書の構築には高いコストが必要であり, 機械翻訳システムを実現する上での障害となっている. しかし, 人間が翻訳作業をする場合, 対訳辞書に記載がない単語を別の表現に言い換えて辞書を引くことにより, この問題に対処する場合がある. 本研究ではこの手法を模倣し, 未登録語を登録語に言い換えることにより対訳辞書を拡充することを提案する. 本論文では, 対訳辞書の拡充に必要な単語の言い換え処理を収集段階と選抜段階の二つに分割し, 前者において語義文に基づく手法を, 後者において類似度に基づく手法をそれぞれ適用した. また, 類似度に基づく手法では, シソーラスにおける概念問の距離に加え, 単語を構成する漢字の語義を利用した. これによって, 語法や概念が近く意味的にも等価な言い換えを獲得できた. さらに, 獲得した言い換えを翻訳システムで翻訳して日本語一ウイグル語対訳辞書への追加を試みたところ, 未登録語300語のうち, その68.3%に対して利用可能な対訳が得られた.
著者
鶴岡 慶雅 近山 隆
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.3, pp.3-19, 2002-04

統計的クラス分類器としての決定リストは,近年自然言語処理における様々な分野でその有効性を示している.決定リストを構成する上で最も重要な問題の一つは,ルールの信頼度の算出法である.決定リストを用いた多くの研究では,最尤推定法と簡単なスムージングにより信頼度を算出しているが,理論的な根拠に欠け推定精度も高くないという問題がある.そこで本論文では,ベイズ学習法を利用してルールの信頼度を算出する手法を示す.さらに,証拠の種類ごとに異なる事前分布を利用することで,より正確な信頼度の推定が可能になり,決定リストの性能が向上することを示す.本手法の有効性を確かめるために,語義曖昧性解消の問題に決定リストを適用して実験を行なった.英語に関してはSenseval-1 のデータを用い,日本語に関しては疑似単語を用いた.その結果,ベイズ学習による信頼度推定手法が,ルールの確率値の推定精度を高め,決定リストの分類性能を向上させることを確認した.
著者
藤田 早苗 Kevin Duh 藤野 昭典 平 博順 進藤 裕之
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.3, pp.273-291, 2011 (Released:2011-10-04)
参考文献数
26
被引用文献数
1

本稿では,訓練データの自動拡張による語義曖昧性解消の精度向上方法について述べる.評価対象として,SemEval-2010 日本語語義曖昧性解消タスクを利用した.本稿では,まず,配布された訓練データのみを利用して学習した場合の結果を紹介する.更に,辞書の例文,配布データ以外のセンスバンク,ラベルなしコーパスなど,さまざまなコーパスを利用して,訓練データの自動拡張を試みた結果を紹介する.本稿では,訓練データの自動獲得により 79.5% の精度を得ることができた.更に,対象語の難易度に基づき,追加する訓練データの上限を制御したところ,最高 80.0% の精度を得ることができた.
著者
江原 遥 田中 久美子
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.5, pp.151-167, 2008-10

近年,国際化に伴い,多くの言語を頻繁に切り替えて入力する機会が増えている.既存のテキスト入力システムにおいては,言語が切り替わるたびに,ユーザーが手動で,テキスト入力ソフトウェア(IME)を切り替えなければならない点が,ユーザーにとって負担になっていた.この問題を解決するために,本論文では,多言語を入力する際にユーザーの負担を軽減するシステム,TypeAnyを提案する.TypeAnyは,ユーザーが行うキー入力からユーザーが入力しようとしている言語を判別して,IMEの切り替えを自動で行う.これによって,ユーザーがIMEを切り替える操作量が減るため,複数の言語をスムーズに切り替えながら入力することが可能になる.本研究では,隠れマルコフモデルを用いて言語の判別をモデル化し,モデルにおける確率をppM法を用いて推定することでTypeAnyを実装し,その有用性を評価した.その結果,人工的なコーパスにおける3言語間の判別において,96.7% の判別精度を得た.また,実際に多言語を含む文書を用いて実験したところ,切り替えに必要な操作の数が,既存の手法に比べて93%減少した