著者
柏野 和佳子 山口 昌也 桐生 りか 田中 牧郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.4, pp.97-116, 2005-08-26 (Released:2011-03-01)
参考文献数
11

本研究は, 大規模な経年調査による語彙調査を行い, 外来語の使用状況を定量的に明らかにするものである.語の使用状況をとらえるために使用度数を調査する語彙調査はたいへん有効である.これまでに各種の語彙調査が行われてきたが, 多くは調査時の使用状況の把握を目的にしていたため, 対象年を1年以内に限定するものがほとんどであった.しかしながら, 語の使用状況の把握には, 時間的推移という視点もまた重要である.電子テキスト化された大量の各種の新聞記事データベースが研究に利用できるようになって以来, これを用いて時間的推移を大規模に分析する研究が行われている.ただし, 文字や語彙の全体的な変動を分析したものであり, 個々の語の使用推移に着目して各語の使用状況をとらえようとする分析はまだなかった.そこで, 我々は, 外来語を対象に, 新聞記事データベースを用いて, 語の使用推移, すなわち出現率の推移に着目して語の使用状況をとらえる研究を行った.対象語には, 国立国語研究所「外来語」委員会が第1回と第2回の言い換え提案の対象に選定し, その使用状況の調査が求められていた外来語, 109語を用いた.
著者
関 喜史 福島 良典 吉田 宏司 松尾 豊
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.1, pp.95-115, 2017

<p>推薦システムのユーザ体験を高めるために重要な指標の 1 つが多様性 (Diversity) である.多様性は推薦システムが提示するリスト内には様々なコンテンツが含まれるべきという考え方であり,過去の研究では多様性が含まれるリストの方がユーザに好まれるとされている.しかし実際のサービス上で推薦システムを検証したという報告は少なく,サービス上で多様性がユーザにどのような影響を与えるのかは明らかになっていない.本研究では実際にサービスとして提供されているウェブページ推薦システムを分析し,その推薦システムに多様性を導入して比較を行った事例について報告する.まず多様性が導入されていない推薦システムのユーザ行動を分析し,結果としてリストの中位以降に表示するウェブページに課題があることを明らかにした.その上で多様性を導入し,多様性のない既存システムとサービス上でのユーザ行動を比較した.結果として継続率やサービス利用日数が有意に改善していることを示し,従来研究で示されていた多様性を含む推薦リストの方がユーザに好まれるということを実サービス上で示した.そして利用日数が増えるに従ってリスト全体のクリック数が改善していくこと,特にリスト下部のクリック率が多様性のない手法では下がっていくのに対して,多様性のある手法では向上していくことを示した.</p>
著者
丸山 岳彦 柏岡 秀紀 熊野 正 田中 英輝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.3, pp.39-68, 2004-07-10 (Released:2011-03-01)
参考文献数
35
被引用文献数
6 11

従来の文分割研究において, 文の分割点として利用されてきたのは, 「節」の境界である. しかしながら, 実際に文の分割点として用いられる節境界はごく一部の種類のものに限られており, 文に含まれる節境界を網羅的に検出する手法は考えられてこなかった. 我々は, 日本語の文に含まれる節境界の位置を網羅的に検出し, その種類を特定するプログラム“CBAP (Clause Boundaries Annotation Program)”を開発した. CBAPは, 形態素解析の結果を入力とし, 局所的な形態素の連接を対象としたパタンマッチによって, 147種類の節境界を検出する. CBAPを性質の異なる5種のコーパスに適用したところ, いずれのコーパスでも97%以上の検出性能が確認された. この検出結果を利用することにより, 言語学的に意味のある文の分割点を特定することができ, 従来の手法よりも柔軟に文分割を行なうことができる. また, 1~3形態素という非常に局所的な範囲のみから節境界を検出できるため, 発話に追従して処理を進めていく漸進的構文解析や同時通訳システム, また, 句点を含まない音声コーパスを対象とした発話分割処理などに有用である. 本稿では, CBAPによる節境界の検出手法を示し, 節境界を用いて文分割・発話分割処理を行なった事例をもとに, 節境界検出の有用性を述べる.
著者
原田 実 鈴木 亮 南 旭瑞
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.2, pp.3-22, 2002-04-10 (Released:2011-03-01)
参考文献数
15
被引用文献数
1

意味解析を用いた情報検索の一手法を提案し, 「判例」を検索対象とし日本語文章で記述した「問い合わせ文」 を検索質問とした検索システムJCareを開発する. 本研究では'文章が表す内容を, 語が格納されたノードと語間の関係 (深層格) を表すアークからなる意味グラフとして捉え, 判例文と問い合わせ文の意味グラフ間における位相同型部分の大きさをもとに, 文章間の内容類似度を算出する. このとき検索の高速化・精度向上の目的でViewという考え方を導入する. 視点 (View) により意味グラフを分割したViewグラフの類似度を求めることで, 内容的に関連性の低い文章問の計算時間, またそこから生まれるノイズを排除する.
著者
田添 丈博 椎野 努 桝井 文人 河合 敦夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.2, pp.43-58, 2003-04-10 (Released:2011-03-01)
参考文献数
22
被引用文献数
1 3

我々は文章中に現れる比喩表現, その中でも直喩・隠喩的な比喩について, その認識・抽出を目的として研究を進めている. 本論文では, “名詞Aのような名詞B” 表現について, 名詞の意味情報を用いたパターン分類によって比喩性を判定し, 比喩表現については喩詞 (喩えるもの) と被喩詞 (喩えられるもの) とを正確に抽出できるモデルを提案する. この表現には比喩 (直喩) とリテラル (例示など) の2つの用法があり, また比喩であっても名詞Bが被喩詞ではない場合がある. 我々はそれらを機械的に判定するために, これまでに行ってきた構文パターンやシソーラスを用いて喩詞と被喩詞の候補を抽出する手法を発展させ, 名詞Aと名詞Bの意味情報やその関係に従って “名詞Aのような名詞B” 表現を6つのパターンに分類し, 比喩性を判定し喩詞と被喩詞を特定するモデルを構築した. このモデルを日本語語彙大系の意味情報を利用して実装し, 新聞記事データを用いて検証したところ, 得られたパターン分類結果 (比喩性判定結果) と人間のそれとが一致する割合は, 学習データについては82.9% (未知語データを除く), 評価用データについては72.7% (同) であり, 比喩性判定モデルの全体的な処理の流れは実際の文章中の比喩表現認識に有効であることを示した. また, 比喩語という比喩性を決定づける語についてもその効果を示すことができ, モデルへの組み込みの可能性を示唆した.
著者
柴木 優美 永田 昌明 山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.4, pp.229-279, 2012-12-14 (Released:2013-03-19)
参考文献数
19

Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した.Wikipedia の記事にはカテゴリが付与され,そのカテゴリは他のカテゴリとリンクして階層構造を作っている.Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある.(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており,これをそのまま利用してオントロジーを構成することは適切でない.(2) Wikipedia のカテゴリ間,及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため,is-a 関係でないリンク関係が多く存在する.これに対して我々は (1) を解決するため,上位のカテゴリ階層を新しく定義し,Wikipedia の上位階層を削除して置き換えた.さらに (2) を解決するため,Wikipedia のカテゴリ間,及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで,Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した.本論文では not-is-a 関係を判定するための 3 つの手法を適用した.これにより,“人”,“組織”,“施設”,“地名”,“地形”,“具体物”,“創作物”,“動植物”,“イベント”の 9 種類の意味属性を最上位カテゴリとした,1 つに統一された is-a 関係のオントロジーを構築した.実験の結果,is-a 関係の精度は,カテゴリ間で適合率 95.3%, 再現率 96.6%,カテゴリ‐記事間で適合率 96.2%,再現率 95.6%と高精度であった.提案手法により,全カテゴリの 84.5%(約 34,000 件),全記事の 88.6%(約 422,000 件)をオントロジー化できた.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14 (Released:2013-03-19)
参考文献数
20
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
安田 圭志 喜多村 圭祐 山本 誠一 柳田 益造
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.4, pp.4_47-4_63, 2009 (Released:2011-07-28)
参考文献数
13
被引用文献数
1 1

本論文では,まず, e ラーニングシステムの研究開発のために構築された英語学習者コーパスについて解説し,次に,このコーパスの分析と,これを用いた英語能力自動測定実験について述べている.本コーパスは,496 名の被験者が各々 300 文の日本語文を英語に翻訳したテキストから構成されており,各被験者の英語の習熟度が TOEIC により測定されている.また,これらに加え,日英バイリンガルによる正解訳も整備されていることから,訳質自動評価の研究に利用することが可能である.このコーパスを用いた応用実験として,BLEU,NIST,WER,PER,METEOR,GTM の 6 つの翻訳自動評価スコアを用いた実験を行なっている.実験において,各自動評価スコアと TOEIC スコアとの相関係数を求めたところ,GTM の相関係数が最も高く,0.74 となった.次に,GTM や,英訳結果の文長や単語長などからなる 5 つのパラメータを説明変数とし,TOEIC を目的変数とした重回帰分析を行なった結果,重相関係数は 0.76 となり,0.02 の相関係数の改善が得られた.
著者
森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.4, pp.3-32, 2002-07-10 (Released:2011-03-01)
参考文献数
26
被引用文献数
5 5

本稿では, 情報検索の結果として得られた文書集合中の各々の文書を要約する一手法を提案する. この場合の要約の質は, 検索質問一要約文書間の関連性判定が, 検索質問一原文書の間の関連性判定に一致する度合で評価されるので, 検索を考慮した要約が必要となる. 検索質問により語の重みにバイアスを与え, 語の重要度を求める従来手法とは異なり, 我々の方法では, 検索された文書間の表層的類似性を適切に説明する語に高い重みを付与する. 具体的には, 検索文書集合に階層的クラスタリングを適用することにより, 文書間の類似性構造を抽出するとともに, 各クラスタにおける各語の出現確率から, その構造を説明するのに寄与する単語により高い重みを与える. 我々は, その重みづけに情報利得比を用いることを提案する. そして, この語の重み付けに基づき重要文抽出方式による検索文書要約システムを実装した. このシステムを評価型情報検索ワークショップであるNTCIR2におけるText Summarization Challengeの情報検索タスクにより評価した結果, 関連性判定において検索質問バイアス付きTF方式, リード文方式によるベースライン手法ならびに, 他参加システムよりも, 良好な結果を示した.
著者
北村 美穂子 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.1, pp.3-25, 2006

高精度の機械翻訳システムや言語横断検索システムを構築するためには, 大規模な対訳辞書が必要である.文対応済みの対訳文書に出現する原言語と目的言語の単語列の共起頻度に基づいて対訳表現を自動抽出する試みは, 対訳辞書を自動的に作成する方法として精度が高く有効な手法の一つである.本稿はこの手法をベースにし, 文節区切り情報や対訳辞書などの言語知識を利用したり, 抽出結果を人間が確認する工程を設けたりすることにより, 高精度で, かつ, カバレッジの高い対訳表現抽出方法を提案する.また, 抽出にかかる時間を削減するために, 対訳文書を分割し, 抽出対象とする文書量を徐々に増やしながら確からしい対訳表現から段階的に抽出していくという手法についても検討する.8,000文の対訳文書による実験では, 従来手法は精度40%, カバレッジ79%であったのに対し, 言語知識を利用した提案手法では, 精度89%, カバレッジ85%と向上した.さらに人手による確認工程を設けることにより, 精度が96%, カバレッジが85%と向上した.また, 16,000文の対訳文書による実験では, 対訳文書を分割しない方法では抽出時間が約16時間であったのに対し, 文書を4分割する方法では, 約9時間に短縮されたことを確認した.
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016-03-14 (Released:2016-06-14)
参考文献数
47
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
冨浦 洋一 青木 さやか 柴田 雅博 行野 顕正
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.1, pp.1_25-1_46, 2009 (Released:2011-09-14)
参考文献数
17
被引用文献数
1

本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 n-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.n を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 n-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.
著者
新納 浩幸 村田 真樹 白井 清昭 福本 文代 藤田 早苗 佐々木 稔 古宮 嘉那子 乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.319-362, 2015

語義曖昧性解消の誤り分析を行う場合,まずどのような原因からその誤りが生じているかを調べ,誤りの原因を分類しておくことが一般的である.この分類のために,分析対象データに対して分析者 7 人が独自に設定した誤り原因のタイプを付与したが,各自の分析結果はかなり異なり,それらを議論によって統合することは負荷の高い作業であった.そこでクラスタリングを利用してある程度機械的にそれらを統合することを試み,最終的に 9 種類の誤り原因として統合した.この 9 種類の中の主要な 3 つの誤り原因により,語義曖昧性解消の誤りの 9 割が生じていることが判明した.またタイプ分類間の類似度を定義することで,統合した誤り原因のタイプ分類が,各自の分析結果を代表していることを示した.また統合した誤り原因のタイプ分類と各自の誤り原因のタイプ分類を比較し,ここで得られた誤り原因のタイプ分類が標準的であることも示した.
著者
山田 一郎 橋本 力 呉 鍾勲 鳥澤 健太郎 黒田 航 Stijn De Saeger 土田 正明 風間 淳一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.1, pp.3-23, 2012
被引用文献数
1

単語の上位下位関係を自動獲得する研究はこれまで活発に行われてきたが,上位概念の詳細さに関する議論はほとんどなされてこなかった.自動獲得された上位下位関係の中には,例えば「作品→七人の侍」や「作品→1Q84」のように,より適切と考えられる上位概念「映画」や「小説」と比べて広範囲な概念をカバーする上位概念(「作品」)が含まれることがある.このような上位概念を検索や質問応答などのタスクにおいて利用すると,より詳細な上位概念を利用する手法と比較して有用でないことが多い.そこで本論文では,自動獲得した上位下位関係を,Wikipedia の情報を利用することでより詳細にする手法を提案する.例えば「作品→七人の侍」から,「作品→映画監督の作品→黒澤明の作品→七人の侍」のように,単語「七人の侍」の上位概念(かつ,単語「作品」の下位概念)として,2種類の中間ノード「黒澤明の作品」,「映画監督の作品」を生成することにより,元の上位下位関係を詳細化する.自動獲得した 1,925,676 ペアの上位下位関係を対象とした実験では,最も詳細な上位概念となる一つ目の中間ノード(「黒澤明の作品」など)を重み付き適合率 85.3%で 2,719,441 個,二つ目の中間ノード(「映画監督の作品」など)を重み付き適合率 78.6% で 6,347,472 個生成し,高精度に上位下位関係を詳細化できることを確認した.さらに,生成した上位下位関係が「対象–属性–属性値」として解釈できることについても報告する.

1 0 0 0 OA 訂正

出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.4, pp.90-90, 1995 (Released:2011-03-01)
著者
大山 浩美 小町 守 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.2, pp.195-225, 2016
被引用文献数
5

近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
著者
奥村 明俊 石川 開 佐藤 研治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.5, no.4, pp.77-93, 1998

クロス言語検索手法GDMAXは, 日本語入力から英語ドキュメントの検索を可能にする. GDMAXは, 対訳辞書によって入力キュエリから翻訳キュエリ候補を生成し, キュエリからそれぞれの言語のコーパスにおけるキュエリタームの共起頻度を成分とすそ共起頻度ベクトルを生成する. 入力共起頻度ベクトルと翻訳共起頻度ベクトルとの距離によって, 翻訳キュエリ候補をランキングし, 上位の英語キュエリ集合を検索キュエリとする. この手法によって, 一つの対訳だけでなく適切な複数の訳語集合を英言語キュエリとして得ることができる. ウォールストリートジャーナルやAP通信など2ギガの英語ドキュメントについて適合率と再現率で評価したところ, 理想訳と比べて約62%の精度を得て, 対訳辞書のすべての訳語候補を用いる場合と比べて12%, 機械翻訳による訳語選択と比べて6%高い精度を得ることができた.