著者
石〓 友子 片岡 明 増山 繁 山本 和英 中川 聖一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.7, no.4, pp.119-142, 2000-10-10
被引用文献数
2

字幕生成のためのニュース文要約のような報知的要約では, 原文の情報を落とさないことが望まれる. 本論文では, このような原文の情報を極力落とさない要約手法の一っとして, 重複部削除による要約手法について議論する. テキスト内に, 同一の事象を表す部分が再度出現したならば, その部分を削除することによって冗長度を減少させ, 情報欠落を可能な限り回避した要約を行う. 事象の重複を認定するために, 係り受け関係のある2語が一つの事象を表していると仮定し, 2語の係り受け関係の重複を事象の重複と認定する. また, 2語の係り受け関係を用いて重複部を削除するだけでは, 読みやすく, かつ, 自然な要約文を生成することができない. そのために考慮すべきいくつかの情報について議論する. 以上の方法のうち, 実装可能な部分を計算機上に実装し, 評価実験を行った. 人間による削除箇所と本手法による削除箇所とを比較したところ, 再現率81.0%, 適合率85.1%の結果を得た.
著者
馬 青 谷河 息吹 村田 真樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.4, pp.225-250, 2015-12-14 (Released:2016-03-14)
参考文献数
32
被引用文献数
1

本稿は機械学習を用いて関連語・周辺語または説明文書から適切な検索用語を予測する手法を提案する.機械学習には深層学習の一種である Deep Belief Network (DBN) を用いる.DBN の有効性を確認するために,用例に基づくベースライン手法,多層パーセプトロン (MLP),サポートベクトルマシン (SVM) との比較を行った.学習と評価に用いるデータは手動と自動の 2 通りの方法でインターネットから収集した.加えて,自動生成した疑似データも用いた.各種機械学習の最適なパラメータはグリッドサーチと交差検証を行うことにより決定した.実験の結果,DBN の予測精度はベースライン手法よりはるかに高く MLP と SVM のいずれよりも高かった.また,手動収集データに自動収集のデータと疑似データを加えて学習することにより予測精度は向上した.さらに,よりノイズの多い学習データを加えても DBN の予測精度はさらに向上したのに対し,MLP の精度向上は見られなかった.このことから,DBN のほうが MLP よりもノイズの多い学習データを有効利用できることが分かった.
著者
小原 京子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.1, pp.1-2, 2013-03-15 (Released:2013-06-15)
著者
渡部 広一 河岡 司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.8, no.2, pp.39-54, 2001-04-10 (Released:2011-03-01)
参考文献数
20
被引用文献数
2 16

コンピュータに人間のような常識的判断を行わせるための主要素は, 概念ベースおよび概念間の関連性に基づく概念連鎖機能であると考えられる. 概念ベースは, 自動学習などにより恒常的に拡張・精錬を行わなければならないために, その構造はできるだけ単純なものが望ましい. 本論文では, 概念間の関連度を評価するための新しい手法を提案している. 従来の手法では, 概念はその1次属性のベクトルモデルとして表現され, 関連度はベクトル間の内積により求められている. そのような従来手法では, 各1次属性をカテゴリーに変換しなければならないためシソーラスなどのカテゴリーデータベースが必要となる. 提案手法では, 関連度をカテゴリーを利用せず概念連鎖により求めている. 約4万の概念よりなる概念ベースを用いた実験により, 提案手法はベクトル内積を用いる方法に比べ正解率の面でやや優れる上に, 概念知識の追加/変更が容易で利用を通じての質の向上が図れることを示した.
著者
大熊 智子 増市 博 吉岡 健
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.1, pp.27-52, 2006-01-10 (Released:2011-03-01)
参考文献数
19

本稿では, 意味判定ルールを段階的に適用することにより, 副助詞「まで」, 「など」, 「だけ」が生来的に持つ曖昧性を自動的に判別する手法を提案し, その有効性を検証した.本手法では, まず着目する副助詞の前後の形態素を参照する形態素ルールを優先度に応じて適用し, 意味を決定する.次に, 形態素ルールだけではうまく判別できない構文に対して日本語LFGシステムによる構文意味解析を行い, LFGの出力結果であるf-structureの意味機能を参照する意味機能ルールを適用して多義性の解消を行う.EDRコーパスを用いた実験では, 殆どの形態素ルールで高精度の多義性解消が可能であることを実証することができた.さらに, この実験で判別精度が低かった5種類の構文 (「まで」2種, 「など」2種, 「だけ」1種) に対して, 意味機能ルールを用いて多義性の解消を行うことで, 形態素ルールよりも, 高い精度の多義性解消を確認できた.「まで」の多義性解消では, 69.6%から73.2%と58.4%から61.8%への向上, 「など」の多義性解消では29.6%から72.5%と47.2%から60.3%への向上, 「だけ」の多義性解消では55.8%から76.1%への向上を確認することができた.
著者
福本 文代 福本 淳一 鈴木 良弥
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.4, no.2, pp.89-109, 1997-04-10 (Released:2011-03-01)
参考文献数
28
被引用文献数
1

本稿では, 文脈依存の度合いに注目し, 重要パラグラフを抽出する手法を提案する. 本手法では, Luhnらにより提唱されたキーワード密度方式と同様, 「主題と関係の深い語はパラグラフを跨り一貫して出現する」という前提に基づく. 我々は, 文脈依存の度合, すなわち, 記事中の任意の語が, 設定された文脈にどのくらい深く関わっているかという度合いの強さを用いることで, 主題と関係の深い語を抽出し, その語に対し重み付けを行なった.本手法の精度を検証するため人手により抽出したパラグラフと比較した結果, 抽出率を30%とした場合, 50記事の抽出総パラグラフ数84に対し75パラグラフが正解であり, 正解率は89.2%に達した.
著者
橋本 力 黒橋 禎夫 河原 大輔 新里 圭司 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.175-201, 2011 (Released:2011-09-28)
参考文献数
22
被引用文献数
5 7

近年,ブログを対象とした情報アクセス・情報分析技術が盛んに研究されている.我々は,この種の研究の基礎データの提供を目的とし,249 記事,4,186 文からなる,解析済みブログコーパスを構築した.主な特長は次の 4 点である.i) 文境界のアノテーション.ii) 京大コーパス互換の,形態素,係り受け,格・省略・照応,固有表現のアノテーション.iii) 評価表現のアノテーション.iv) アノテーションを可視化した HTML ファイルの提供.記事は,大学生 81 名に「京都観光」「携帯電話」「スポーツ」「グルメ」のいずれかのテーマで執筆してもらうことで収集した.解析済みブログコーパスを構築する際,不明瞭な文境界,括弧表現,誤字,方言,顔文字等,多様な形態素への対応が課題になる.本稿では,本コーパスの全容とともに,いかに上記の課題に対応しつつコーパスを構築したかについて述べる.
著者
藤田 早苗 平 博順 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.223-250, 2013-06-14 (Released:2013-09-14)
参考文献数
26
被引用文献数
1

既存のテキストのみからなる辞書に対し,インターネット上にある膨大な画像を関連付けることができれば,文字列情報からだけでは得られない,視覚的な情報を利用できるようになり,用途が広がると期待できる.そのため,本稿では,辞書の出来る限り広い語義に対して画像を付与することを考える.作成・維持コストを考えれば,なるべく自動的に画像を付与することが望ましいが,大量の辞書エントリに対して,高い精度で画像を付与することは容易ではない.また,そもそもどういった語義には画像を付与できるのか,あるいはできないのかといった調査が大規模になされた例はなく,画像が付与できる語義を自動的に判別することも困難である.そこで本稿では,まず語義別に画像が付与された辞書を人手で構築することを第一の目標とする.その上で,画像が付与できる語義とできない語義について,品詞や意味クラスとの関連性に着目して分析する.具体的には,名詞,動詞,形容詞,形容動詞,副詞を含む 25,481 語,39,251 語義を対象に画像付与実験と分析を行ない,その結果,全語義の 94.0% は画像付与が可能であること,品詞や意味クラスに応じて画像付与の可否が変わることを示す.また,幅広い語義に適切な画像を付与するため,インターネットから画像検索によって画像を獲得する.検索時に重要となるのが検索語である.本稿の第二の目標は,語義毎に適切な画像を得るための検索語を調査することである.本稿では,複数の検索語の組合せ(以下,検索語セット)の中から最も適切な画像を得られる検索語セットを作業者に選択してもらい,適切な検索語セットがない場合には修正してもらう.こうして最終的に利用された検索語セットを分析し,提案手法の改良点を探る.さらに,検索語セットの優先順位の決定方法も提案,その妥当性を示すことを本稿の第三の目標とする.新しい辞書への適用等を考えると,人手による画像付与ができない場合でも,優先順位の高い検索語セットによる検索結果が利用できれば,有用だと考えられるからである.提案手法では,対象語義がメジャーな語義かどうかで優先順位を変化させる.実験では,2 種類の評価方法を通してその妥当性を示す.
著者
吉川 克正 浅原 正幸 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.251-271, 2013-06-14 (Released:2013-09-14)
参考文献数
23
被引用文献数
4 6

本稿ではマルコフロジックを利用した日本語述語項構造解析について述べる.日本語述語項構造解析に関する従来研究の多くは,格毎に独立した解析器を用意し,他の述語項関係との依存関係を無視したまま解析を行っていた.これに対し,本研究では同一文内にある全ての述語項候補を同時に考慮して解析する手法を提案する.この手法は複数の述語項関係の間にある依存関係を考慮した上で,文内における全ての述語項関係の候補から,最適な状態を見つけ出すことができる.さらに,本研究では,述語の項として妥当でないものを削除するための新たな論理的制約を考案し,ゼロ照応も含めて正しい項を効果的に見つけ出すことができるように工夫した.NAIST テキストコーパスにおける実験で,本研究の提案手法は,大規模データを利用せずに,従来手法と同等の結果を達成した.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14
参考文献数
20
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
小林 千真 相田 太一 岡 照晃 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.713-747, 2023 (Released:2023-06-15)
参考文献数
32

単語が持つ意味や用法は時代とともに変わっていく.BERT から獲得した単語ベクトルをグルーピングし,時期ごとの使用率を算出することで意味変化を分析する方法がある.英語の意味変化分析では既にいくつかこの類の手法が導入されているが,日本語への適用はまだない.また,英語での分析では手法ごとの比較が行われていない.そのため,日本語に適用した際の性能や各手法がどのような条件で有効か明らかになっていない.そこで本研究では日本語を対象に,以下の実験を行なった.現代語で事前訓練された BERT の文脈依存ベクトルに,辞書を使った教師ありのグルーピング手法とクラスタリングを使った教師なしのグルーピング手法を適用し比較した.また BERT を通時的なコーパスで fine-tuning し, BERT の文脈依存ベクトルが捉える通時的な特徴を分析した.比較と分析の結果,充実した辞書がない場合,クラスタリングを使った手法が意味変化を捉えるのに適していることが分かった.さらに,現代語 BERT を通時的なコーパスで fine-tuning することで古い時期特有の表現により適した意味変化の分析が可能になることが分かった.一方で,古い時期に出現しない現代特有の用法がある場合には,意味変化を捉えられないケースも存在した.
著者
中野 てい子 冨浦 洋一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.1, pp.3-29, 2011 (Released:2011-04-27)
参考文献数
14
被引用文献数
1 1

日本語学習者が産出する名詞 n,格助詞 c,動詞 v から成る不自然な共起表現 〈n,c,v〉 の中には,動詞選択の誤りに起因するものがある.本稿では,学習者が入力する共起表現 〈n,c,v〉の v に対する適切な代替動詞候補を与える手法を提案する.不自然な共起表現中の動詞(誤用動詞)と自然な共起表現となるように修正した適切な動詞(正用動詞)とは出現環境が類似している傾向にあると考えられる.この仮説に基づき,大規模な母語話者コーパスから得られる統計情報を用いて,〈n,c〉 との共起が自然と言える代替動詞候補を,学習者が入力した共起表現の動詞との出現環境の類似度の降順に提示する.まず,誤用動詞とその正用動詞のデータに基づいてこの仮説を検証し,さらに,同データを用いて提案手法に基づいた共起表現に関する作文支援システムの実用性について検討する.
著者
山本 和英 安達 康昭
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.1, pp.51-78, 2005-01-10 (Released:2011-03-01)
参考文献数
9
被引用文献数
4 1

換言・削除規則を用いた国会会議録の要約手法とその評価について報告する.国会会議録には, 丁寧表現の頻出や独特な言い回し等の特徴がある.また, 会議における発言の書き起こしであるため, 話し言葉の特徴も見られる.本論文では, この様な特徴的な表現に着目し, 換言・削除することで要約を試みた.まず, 単語n-gramの統計結果から得られた頻出する敬語表現を普通体の表現に言い換えた.次に, 手がかり語を用いて頻出する冗長な表現や挿入句を推定し削除することによって要約した.これらの処理を約20年分の会議録に対して行なった結果, 自由発話が含まれる会議録では80%程度の要約率が得られた.また, CSJコーパスに対して本システムを適用した結果, 平均要約率が約84%であった.したがって, 本システムが国会会議録以外の話し言葉データに対しても有効に働くことを確認した.
著者
石橋 陽一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.3, pp.1110-1114, 2023 (Released:2023-09-15)
参考文献数
9