著者
福本 文代 福本 淳一 鈴木 良弥
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.4, no.2, pp.89-109, 1997-04-10 (Released:2011-03-01)
参考文献数
28
被引用文献数
1

本稿では, 文脈依存の度合いに注目し, 重要パラグラフを抽出する手法を提案する. 本手法では, Luhnらにより提唱されたキーワード密度方式と同様, 「主題と関係の深い語はパラグラフを跨り一貫して出現する」という前提に基づく. 我々は, 文脈依存の度合, すなわち, 記事中の任意の語が, 設定された文脈にどのくらい深く関わっているかという度合いの強さを用いることで, 主題と関係の深い語を抽出し, その語に対し重み付けを行なった.本手法の精度を検証するため人手により抽出したパラグラフと比較した結果, 抽出率を30%とした場合, 50記事の抽出総パラグラフ数84に対し75パラグラフが正解であり, 正解率は89.2%に達した.
著者
橋本 力 黒橋 禎夫 河原 大輔 新里 圭司 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.175-201, 2011 (Released:2011-09-28)
参考文献数
22
被引用文献数
5 7

近年,ブログを対象とした情報アクセス・情報分析技術が盛んに研究されている.我々は,この種の研究の基礎データの提供を目的とし,249 記事,4,186 文からなる,解析済みブログコーパスを構築した.主な特長は次の 4 点である.i) 文境界のアノテーション.ii) 京大コーパス互換の,形態素,係り受け,格・省略・照応,固有表現のアノテーション.iii) 評価表現のアノテーション.iv) アノテーションを可視化した HTML ファイルの提供.記事は,大学生 81 名に「京都観光」「携帯電話」「スポーツ」「グルメ」のいずれかのテーマで執筆してもらうことで収集した.解析済みブログコーパスを構築する際,不明瞭な文境界,括弧表現,誤字,方言,顔文字等,多様な形態素への対応が課題になる.本稿では,本コーパスの全容とともに,いかに上記の課題に対応しつつコーパスを構築したかについて述べる.
著者
藤田 早苗 平 博順 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.223-250, 2013-06-14 (Released:2013-09-14)
参考文献数
26
被引用文献数
1

既存のテキストのみからなる辞書に対し,インターネット上にある膨大な画像を関連付けることができれば,文字列情報からだけでは得られない,視覚的な情報を利用できるようになり,用途が広がると期待できる.そのため,本稿では,辞書の出来る限り広い語義に対して画像を付与することを考える.作成・維持コストを考えれば,なるべく自動的に画像を付与することが望ましいが,大量の辞書エントリに対して,高い精度で画像を付与することは容易ではない.また,そもそもどういった語義には画像を付与できるのか,あるいはできないのかといった調査が大規模になされた例はなく,画像が付与できる語義を自動的に判別することも困難である.そこで本稿では,まず語義別に画像が付与された辞書を人手で構築することを第一の目標とする.その上で,画像が付与できる語義とできない語義について,品詞や意味クラスとの関連性に着目して分析する.具体的には,名詞,動詞,形容詞,形容動詞,副詞を含む 25,481 語,39,251 語義を対象に画像付与実験と分析を行ない,その結果,全語義の 94.0% は画像付与が可能であること,品詞や意味クラスに応じて画像付与の可否が変わることを示す.また,幅広い語義に適切な画像を付与するため,インターネットから画像検索によって画像を獲得する.検索時に重要となるのが検索語である.本稿の第二の目標は,語義毎に適切な画像を得るための検索語を調査することである.本稿では,複数の検索語の組合せ(以下,検索語セット)の中から最も適切な画像を得られる検索語セットを作業者に選択してもらい,適切な検索語セットがない場合には修正してもらう.こうして最終的に利用された検索語セットを分析し,提案手法の改良点を探る.さらに,検索語セットの優先順位の決定方法も提案,その妥当性を示すことを本稿の第三の目標とする.新しい辞書への適用等を考えると,人手による画像付与ができない場合でも,優先順位の高い検索語セットによる検索結果が利用できれば,有用だと考えられるからである.提案手法では,対象語義がメジャーな語義かどうかで優先順位を変化させる.実験では,2 種類の評価方法を通してその妥当性を示す.
著者
吉川 克正 浅原 正幸 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.251-271, 2013-06-14 (Released:2013-09-14)
参考文献数
23
被引用文献数
4 6

本稿ではマルコフロジックを利用した日本語述語項構造解析について述べる.日本語述語項構造解析に関する従来研究の多くは,格毎に独立した解析器を用意し,他の述語項関係との依存関係を無視したまま解析を行っていた.これに対し,本研究では同一文内にある全ての述語項候補を同時に考慮して解析する手法を提案する.この手法は複数の述語項関係の間にある依存関係を考慮した上で,文内における全ての述語項関係の候補から,最適な状態を見つけ出すことができる.さらに,本研究では,述語の項として妥当でないものを削除するための新たな論理的制約を考案し,ゼロ照応も含めて正しい項を効果的に見つけ出すことができるように工夫した.NAIST テキストコーパスにおける実験で,本研究の提案手法は,大規模データを利用せずに,従来手法と同等の結果を達成した.
著者
小林 千真 相田 太一 岡 照晃 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.713-747, 2023 (Released:2023-06-15)
参考文献数
32

単語が持つ意味や用法は時代とともに変わっていく.BERT から獲得した単語ベクトルをグルーピングし,時期ごとの使用率を算出することで意味変化を分析する方法がある.英語の意味変化分析では既にいくつかこの類の手法が導入されているが,日本語への適用はまだない.また,英語での分析では手法ごとの比較が行われていない.そのため,日本語に適用した際の性能や各手法がどのような条件で有効か明らかになっていない.そこで本研究では日本語を対象に,以下の実験を行なった.現代語で事前訓練された BERT の文脈依存ベクトルに,辞書を使った教師ありのグルーピング手法とクラスタリングを使った教師なしのグルーピング手法を適用し比較した.また BERT を通時的なコーパスで fine-tuning し, BERT の文脈依存ベクトルが捉える通時的な特徴を分析した.比較と分析の結果,充実した辞書がない場合,クラスタリングを使った手法が意味変化を捉えるのに適していることが分かった.さらに,現代語 BERT を通時的なコーパスで fine-tuning することで古い時期特有の表現により適した意味変化の分析が可能になることが分かった.一方で,古い時期に出現しない現代特有の用法がある場合には,意味変化を捉えられないケースも存在した.
著者
中野 てい子 冨浦 洋一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.1, pp.3-29, 2011 (Released:2011-04-27)
参考文献数
14
被引用文献数
1 1

日本語学習者が産出する名詞 n,格助詞 c,動詞 v から成る不自然な共起表現 〈n,c,v〉 の中には,動詞選択の誤りに起因するものがある.本稿では,学習者が入力する共起表現 〈n,c,v〉の v に対する適切な代替動詞候補を与える手法を提案する.不自然な共起表現中の動詞(誤用動詞)と自然な共起表現となるように修正した適切な動詞(正用動詞)とは出現環境が類似している傾向にあると考えられる.この仮説に基づき,大規模な母語話者コーパスから得られる統計情報を用いて,〈n,c〉 との共起が自然と言える代替動詞候補を,学習者が入力した共起表現の動詞との出現環境の類似度の降順に提示する.まず,誤用動詞とその正用動詞のデータに基づいてこの仮説を検証し,さらに,同データを用いて提案手法に基づいた共起表現に関する作文支援システムの実用性について検討する.
著者
山本 和英 安達 康昭
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.1, pp.51-78, 2005-01-10 (Released:2011-03-01)
参考文献数
9
被引用文献数
4 1

換言・削除規則を用いた国会会議録の要約手法とその評価について報告する.国会会議録には, 丁寧表現の頻出や独特な言い回し等の特徴がある.また, 会議における発言の書き起こしであるため, 話し言葉の特徴も見られる.本論文では, この様な特徴的な表現に着目し, 換言・削除することで要約を試みた.まず, 単語n-gramの統計結果から得られた頻出する敬語表現を普通体の表現に言い換えた.次に, 手がかり語を用いて頻出する冗長な表現や挿入句を推定し削除することによって要約した.これらの処理を約20年分の会議録に対して行なった結果, 自由発話が含まれる会議録では80%程度の要約率が得られた.また, CSJコーパスに対して本システムを適用した結果, 平均要約率が約84%であった.したがって, 本システムが国会会議録以外の話し言葉データに対しても有効に働くことを確認した.
著者
石橋 陽一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.3, pp.1110-1114, 2023 (Released:2023-09-15)
参考文献数
9
著者
三浦 康秀 狩野 竜示 谷口 元樹 谷口 友紀 三沢 翔太郎 大熊 智子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.1, pp.59-81, 2019-03-15 (Released:2019-06-15)
参考文献数
42

本稿ではオンライン議論における談話行為を分類するモデルを提案する.提案モデルでは談話行為を分類するために,ニューラルネットワークを用いて議論のパターンを学習する.談話行為の分類において議論のパターンを取り入れる重要性は既存の研究においても確認されているが,対象としている議論に併せたパターン素性を設計する必要があった.提案モデルではパターン素性を用いずに,木構造およびグラフ構造を学習する層を用いて議論のパターンを学習する.提案モデルを Reddit の談話行為を分類するタスクで評価したところ,従来手法と比較して Accuracy で 1.5%,F1 値で 2.2 ポイントの性能向上を確認した.また,提案モデル内の木構造学習層およびグラフ構造学習層間の相互作用を確認するため,提案手法の中間層を注意機構を通じて分析した.
著者
山下 耕二 水上 悦雄
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.39-60, 2007-04-10 (Released:2011-03-01)
参考文献数
34
被引用文献数
1

本研究の目的は, これまで言語学的には感動詞, 言語心理学的には発話の非流暢性として扱われてきた, フィラーを中心に, 情動的感動詞, 言い差し (途切れ) といった話し言葉特有の発話要素を, 人の内的処理プロセスが音声として外化した「心的マーカ」の一部であると捉え, それらが状況によってどのような影響を受けるかを分析し, 対応する内的処理プロセスについて検討することであった.実験的統制のもと, 異なる条件 (役割や親近性, 対面性, 課題難易度) が設定され, 成人男女56名 (18-36歳) に対して, ペアでの協調問題解決である図形説明課題を実施し, 対話データが収集された.その結果, 1) それぞれの出現率は状況差の影響を受けたこと, 2) 出現するフィラーの種類別出現率に差があることが示された.これらの結果が先行研究との対比, 内的処理プロセスと心的マーカの対応, そして結果の応用可能性という観点から考察される.
著者
福田 美穂 関根 聡
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.800-815, 2023 (Released:2023-06-15)
参考文献数
35

一般ドメインでの固有表現抽出が高い精度を実現するようになった今,研究の目標は化学や医療,金融などさまざまなドメインでの固有表現抽出技術の精緻化へとシフトしている.そこで本論文では,ドメイン依存の固有表現抽出技術応用に関する近年の国内研究動向を報告したい.技術に重点を置いた分析は他文献に譲り,具体的な問題を抱えるさまざまなドメインの読者を念頭に「どのようなドメインでどのような対象に対してどのように固有表現抽出が行われているか」を調査した.4 つの学会大会論文および3つの学会論文誌からドメイン依存の固有表現抽出技術に関する論文を調査したところ,該当する論文のうち約半数が,化学ドメインにおける新規商品開発等支援のための化学物質名・化学物質間関係抽出を主題としていた.その他のドメインは,医療,金融,機械加工,文学,食など多岐にわたり,多様な抽出目的・抽出対象を確認できた.技術的には機械学習を使った手法が主流となっており,とくに本論文の調査期間では BiLSTM-CRF および BERT を使う事例が大勢を占めているが,それらを補完する目的で辞書等の言語資源を組み合わせる手法も多く見られている.
著者
Van-Hien Tran Hiroki Ouchi Hiroyuki Shindo Yuji Matsumoto Taro Watanabe
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.304-329, 2023 (Released:2023-06-15)
参考文献数
52

Zero-shot relation extraction aims to recognize (new) unseen relations that cannot be observed during training. Due to this point, recognizing unseen relations with no corresponding labeled training instances is a challenging task. Recognizing an unseen relation between two entities in an input instance at the testing time, a model needs to grasp the semantic relationship between the instance and all unseen relations to make a prediction. This study argues that enhancing the semantic correlation between instances and relations is key to effectively solving the zero-shot relation extraction task. A new model entirely devoted to this goal through three main aspects was proposed: learning effective relation representation, designing purposeful mini-batches, and binding two-way semantic consistency. Experimental results on two benchmark datasets demonstrate that our approach significantly improves task performance and achieves state-of-the-art results. Our source code and data are publicly available.
著者
小澤 俊介 内元 清貴 伝 康晴
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.379-401, 2014-04-18 (Released:2014-07-17)
参考文献数
17
被引用文献数
2 1

言語研究において,新しい品詞体系を用いる場合には,既存の辞書やコーパス,解析器では対応できないことが多いため,これらを再構築する必要がある.これらのうち,辞書とコーパスは再利用できることが少なく,新たに構築する場合が多い.一方,解析器は既存のものを改良することで対応できることが多いものの,どのような改良が必要かは明らかになっていない.本論文では,品詞体系の異なるコーパスの解析に必要となる解析器の改良点を明らかにするためのケーススタディとして,品詞体系の異なる日本語話し言葉コーパス(以下,CSJ)と現代日本語書き言葉均衡コーパス(以下,BCCWJ)を利用して,長単位情報を自動付与した場合に生じる誤りを軽減する方策について述べる.具体的には,CSJ を基に構築した長単位解析器をBCCWJへ適用するため,CSJ と BCCWJ の形態論情報における相違点に応じて,長単位解析器の学習に用いる素性やラベルを改善した.評価実験により提案手法の有効性を示す.

1 0 0 0 OA 最高の文章

著者
鶴岡 慶雅
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.1, 2020-03-15 (Released:2020-06-15)
著者
三村 正人 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.1, pp.88-124, 2023 (Released:2023-03-15)
参考文献数
55

従来の音声認識システムは,入力音声に現れるすべての単語を忠実に再現するように設計されているため,認識精度が高いときでも,人間にとって読みやすい文を出力するとは限らない.これに対して,本研究では,フィラーや言い誤りの削除,句読点や脱落した助詞の挿入,また口語的な表現の修正など,適宜必要な編集を行いながら,音声から直接可読性の高い書き言葉スタイルの文を出力する新しい音声認識のアプローチについて述べる.我々はこのアプローチを単一のニューラルネットワークを用いた音声から書き言葉への end-to-end 変換として定式化する.また,音声に忠実な書き起こしを疑似的に復元し,end-to-end モデルの学習を補助する手法と,句読点位置を手がかりとした新しい音声区分化手法も併せて提案する.700 時間の衆議院審議音声を用いた評価実験により,提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に書き言葉を生成できることを示す.さらに,国会会議録作成時に編集者が行う修正作業を分類・整理し,これらについて提案システムの達成度と誤り傾向の分析を行う.