著者
友利 涼 二宮 崇 森 信介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.655-668, 2017-12-15 (Released:2018-03-15)
参考文献数
22

本稿では,将棋の解説文に対する固有表現を題材として,テキスト情報に加えて実世界情報を参照する固有表現認識を提案する.この題材での実世界情報は,固有表現認識の対象となる解説文が言及している将棋の局面である.局面は,盤面上の駒の配置と持ち駒であり,すべての可能な盤面状態がこれによって記述できる.提案手法では,まず各局面の情報をディープニューラルネットワークの学習方法の 1 つである stacked auto-encoder を用いて事前学習を行う.次に,事前学習の結果をテキスト情報と組み合わせて固有表現認識モデルを学習する.提案手法を評価するために,条件付き確率場による方法等との比較実験を行った.実験の結果,提案手法は他の手法よりも高い精度を示し,実世界情報を用いることにより固有表現認識の精度向上が可能であることが示された.
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10
参考文献数
10
被引用文献数
6

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
古宮 嘉那子 伊藤 裕佑 佐藤 直人 小谷 善行
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.161-182, 2013-06-14 (Released:2013-09-14)
参考文献数
17

本論文は,文書分類のための新手法として,Negation Naive Bayes (NNB) を提案する.NNB は,クラスの補集合を用いるという点では Complement Naive Bayes (CNB) と等しいが,Naive Bayes (NB) と同じ事後確率最大化の式から導出されるため, 事前確率を数学的に正しく考慮している点で異なっている.NNB の有効性を示すため,オークションの商品分類の実験とニュースグループの文書分類の実験を行った.ニュースグループの文書分類では,一文書あたりの単語数(トークン数)を減らした実験と,クラスごとの文書数を不均一にした実験を行い,NNB の性質を考察した.NB,CNB,サポートベクターマシン (SVM) と比較したところ,特に一文書当たりの単語数が減り,クラスごとの文書数が偏る場合において,NNB が他の Bayesian アプローチより勝る手法であること,また,時には SVM を有意に上回り,比較手法中で最も良い分類正解率を示す手法であることが分かった.
著者
宮崎 千明 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.407-440, 2019-06-15 (Released:2019-09-15)
参考文献数
21

「こりゃひでえ」(元の形:「これはひどい」)のような音変化表現は,対話エージェントの発話や小説のセリフの自動生成において,話者であるキャラクタを特徴付けるための強力な手段となると考えられる.音変化表現を発話のキャラクタ付けに利用するために,本研究では,(i) キャラクタの発話に現れる音変化表現を収集し,(ii) それらを基に,音変化表現を人為的に発生させるための知識を整理した.具体的には,収集した音変化表現を現象と生起環境の観点で分類し,137 種類のパターンとして整理した.そして,これらのパターンが小説やコミックで用いられる音変化表現の 80% 以上をカバーすることを確認した.さらに,(iii) 音変化表現がキャラクタらしさを特徴付ける手段になるという仮説を検証するために,小説やコミックにおける発話文の話者(キャラクタ)を推定する実験を行い,音変化表現のパターンの情報を利用することで,推定性能が向上するキャラクタが存在することを確認した.
著者
渡邊 大貴 田村 晃裕 二宮 崇 Teguh Bharata Adji
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.1, pp.207-230, 2019-03-15 (Released:2019-06-15)
参考文献数
40

本論文では,ニューラル機械翻訳 (NMT) の性能を改善するため,CKY アルゴリズムから着想を得た,畳み込みニューラルネットワーク (CNN) に基づく新しいアテンション構造を提案する.提案のアテンション構造は,CKY テーブルを模倣した CNN を使って,原言語文中の隣接する単語/句の全ての可能な組み合わせを表現する.提案のアテンション構造を組み込んだ NMT は,CKY テーブルの各セルに対応する CNN の隠れ状態に対するアテンションスコア(言い換えると,原言語文中の単語の組み合わせに対するアテンションスコア)に基づき目的言語の文を生成する.従来の文構造に基づく NMT は予め構文解析器で解析した文構造を活用するが,提案のアテンション構造を用いる NMT は,原言語文の構文解析を予め行うことなく,原言語の文に潜む構造に対するアライメントを考慮した翻訳を行うことができる.Asian Scientific Paper Excerpt Corpus (ASPEC) 英日翻訳タスクの評価実験により,提案のアテンション構造を用いることで,従来のアテンション構造付きのエンコーダデコーダモデルと比較して,1.43 ポイント BLEU スコアが上昇することを示す.さらに,FBIS コーパスにおける中英翻訳タスクにおいて,提案手法は,従来のアテンション構造付きのエンコーダデコーダモデルと同等かそれ以上の精度を達成できることを示す.
著者
原 祐輔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.315-334, 2013-06-14 (Released:2013-09-14)
参考文献数
15
被引用文献数
1 3

本論文では東日本大震災発生時に首都圏で引き起こされた帰宅困難者問題の発生要因や通勤者の帰宅意思決定行動に対して,Twitter における各ユーザーの発言内容をもとにその要因を明らかにする.まず,発言データから行動データを抽出することを目的として,Twitter の発言内容から,各ユーザーの帰宅行動をサポートベクターマシンを用いて識別する.次に,ジオタグデータを用いて職場・自宅間距離等を作成するとともに,ツイートデータを用いて外的要因や心理的説明要因を作成する.当日の帰宅意思決定行動をこれらの要因を用いて離散選択モデルによりモデル化する.このモデル化によるシナリオシミュレーションを行った結果,避難所施設・一時滞在場所の有無が待機・宿泊行動を促進すること,地震発生後の家族間の安否確認の可否が徒歩帰宅行動に影響を与える可能性が示された.以上より,今後の災害時における帰宅困難者問題への対策を考察する.
著者
神谷 健一 田中 省作 北尾 謙治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.2, pp.2_45-2_58, 2009 (Released:2011-09-01)
参考文献数
13

本稿ではデータベース・ソフトウェアの1つである FileMaker Pro による,英語学習教材の自動作成における言語処理技術と教材作成の連携可能性を提案する.著者は,実際の英語の授業でも利用しやすいプリント教材や簡易 E-learning 教材を出力できるツールを開発し,無料公開している.これらのツールでは GUI 環境での操作が可能であるため,パソコン利用スキルが限られる一般の英語教員にも利用しやすく,任意の英文素材から Phrase Reading を軸とした精読教材および Cloze テストを利用した学習教材を短時間で作成することができる.
著者
佐藤 理史 加納 隼人 西村 翔平 駒谷 和範
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.465-483, 2014-06-16 (Released:2014-09-16)
参考文献数
6
被引用文献数
2 1

大学入試センター試験『国語』の現代文で出題される,いわゆる「傍線部問題」を解く方法を定式化し,実装した.本方法は,問題の本文の一部と 5 つの選択肢を照合し,表層的に最も類似した選択肢を選ぶことにより問題を解く.実装した方法は,「評論」の「傍線部問題」の半数以上に対して正解を出力した.
著者
沢井 康孝 山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.2, pp.101-136, 2008-04-10 (Released:2011-03-01)
参考文献数
9
被引用文献数
1 6

ある入力文書が多くの人にとってどの程度興味や関心を持つかを算出する指標を提案する. 各個人の興味や関心は多種多様であり, これを把握することで情報のフイルタリング等を行う研究は知られているが, 本研究では不特定多数すなわち大衆が全体でどの程度の興味を持つかについて検討を行った. このような技術は, 不特定多数に対して閲覧されることを想定しているWebサイトにおける提示文書の選択や表示頂の変更など, 非常に重要な応用分野を持っている. 我々は大衆の興味が反映されている情報源として順位付き文書を使用した. 本手法ではこれを学習データとして利用して, 文書に含まれる語句及び文書自体に興味の強弱を値として付与する手法を構築した. 興味を値として扱うことで, 興味の強弱を興味がある・ないの2値ではなく興味の程度を知ることや興味発生の因分析を行うことが可能である. 提案手法は, 文書に含まれる語句を興味判別する素性として扱い, 内容語, 複合名詞, 内容語及び複合名詞の組み合わせの3種類について比較, 議論した. 評価は, ニュース記事のランキングを対象にして, 実際の順位とシステムの順位を比較した. その結果, 順位相関に基づいた評価値はOh867であり, 手法の有効性を確認した. さらに, ほぼ興味を持たれない記事に対して抽出精度0.90を超える精度で弁別できることを実験で確認した.
著者
浅原 正幸 加藤 祥
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.5, pp.463-499, 2016-12-15 (Released:2017-03-15)
参考文献数
26
被引用文献数
1

文書間類似度は,内容の類似度と表現の類似度の二つの側面を持っている.自動要約や機械翻訳ではシステム出力の内容評価を行うために参照要約(翻訳)との類似度を評価する尺度が提案されている.一方,表現を対照比較するための手段として,形態素(列)を特徴量とする空間上の計量が用いられる.本稿では,さまざまな文書間類似度について,距離・類似度・カーネル・順序尺度・相関係数の観点から,計量間の関係や同値性を論じた.さらに内容の同一性保持を目標として構築したコーパスを用いて,内容の差異と表現の差異それぞれに対する各計量のふるまいを調査し,文書間類似度に基づく自動評価の不安定さを明らかにした.
著者
坂本 真樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.5, pp.5_75-5_98, 2010 (Released:2011-04-15)
参考文献数
6

現在共有されている日本人の子供の書き言葉コーパスは非常に少ないが,子供の書き言葉コーパスは,日本語の使用実態の年齢別推移の分析や,子供の言葉に特徴的に現れる言語形式の分析,国語教育・日本語教育への活用など日本語研究での利用はもちろんのこと,認知発達,社会学など,さまざまな分野での応用の可能性がある.そこで本研究では,全国 4,950 校の小学校の Web サイトを調査し,公開されている作文について,各テキストが子供の書いたテキストであることや学年などの情報を確認の上,作文データの収集を行った.収集したテキスト総数は 10,006,語数は 1,234,961 である.本研究では,大人よりも子供の言語使用において豊富で多様な使用が観察されると予想されるオノマトペに着目し,その学年別の使用実態の推移について調査した.その結果,オノマトペの出現率は学年が上がるにつれ減少していくことが確認できた.さらに,社会学的応用例として,子供と父母との関係性について調査し,父母とのやりとりとそれに対する子供の反応との関係性が,母親の場合の方が強いことを示し,本コーパスのさまざまな応用の可能性を示した.
著者
乾 孝司 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.3, pp.201-241, 2006-07-10 (Released:2011-03-01)
参考文献数
122
被引用文献数
13 28

インターネットが普及し, 一般の個人が手軽に情報発信できる環境が整ってきている. この個人の発信する情報には, ある対象に関するその人の評価等, 個人の意見が多く記述される.これらの評価情報を抽出し, 整理し, 提示することは, 対象の提供者である企業や, 対象を利用する立場の一般の人々双方にとって利点となる.このため, 自然言語処理の分野では, 近年急速に評価情報を扱う研究が活発化している.本論文では, このような現状の中, テキストから評価情報を発見, 抽出および整理, 集約する技術について, その基盤となる研究から最近の研究までを概説する.
著者
酒井 浩之 増山 繁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.207-231, 2005-10-10 (Released:2011-03-01)
参考文献数
17

略語とその略語に対する元の語 (原型語と定義) との対応関係を, コーパスから自動的に獲得する手法を提案する.本手法は, 同一の再現率においてより高い精度を達成できるように, 我々の既提案手法 (酒井, 増山2002) を改良したものである.このような知識は, 情報検索や文書要約などにおいて有用である.本手法は, まず, 略語候補とそれに対応した原型語の候補を, それらを構成している文字情報から獲得する.そして, 略語候補と原型語の候補の名詞問類似度を計算することで, 略語とその原型語との対応関係を取得する.例えば, 略語「原発」に対して, 原型語「原子力発電所」のような対応関係を取得できる.なお, 本手法はコーパスに出現する各名詞が略語か原型語であるかどうかの情報が与えられていることを前提としていない.評価の結果, 名詞間類似度の閾値を0.4に設定した場合, 精度73.4%の結果を得た.本手法と既提案手法とを比較した結果, 同一の再現率においてより高い精度を達成し, 既提案手法よりも有効な手法であることを確認した.
著者
松本 忠博 原田 大樹 原 大介 池田 尚志
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.3, pp.177-200, 2006-07-10 (Released:2011-03-01)
参考文献数
37
被引用文献数
1 3

日本手話をテキストとして表現するための表記法を提案する.本表記法の検討に至った直接の動機は, 日本語一日本手話機械翻訳を, 音声言語間の機械翻訳と同様, 日本語テキストから手話テキストへの翻訳 (言語的な変換) と, 翻訳結果の動作への変換 (音声言語におけるテキスト音声合成と同様に手話動画の合成) とに分割し, 翻訳の問題から動作合成の問題を切り離すことにある.この翻訳過程のモジュール化により, 問題が過度に複雑化するのを防ぐことをねらいとする.同時に, 手話を書き取り, 保存・伝達する手段としての利用も念頭に置いている.本表記法で記述される手話文は, 手話単語, および, 複合語等の単語の合成, 句読点, 非手指要素による文法標識で構成される.手話単語は, 単語名とそれに付加する語形変化パラメータ (方向や位置, その他の手話動作によって付加される語彙的, 文法的情報を表す) で表す.我々の表記法は, 基本的に手話の動作そのものを詳細に記述するのではなく, 動作によって表される意味内容を記述することをめざした.ただし, 機械翻訳を念頭に置いているため, 動作への変換のための便宜にも若干の考慮を払った.本表記法の記述力を検証するため, 手話を第一言語とする手話話者による手話映像720文を解析し, この表記法での記述を試みた.全体で671文を記述することができた.十分表記できないと判断した49文 (51表現) を分析し, 問題点について考察した.
著者
柏野 和佳子 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1133-1161, 2014-12-15 (Released:2015-03-15)
参考文献数
33

従来の紙版の国語辞典はコンパクトにまとめることが優先され,用例の記述は厳選され,必要最小限にとどめられていた.しかし,電子化編集が容易になり,電子化された国語辞典データや種々のコーパスが活用できるようになった今,豊富な用例を増補した電子化版国語辞典の構築が可能になった.そうした電子化版国語辞典は,人にも計算機にも有用性の高いものと期待される.著者らはその用例記述の際に見出し語のもつ文体的特徴を明記する方法を提案し,より利用価値の高い,電子化版の「コーパスベース国語辞典」の構築を目指している.文体的特徴の記述は,語の理解を助け,文章作成時にはその語を用いる判断の指標になり得るため,作文指導や日本語教育,日本語生成処理といった観点からの期待も高い.本論文では,古さを帯びながらも現代語として用いられる「古風な語」を取り上げる.これに注目する理由は,三点ある.一点目は,現代語の中で用いられる「古風な語」は少なくないにも関わらず,「古語」にまぎれ辞書記述に取り上げ損なってしまう危険性のあるものであること.二点目は,その「古風な語」には,文語の活用形をもつなど,その文法的な扱いに注意の必要なものがあること.三点目は,「古さ」という文体的特徴を的確かつ,効果的に用いることができるよう,十分な用法説明が必要な語であるということ,である.そこで,本論文では,これら三点に留意して「古風な語」の用法をその使用実態に即して分析し,その辞書記述を提案する.はじめに,現行国語辞典5種における「古風な語」の扱いを概観する.次に,「古風な語」の使用実態を『現代日本語書き言葉均衡コーパス』に収録される図書館サブコーパスを用いて分析し,「古風な語」の使用を,(1) 古典の引用,(2) 明治期から戦前まで,(3) 時代・歴史小説,(4) 現代文脈,に4分類する.そして,その 4 分類に基づく「コーパスベース国語辞典」の辞書記述方法を提案する.このような辞書記述は例えば,作文指導や日本語教育,日本語生成処理の際の語選択の参考になるものと期待される.
著者
松本 和幸 三品 賢一 任 福継 黒岩 眞吾
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.239-271, 2007-04-10 (Released:2011-03-01)
参考文献数
34
被引用文献数
3 12

近年の情報処理技術の発達に伴い, 従来の情報処理の分野ではほとんど取り扱われなかった人間の感性をコンピュータで処理しようとする試みが盛んになってきた. 擬人化エージェントや感性ロボットが人のように振舞うためには, 人間が表出する感情を認識し, 自ら感情を表出することが必要である. 我々は, 感性ロボットに応用するための感情認識技術について研究している. 自然言語会話文からの感情推定を行う試みは, 多くの場合, 表面的な感情表現のみに絞つて行われてきた. しかし, 人間の発話時には常に何らかの感情が含まれていると考えられる. そこで, 本稿では, 感情語と感情生起事象文型パターンに基づいた感情推定手法を提案し, 実験システムを構築する. そして, 本手法の有効性を調べるため, シナリオ文を対象にその評価実験を行った.
著者
大熊 智子 梅基 宏 三浦 康秀 増市 博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_51-3_80, 2009 (Released:2011-09-01)
参考文献数
31

事物の数量的側面を表現するとき,数詞の後に連接する語を一般に助数詞と呼ぶ.英語などでは名詞に直接数詞が係って名詞の数が表現されるが,日本語では数詞だけでなく助数詞も併せて用いなければならない.名詞と助数詞の関係を正しく解析するためには,助数詞が本来持つ語彙としての性質と構文中に現れる際の文法的な性質について考慮する必要がある.本稿では,数詞と助数詞の構文を解析するための Lexical-Functional Grammar (LFG) の語彙規則と文法規則を提案し,その規則の妥当性と解析能力について検証した.提案した規則によって導出される解析結果 (f-structure) と英語,中国語の f-structure をそれぞれ比較することによって,日本語内での整合性と多言語間との整合性を有していることが確認できた.また,精度評価実験の結果,従来の LFG 規則に比べて通貨・単位に関する表現では 25%,数量に関する表現では 5%,順序に関する表現では 21% の F 値の向上が認められた.
著者
小田 裕樹 森 信介 北 研二
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.93-108, 1999-10-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
1 2

日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である. 本論文では, 日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法を提案する. 文字クラスモデルでは, 推定すべきパラメータ数が文字モデルより少ないという大きな利点があり, 文字モデルより頑健な推定を可能とする. したがって, 文字クラスモデルを単語分割へ適用した場合, 文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる. 文字クラスタリングの基準はモデルの推定に用いるコーパスとは別に用意したコーパスのエントロピーであり, 探索方法は貧欲アルゴリズムに基づいている. このため, 局所的にではあるが最適な文字のクラス分類がクラスの数をあらかじめ決めることなく得られる. ATR対話データベースを用いて評価実験を行った結果, 文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く, 特に, 文字クラスを予測単位とする可変長n-gramクラスモデルではオープンテストにおいて再現率96.38%, 適合率96.23%の高精度を達成した.