著者
小木曽 智信 中村 壮範
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.301-332, 2014-04-18 (Released:2014-07-17)
参考文献数
12

『現代日本語書き言葉均衡コーパス』は1億語を超える大規模なコーパスであり,17 万ファイル以上の XML 文書に短単位・長単位の形態論情報アノテーションが施されている.このコーパスの構築を目的としてアノテーションのためのシステムが開発された.このシステムは,辞書見出しデータベースと,タグ付けされたコーパスとを関連付けて,整合性を保ちつつ多くの作業者が編集していくことを可能にするものである.このシステムは,関係データベースで構築されたサーバ「形態論情報データベース」と,辞書を参照しながらコーパスの修正作業を可能にするコーパス修正用のクライアントツール「大納言」,形態素解析辞書 UniDic の見出し語の管理ツール「UniDic Explorer」から成る.本稿はこのデータベースシステムの設計・実装・運用について論ずる.
著者
関 喜史 福島 良典 吉田 宏司 松尾 豊
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.1, pp.95-115, 2017-02-15 (Released:2017-05-15)
参考文献数
17

推薦システムのユーザ体験を高めるために重要な指標の 1 つが多様性 (Diversity) である.多様性は推薦システムが提示するリスト内には様々なコンテンツが含まれるべきという考え方であり,過去の研究では多様性が含まれるリストの方がユーザに好まれるとされている.しかし実際のサービス上で推薦システムを検証したという報告は少なく,サービス上で多様性がユーザにどのような影響を与えるのかは明らかになっていない.本研究では実際にサービスとして提供されているウェブページ推薦システムを分析し,その推薦システムに多様性を導入して比較を行った事例について報告する.まず多様性が導入されていない推薦システムのユーザ行動を分析し,結果としてリストの中位以降に表示するウェブページに課題があることを明らかにした.その上で多様性を導入し,多様性のない既存システムとサービス上でのユーザ行動を比較した.結果として継続率やサービス利用日数が有意に改善していることを示し,従来研究で示されていた多様性を含む推薦リストの方がユーザに好まれるということを実サービス上で示した.そして利用日数が増えるに従ってリスト全体のクリック数が改善していくこと,特にリスト下部のクリック率が多様性のない手法では下がっていくのに対して,多様性のある手法では向上していくことを示した.
著者
高瀬 翔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.1, pp.253-258, 2021 (Released:2021-03-15)
参考文献数
4
被引用文献数
3
著者
友利 涼 二宮 崇 森 信介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.655-668, 2017-12-15 (Released:2018-03-15)
参考文献数
22

本稿では,将棋の解説文に対する固有表現を題材として,テキスト情報に加えて実世界情報を参照する固有表現認識を提案する.この題材での実世界情報は,固有表現認識の対象となる解説文が言及している将棋の局面である.局面は,盤面上の駒の配置と持ち駒であり,すべての可能な盤面状態がこれによって記述できる.提案手法では,まず各局面の情報をディープニューラルネットワークの学習方法の 1 つである stacked auto-encoder を用いて事前学習を行う.次に,事前学習の結果をテキスト情報と組み合わせて固有表現認識モデルを学習する.提案手法を評価するために,条件付き確率場による方法等との比較実験を行った.実験の結果,提案手法は他の手法よりも高い精度を示し,実世界情報を用いることにより固有表現認識の精度向上が可能であることが示された.
著者
Shohei Higashiyama Masao Utiyama Eiichiro Sumita Masao Ideuchi Yoshiaki Oida Yohei Sakamoto Isaac Okada Yuji Matsumoto
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.3, pp.499-530, 2020-09-15 (Released:2020-12-15)
参考文献数
54
被引用文献数
2

Although limited effort has been devoted to exploring neural models in Japanese word segmentation, much effort has been actively applied to Chinese word segmentation because of the ability to minimize effort in feature engineering. In this work, we propose a character-based neural model that makes joint use of word information useful for disambiguating word boundaries. For each character in a sentence, our model uses an attention mechanism to estimate the importance of multiple candidate words that contain the character. Experimental results show that learning attention to proper words leads to accurate segmentations and that our model achieves better performance than existing statistical and neural models on both in-domain and cross-domain Japanese word segmentation datasets.
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10
参考文献数
10
被引用文献数
6

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
古宮 嘉那子 伊藤 裕佑 佐藤 直人 小谷 善行
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.161-182, 2013-06-14 (Released:2013-09-14)
参考文献数
17

本論文は,文書分類のための新手法として,Negation Naive Bayes (NNB) を提案する.NNB は,クラスの補集合を用いるという点では Complement Naive Bayes (CNB) と等しいが,Naive Bayes (NB) と同じ事後確率最大化の式から導出されるため, 事前確率を数学的に正しく考慮している点で異なっている.NNB の有効性を示すため,オークションの商品分類の実験とニュースグループの文書分類の実験を行った.ニュースグループの文書分類では,一文書あたりの単語数(トークン数)を減らした実験と,クラスごとの文書数を不均一にした実験を行い,NNB の性質を考察した.NB,CNB,サポートベクターマシン (SVM) と比較したところ,特に一文書当たりの単語数が減り,クラスごとの文書数が偏る場合において,NNB が他の Bayesian アプローチより勝る手法であること,また,時には SVM を有意に上回り,比較手法中で最も良い分類正解率を示す手法であることが分かった.
著者
宮崎 千明 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.407-440, 2019-06-15 (Released:2019-09-15)
参考文献数
21

「こりゃひでえ」(元の形:「これはひどい」)のような音変化表現は,対話エージェントの発話や小説のセリフの自動生成において,話者であるキャラクタを特徴付けるための強力な手段となると考えられる.音変化表現を発話のキャラクタ付けに利用するために,本研究では,(i) キャラクタの発話に現れる音変化表現を収集し,(ii) それらを基に,音変化表現を人為的に発生させるための知識を整理した.具体的には,収集した音変化表現を現象と生起環境の観点で分類し,137 種類のパターンとして整理した.そして,これらのパターンが小説やコミックで用いられる音変化表現の 80% 以上をカバーすることを確認した.さらに,(iii) 音変化表現がキャラクタらしさを特徴付ける手段になるという仮説を検証するために,小説やコミックにおける発話文の話者(キャラクタ)を推定する実験を行い,音変化表現のパターンの情報を利用することで,推定性能が向上するキャラクタが存在することを確認した.
著者
渡邊 大貴 田村 晃裕 二宮 崇 Teguh Bharata Adji
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.1, pp.207-230, 2019-03-15 (Released:2019-06-15)
参考文献数
40

本論文では,ニューラル機械翻訳 (NMT) の性能を改善するため,CKY アルゴリズムから着想を得た,畳み込みニューラルネットワーク (CNN) に基づく新しいアテンション構造を提案する.提案のアテンション構造は,CKY テーブルを模倣した CNN を使って,原言語文中の隣接する単語/句の全ての可能な組み合わせを表現する.提案のアテンション構造を組み込んだ NMT は,CKY テーブルの各セルに対応する CNN の隠れ状態に対するアテンションスコア(言い換えると,原言語文中の単語の組み合わせに対するアテンションスコア)に基づき目的言語の文を生成する.従来の文構造に基づく NMT は予め構文解析器で解析した文構造を活用するが,提案のアテンション構造を用いる NMT は,原言語文の構文解析を予め行うことなく,原言語の文に潜む構造に対するアライメントを考慮した翻訳を行うことができる.Asian Scientific Paper Excerpt Corpus (ASPEC) 英日翻訳タスクの評価実験により,提案のアテンション構造を用いることで,従来のアテンション構造付きのエンコーダデコーダモデルと比較して,1.43 ポイント BLEU スコアが上昇することを示す.さらに,FBIS コーパスにおける中英翻訳タスクにおいて,提案手法は,従来のアテンション構造付きのエンコーダデコーダモデルと同等かそれ以上の精度を達成できることを示す.
著者
原 祐輔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.315-334, 2013-06-14 (Released:2013-09-14)
参考文献数
15
被引用文献数
1 3

本論文では東日本大震災発生時に首都圏で引き起こされた帰宅困難者問題の発生要因や通勤者の帰宅意思決定行動に対して,Twitter における各ユーザーの発言内容をもとにその要因を明らかにする.まず,発言データから行動データを抽出することを目的として,Twitter の発言内容から,各ユーザーの帰宅行動をサポートベクターマシンを用いて識別する.次に,ジオタグデータを用いて職場・自宅間距離等を作成するとともに,ツイートデータを用いて外的要因や心理的説明要因を作成する.当日の帰宅意思決定行動をこれらの要因を用いて離散選択モデルによりモデル化する.このモデル化によるシナリオシミュレーションを行った結果,避難所施設・一時滞在場所の有無が待機・宿泊行動を促進すること,地震発生後の家族間の安否確認の可否が徒歩帰宅行動に影響を与える可能性が示された.以上より,今後の災害時における帰宅困難者問題への対策を考察する.
著者
神谷 健一 田中 省作 北尾 謙治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.2, pp.2_45-2_58, 2009 (Released:2011-09-01)
参考文献数
13

本稿ではデータベース・ソフトウェアの1つである FileMaker Pro による,英語学習教材の自動作成における言語処理技術と教材作成の連携可能性を提案する.著者は,実際の英語の授業でも利用しやすいプリント教材や簡易 E-learning 教材を出力できるツールを開発し,無料公開している.これらのツールでは GUI 環境での操作が可能であるため,パソコン利用スキルが限られる一般の英語教員にも利用しやすく,任意の英文素材から Phrase Reading を軸とした精読教材および Cloze テストを利用した学習教材を短時間で作成することができる.
著者
佐藤 理史 加納 隼人 西村 翔平 駒谷 和範
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.465-483, 2014-06-16 (Released:2014-09-16)
参考文献数
6
被引用文献数
2 1

大学入試センター試験『国語』の現代文で出題される,いわゆる「傍線部問題」を解く方法を定式化し,実装した.本方法は,問題の本文の一部と 5 つの選択肢を照合し,表層的に最も類似した選択肢を選ぶことにより問題を解く.実装した方法は,「評論」の「傍線部問題」の半数以上に対して正解を出力した.
著者
沢井 康孝 山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.2, pp.101-136, 2008-04-10 (Released:2011-03-01)
参考文献数
9
被引用文献数
1 6

ある入力文書が多くの人にとってどの程度興味や関心を持つかを算出する指標を提案する. 各個人の興味や関心は多種多様であり, これを把握することで情報のフイルタリング等を行う研究は知られているが, 本研究では不特定多数すなわち大衆が全体でどの程度の興味を持つかについて検討を行った. このような技術は, 不特定多数に対して閲覧されることを想定しているWebサイトにおける提示文書の選択や表示頂の変更など, 非常に重要な応用分野を持っている. 我々は大衆の興味が反映されている情報源として順位付き文書を使用した. 本手法ではこれを学習データとして利用して, 文書に含まれる語句及び文書自体に興味の強弱を値として付与する手法を構築した. 興味を値として扱うことで, 興味の強弱を興味がある・ないの2値ではなく興味の程度を知ることや興味発生の因分析を行うことが可能である. 提案手法は, 文書に含まれる語句を興味判別する素性として扱い, 内容語, 複合名詞, 内容語及び複合名詞の組み合わせの3種類について比較, 議論した. 評価は, ニュース記事のランキングを対象にして, 実際の順位とシステムの順位を比較した. その結果, 順位相関に基づいた評価値はOh867であり, 手法の有効性を確認した. さらに, ほぼ興味を持たれない記事に対して抽出精度0.90を超える精度で弁別できることを実験で確認した.
著者
浅原 正幸 加藤 祥
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.5, pp.463-499, 2016-12-15 (Released:2017-03-15)
参考文献数
26
被引用文献数
1

文書間類似度は,内容の類似度と表現の類似度の二つの側面を持っている.自動要約や機械翻訳ではシステム出力の内容評価を行うために参照要約(翻訳)との類似度を評価する尺度が提案されている.一方,表現を対照比較するための手段として,形態素(列)を特徴量とする空間上の計量が用いられる.本稿では,さまざまな文書間類似度について,距離・類似度・カーネル・順序尺度・相関係数の観点から,計量間の関係や同値性を論じた.さらに内容の同一性保持を目標として構築したコーパスを用いて,内容の差異と表現の差異それぞれに対する各計量のふるまいを調査し,文書間類似度に基づく自動評価の不安定さを明らかにした.
著者
坂本 真樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.5, pp.5_75-5_98, 2010 (Released:2011-04-15)
参考文献数
6

現在共有されている日本人の子供の書き言葉コーパスは非常に少ないが,子供の書き言葉コーパスは,日本語の使用実態の年齢別推移の分析や,子供の言葉に特徴的に現れる言語形式の分析,国語教育・日本語教育への活用など日本語研究での利用はもちろんのこと,認知発達,社会学など,さまざまな分野での応用の可能性がある.そこで本研究では,全国 4,950 校の小学校の Web サイトを調査し,公開されている作文について,各テキストが子供の書いたテキストであることや学年などの情報を確認の上,作文データの収集を行った.収集したテキスト総数は 10,006,語数は 1,234,961 である.本研究では,大人よりも子供の言語使用において豊富で多様な使用が観察されると予想されるオノマトペに着目し,その学年別の使用実態の推移について調査した.その結果,オノマトペの出現率は学年が上がるにつれ減少していくことが確認できた.さらに,社会学的応用例として,子供と父母との関係性について調査し,父母とのやりとりとそれに対する子供の反応との関係性が,母親の場合の方が強いことを示し,本コーパスのさまざまな応用の可能性を示した.
著者
乾 孝司 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.13, no.3, pp.201-241, 2006-07-10 (Released:2011-03-01)
参考文献数
122
被引用文献数
13 28

インターネットが普及し, 一般の個人が手軽に情報発信できる環境が整ってきている. この個人の発信する情報には, ある対象に関するその人の評価等, 個人の意見が多く記述される.これらの評価情報を抽出し, 整理し, 提示することは, 対象の提供者である企業や, 対象を利用する立場の一般の人々双方にとって利点となる.このため, 自然言語処理の分野では, 近年急速に評価情報を扱う研究が活発化している.本論文では, このような現状の中, テキストから評価情報を発見, 抽出および整理, 集約する技術について, その基盤となる研究から最近の研究までを概説する.
著者
酒井 浩之 増山 繁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.207-231, 2005-10-10 (Released:2011-03-01)
参考文献数
17

略語とその略語に対する元の語 (原型語と定義) との対応関係を, コーパスから自動的に獲得する手法を提案する.本手法は, 同一の再現率においてより高い精度を達成できるように, 我々の既提案手法 (酒井, 増山2002) を改良したものである.このような知識は, 情報検索や文書要約などにおいて有用である.本手法は, まず, 略語候補とそれに対応した原型語の候補を, それらを構成している文字情報から獲得する.そして, 略語候補と原型語の候補の名詞問類似度を計算することで, 略語とその原型語との対応関係を取得する.例えば, 略語「原発」に対して, 原型語「原子力発電所」のような対応関係を取得できる.なお, 本手法はコーパスに出現する各名詞が略語か原型語であるかどうかの情報が与えられていることを前提としていない.評価の結果, 名詞間類似度の閾値を0.4に設定した場合, 精度73.4%の結果を得た.本手法と既提案手法とを比較した結果, 同一の再現率においてより高い精度を達成し, 既提案手法よりも有効な手法であることを確認した.