著者
賀沢 秀人 Arrigan Thomas 平尾 努 前田 英作
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.407, pp.25-30, 2003-10-30

近年, 自動要約研究め分野では, 共通のデータセットを用いて互いの技術を比較的に評価する動きが盛んである. しかし, 現状では主に人間の主観評価にもとづいて比較をおこなっているため, 追加実験をおこなっても以前の結果と比較することが困難であるという問題点がある. そこで, 本研究では, 人間による要約とプーリングデータを用いて要約の自動評価を行う方法を提案し, 疑似データによる精度評価を行った結果について報告する. 実験の結果, 提案手法は, 従来用いられてきた正解要約との重複度にもとづく方法より, 高精度な評価ができることがわかった. また, 精度向上にはプーリングデータが重要な役割を果たすこともわかった.
著者
中渡瀬 秀一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.95, no.601, pp.23-30, 1996-03-22
被引用文献数
4

本論文では統計的手法によって,分かち書きされていない日本語テキストから分かち書き境界を自動抽出する方法について述べる.分かち書きされていない日本語テキストから単語を得るためには,形態素解析が必要であるが,従来は単語辞書と統語規則を用いた処理をしている.このため新しい表現の獲得や暖昧性の解消などの問題があった.本手法ではNグラムの統計情報(頻度,頻度の期待値や分散)を用いる. まず,Nグラムの統計情報から文字列の正規化頻度を計算し,次にそれを用いて語の境界を獲得する.これによって字面処理だけによって,多くの分かち書き境界の認定が可能になった.EDR日本語コーパスを用いた実験の結果,得られた境界と形態素境界の適合率は82・68%,再現率は63.89%であった.
著者
颯々野 学 塚本 浩司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.99, no.227, pp.1-8, 1999-07-22

本論文では、Eric Brillが提案した変換に基づく誤り駆動型学習を日本語の固有表現抽出に適用する方法について述べる。形態素解析と学習で獲得した有限状態変換器(FST)を遣って固有表現の抽出を行うシステムを作成し、IREX (Information Retrieval and Extraction Exercise)の named entity task のformal run (総合ドメイン)に対して実験を行った。約10,000文のCRL固有表現データから1428個のFSTを学習し、F-measure 71.28を得た。人手作成のFSTの性能には及ばないものの、IREX NEに参加するシステムの半数よりもいい結果である。また、過学習が起きないことも確認した。
著者
相良 直樹 砂山 渡 谷内田 正彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.104, no.418, pp.7-12, 2004-10-30

情報化社会の発展に伴い,文書の電子化や大量管理,共有が可能となった.これにより,人が処理しなければならない情報量も増加している.現在,この問題に対処すべくテキスト要約において主題抽出の研究は盛んに行われているが,ストーリー抽出に関しては人手に頼らざるを得ないのが現状である.本研究においては,従来の重要文抽出を利用したテキストからのストーリー抽出手法を提案し,この有効性について考察する.
著者
小林 俊一 中村 八束 不破 泰
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.96, no.593, pp.7-14, 1997-03-18
参考文献数
10
被引用文献数
3

本稿では、新しい一般言語「関数形言語」を提案する。この言語は、人工言語のみでなく、自然言語をモデル化することが可能である。自然言語は表現能力は高いが、曖昧であるという欠点を持つ。しかし、自然言語を関数形言語を使ってモデル化した場合には、曖味性がなく論理的な文章を表現することが可能になる。関数形言語は、自然言語に比べて理解しにくく、入力しにくいという欠点を持つ。この欠点を克服するため、ライティングエイドと呼ぶツールを作成した。ライティングエイドは、自然言語を使う形で関数形言語を入力することができる。また、入力した関数形言語から、数ヵ国語の自然言語に翻訳することが可能である。
著者
竹内 孔一 小山 照夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.108, no.283, pp.19-22, 2008-11-03
参考文献数
12
被引用文献数
2

公開されている動詞項構造シソーラスに基づく動詞の意味分類ならびに項に対する意味役割を京都大学コーパスに付与することで動詞の語義曖昧性を解消する基礎データを構築したい.動詞の語義はその動詞が項としてとる名詞との関係を明確化するために意味役割を付与しているが,どういう意味役割集合を作成すればどの程度の意味処理が可能なのかについて,言語処理の観点ならびに言語表現の観点からどのぐらいの種類の意味役割が必要となるのかについての決着は見られていない.本論文では処理とタグ付与実現性の観点からどのように意味役割を付与するかその方針を提案し,知識処理を指向した場合の限界について議論する.
著者
田原 如菜 坂地 泰紀 酒井 浩之
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.113, no.429, pp.5-10, 2014-01-30

本研究では,キャラクターに対応する印象表現をTwitterから抽出する手法を提案する.具体的には,キャラクターとして,ゆるキャラを対象とし,キャラクター名に対応する印象表現(「可愛い」や「癒される」等)を抽出する.人手で印象表現辞書(喜,怒,哀,怖,恥,好,嫌,昂,驚,安,楽,その他のカテゴリーから成る363表現)を作成し,キャラクター名と印象表現辞書に存在する印象表現が含まれているツイートを取得する.そして,キャラクターごとに印象表現を抽出し,実際にアンケートで印象調査した結果と,本手法で抽出した印象表現を比べて評価した.
著者
尹 智鉉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.113, no.83, pp.41-44, 2013-06-07

本研究は,韓国のウェブページから収集したデータの分析に基づき,公式謝罪文の特徴を明らかにすることをその目的とする.公式謝罪文を成り立たせているものとは何かについて考察するため,謝罪のストラテジー,談話機能ならびに談話構造の分析を行う。
著者
三浦 菊佳 山田 一郎 小早川 健 松井 淳 後藤 淳 住吉 英樹 柴田 正啓
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.108, no.408, pp.53-58, 2009-01-19

大量に蓄積されている放送番組から目的の映像を検索する際、細かいシーン単位で取り出せればより有効に映像を二次活用することができる。本稿では、レギュラー番組におけるクローズドキャプションから、あるコーナーを特徴づけたり、場面転換を表したりする繰り返し出現する表現(反復句)を教師なしで自動獲得することで、番組を分割する手がかり語を捉える。生物の進化をモデルに、番組中に毎回偏って繰り返し出現する語に着目し、Fisherの正確確率検定を利用したセグメントアラインメント、スクリーニングを行い反復句を抽出する手法を提案する。情報番組を対象とした実験を行った結果を評価し、提案手法の有効性を確認した。
著者
嶋田 浩希 西崎 博光 関口 芳廣
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.112, no.367, pp.47-52, 2012-12-12

本稿では,Twitterクライアントを利用して,リアルなつぶやき音声を収集する試みについて紹介する.これまでにWebブラウザを通じてつぶやき音声を収集する試みを行なってきたが,より多くの音声データを集めるために,Android端末で動作するTwitterクライアントを開発した.たくさんの人間がつぶやいた音声を収集し,それを分析・利用することで,音声認識等の研究への応用を検討する.
著者
青木 翔 内田 理
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.110, no.400, pp.25-28, 2011-01-20
参考文献数
15

近年,ブログや掲示板,口コミサイトのレビューなどを利用し商品の評判を解析するサービスが展開されている.評判解析の精度を高めるためには,書き手の感情や態度を文章から正確に分析する必要がある.ブログ記事には絵文字が用いられることも多く,これらの絵文字にはモダリティの役割を持つ場合がある.すなわち,絵文字が表す感情を推定することは,評判解析などの際に重要であると言える.本研究では,絵文字を含む大量のブログ記事を収集し,絵文字と共起する感情語を用いて絵文字の感情ベクトルを自動的に作成する手法を提案する.
著者
佐藤 吉秀 川島 晴美 佐々木 努 奥 雅博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.105, no.203, pp.1-6, 2005-07-15
被引用文献数
2

逐次増加するニュース記事中に含まれる話題情報を効率的に把握するため, 新鮮で可能な限り多くの幅広い話題情報を最新話題語と呼ぶキーワードの形態で抽出する手法について報告する.ニュース記事中の話題を扱うにあたり, 世間の注目度が高い出来事を伝える記事数が増加する「話題の広がり」と, 広がり状態が続報記事発行によって時間的に持続する「話題の伸び」の2つの側面に注目する.提案手法では, 話題の整理のために記事をジャンル分類・クラスタリングした後, 記事のタイムスタンプから算出する記事新鮮度, および記事間類似度を用いて各クラスタを代表する最新話題語を抽出する.ニュース記事(2164記事)を対象にした評価実験の結果, 提案手法はクラスタ中の新鮮かつ代表的な話題を表し, さらに受容性も高い語句を抽出可能であることを確認した.
著者
那須野 薫 松尾 豊
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.113, no.338, pp.25-28, 2013-11-27

2013年参議院選挙において国政選挙として初めてインターネット選挙運動が解禁された.情報拡散による有権者への認知度向上や働きかけの機会増加などを狙い,多くの候補者がマイクロブロギングサービスのTwitterを選挙運動に利用した.本稿では,Twitterにおける候補者アカウントの状態や情報拡散に焦点を当て当選者の予測を試みる.Twitterから直接取得できる6つのアカウントの状態に関する素性(フォロワー数,フレンド数選,挙期間中のツイート数など.以下,素性A)に加え,本稿で提案する3つの情報拡散に関する素性(情報拡散の大きさ,多様度,忠誠度.以下,素性B)を用いて教師あり学習のRandom Forestにより当選者を予測する.予測実験の結果,素性Aと素性Bを同時に利用した予測では,素性Aのみを利用した予測より予測性能(F値)が約12%向上した.また,各素性の予測への重みや選挙当落との相関から,当選するためのTwitterにおける望ましい状態が示唆された.
著者
磯崎 秀樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.96, no.46, pp.33-38, 1996-05-17
被引用文献数
4

「よ」, 「ね」, 「よね」などの格助詞は, 日本語で会話を円滑に行なう場合に重要な役割を果たす. 話者は適切な終助詞を選択するために, 聴者が何を信じているか推定しなければならない. 我々は, 外界の変化の観測データから他者の信念を推定するアルゴリズムを以前に提案しており, このアルゴリズムを終助詞選択に適用できるように思える. しかし, 我々はアルゴリズムを単純化するため, 発話が信念に影響を及ほすという事実を無視していた. 本稿では正直な発話の影響を考慮するにはアルブリズムをどう変更すればよいか説明し, 実際に適切な終助詞が選択されることを例題を用いて解説する.
著者
前川 喜久雄 菊池 英明 五十嵐 陽介
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.101, no.521, pp.25-30, 2001-12-14
被引用文献数
3

本稿では日本語の韻律ラベリングスキームであるJ_ToBIを拡張した新スキーム、X-JToBI(eXtended J_ToBI)を提案する。新スキームでは分節音ラベリングが実施されていることを前提として、J_ToBIの問題点であったtoneラベル位置と物理的イベントの不一致を解消した。さらに自発音声の韻律ラベリングを実施するために必要とされる多くの拡張を施した。この拡張には、BPMインベントリの拡張と表示方法の変更、BIラベルの詳細化、フィラー用ラベルの提案、卓立のラベリング法などが含まれる。
著者
新井 優太 小林 暁雄 増山 繁
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.114, no.211, pp.37-40, 2014-09-04

現在,インターネット上には膨大な情報が存在しており,家電製品などでトラブルが発生した際,消費者はインターネット上にある同様のトラブル事例を検索し,問題解決にあたることが多い.しかしながら,そういった情報が議論されている掲示板などでは問題が複雑になるにつれて一つの話題あたりの記述量が増え,結果として求める情報を獲得するのが困難になる.そこで,その掲示板内から必要な情報を抽出するための足がかりとして,本稿では掲示板スレッドの構造化を考える.スレッド内の個々の投稿に含まれるアンカーや投稿者名の呼びかけを用いて投稿間のつながりを表した擬似ネットワークを生成した.
著者
池田 晃人 小林 暁雄 坂地 泰紀 増山 繁
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.114, no.211, pp.47-52, 2014-09-04

日本の動画共有サイトであるニコニコ動画の最大の特徴は投稿コメントである.この投稿コメントは,再生中の動画上の任意の時間,場所に重ねて表示することができ,それがニコニコ動画の動画をより一層ユーザにとって楽しいもの,価値のあるものにしている.ニコニコ動画のコメントは,その動画の1つの特徴であるといえる.動画の特徴であるコメントの情報を用いることで,動画推薦や動画検索などの様々な応用が考えられる.本研究では,ニコニコ動画のコメントから情報を得ることを容易にするために,コメントにアノテーションを行う.ここでは,アノテーションを行うのための分類を行う.
著者
嶋田 和孝 楠本 章裕 横山 貴彦 遠藤 勉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.112, no.110, pp.25-30, 2012-06-22
被引用文献数
1

複数人談話を対象とし,談話中の盛り上がり箇所を検出する手法について提案する.対話の盛り上がりを推定できれば,ユーザ心理の把握や,それに基づく詳細な対話状態の理解などが可能になる.提案手法では,言語的特徴の他に,笑いという状態に着目する.対話に現れる笑いを外部からの発話や行動に対して発生したものか,自発的な笑いかに分類する.また,笑いの大きさを3段階に分けて,特徴とする.これらの笑い特徴と,bag-of-wordsや時間的特徴,その他の言語的特徴などを組み合わせて,分類器に適用する.実験では,5分程度の複数人対話のデータを10セット用意し,提案手法で評価した.実験結果より,bag-of-wordsのみによる分類器と比較して,笑い特徴を利用した提案手法の有効性が確認された.
著者
古井 貞熙
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.109, no.355, pp.49-54, 2009-12-14
被引用文献数
1

これまで約40年間にわたって、音声認識に関する研究を行ってきた。この間に統計的手法をベースに、音声認識技術は大きく進歩したが、まだ人の能力には遠く及ばない。最近は、学会や学会誌で発表される技術の進歩がやや飽和しており、人の能力に近付く道筋が見えない。現在の研究のアプローチには、何かが欠けているように思われる。それが何かは明確でないが、現在の単純な枠組みではなく、多数のレベルの多様な知識を最適に組み合わせて着実な認識へ導く、統計的な知識処理のフレームワークを構築する必要があるように思われる。