著者
池田 定博 金田 重郎 金杉 友子 加藤 恒昭
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.99, no.708, pp.113-120, 2000-03-17
参考文献数
6
被引用文献数
2

商品開発やマーケティングでは、効果的なコンセプトの作成が極めて重要である。しかし, 思いついた多数のコンセプトや広告コピー案の中から, 戦略の柱となるキーワード候補を絞り込んでゆく方法は知られていない.本稿では, この問題を解決するため, 「流行ことば予測」手法を提案する.そこでは, まず, 過去・現在・将来における流行語の背景となる社会的要因を、「ことば」として表現する.そして, 今後流行の可能性がある新しい「ことば」と, これら社会的要因との距離を計算し, 「近い」と算出されたことばから, 流行のキーワードを開発する.過去の「ことば」としては, 自由国民社発行の「現代用語の基礎知識」を使用し、距離計算にはベクトル空間法を利用した。1998年度の流行語大賞である「ショムニ」等が, どのような背景により流行したかを実験的に分析する。
著者
大塚 裕子 伊藤 裕美 川野 佐江子 大村 陽 室町 泰徳
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.109, no.390, pp.73-78, 2010-01-18

本研究は,道路や鉄道の建設など大規模な都市交通プロジェクトに関する国際共同研究(Mega Projects in Transport and Development by OMEGA Centre)の日本プロジェクトの一部として進められている.大規模な都市交通プロジェクトに関わった多様な人々を対象に,プロジェクトに関する経験的なエピソードを得ることを目的としてインタビューを実施し,経験的なエピソードからプロジェクトに関する知見を取り出し,プロジェクトに関する新たな評価指標を作成することが目標である.知見の取り出しについては,テキストマイニング技術による自動的な抽出を最終的な目標としているが,本稿では自動抽出に向けて,収集したインタビューデータがどのような性質を有しているか,着目すべき言語表現や言語構造は何かについて基礎的な分析を行った.
著者
矢野 明
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.105, no.300, pp.89-94, 2005-09-15

大局的センシングは局所の特徴によらない全体の特徴に関するセンシングである.これは, 人間の脳においても活用されており, 従来の局所的特徴を用いたパターン認識にこれを加えることによって認識率が大幅に改善されることが期待される.この方式をここでは筆跡鑑定に応用した.手始めに, 縦横比, 上下, 左右に占める線の面積比等を前処理データとしてパーセプトロン型学習機械にかけたところ, 被験者3人の書いた各6文字中, 5文字で学習し, 残りの1文字で正しく鑑定できた.そこで, 被験者を増やし, 様々な前処理を工夫して実験を続け, 大局的センシングの有効性を示す結果を得た.
著者
金丸 裕亮 豊嶋 章宏 奥村 紀之
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.114, no.81, pp.29-33, 2014-06-07

TwitterやFacebook,ウェブログ等のソーシャルメディアが広く利用されるようになり,それに伴いソーシャルメディア上でのトラブルも年々増加している.ソーシャルメディア上では,不用意な発言によってたちまち炎上してしまう.本研究では, Twitterに着目し,大量のログデータから他者が受け取るイメージ(感情)を抽出することで,ソーシャルメディア上で形成される発信者の性格(表層心理)を推定する手法について検討している.実験として,ある発信者のログデータを感情判断システムによって解析し, Big Threeモデルとの対応を行うことで,ソーシャルメディア上での発信者の性格を推定している.
著者
高橋 哲朗 野田 雄也
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.110, no.400, pp.43-48, 2011-01-20
参考文献数
7

Twitterには,ユーザの行動や思考,意見,感覚などが投稿されているため,大量のtweetを集約することで実世界で起きている現象をとらえるセンサーとして用いることができる可能性がある.これを検証するために,我々は,Twitterに投稿された「花粉症」に関するtweetを集め,それらを都道府県別にマッピングし可視化するシステムを作成した.そして,ここで得られた情報と,実際の花粉の飛散量との関係を分析し,Twitterのセンサーとしての利用の可能性について議論する.
著者
加島 幸 渡部 広一 河岡 司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.480, pp.69-74, 2008-01-31

記述された1枚の文書が与えられたとき,文の内容から,人間はそれが単なる情報文なのか試験問題のような問題文なのかを常識的に判断し,問題文であった場合には,文章の指示に従い問題を解き答えを出す.本稿では,人間と同じように,コンピュータに記述文章が問題文であることを判定させ,記述された指示に従い解答を出す文書問題解決システムを提案する.このシステムは,問題文の文法的な観点での意味理解部と,コンピュータのもつ算数知識や国語知識を概念連想や常識判断で整合させ,問題の解答を求める意味解釈部により構成している.
著者
増市 博 大熊 智子 鷹合 基行
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.106, no.299, pp.1-8, 2006-10-13

本稿では,深い言語処理のための言語理論の一つであるLexical Functional Grammar(LFG)を取り上げ,LFGに基づく日本語文法記述および日本語文解析/生成システムの研究,開発の現状とその応用技術について述べる.日本語LFGシステムの解析カバー率はEDRコーパスを対象とした場合で97.3%であり,適合率85.9%,再現率83.9%の係り受け精度を実現している.また,LFGに基づく文生成では95.7%の生成成功率を実現している.このように深い言語処理は精度およびカバー率の点で実用化のレベルに近づいてきている.さらに,宣言的な文法規則に基づく深い言語解析システムを用いれば,通常の係り受け解析システムよりも豊富な情報を持つ解析結果を得ることができる.今後深い言語処理技術は,より高度な言語処理アプリケーションを構築していく上で重要な役割を担っていくと考えられる.本稿では,このような深い言語処理の応用例として,日本語LFGシステムを用いた,医療テキストを対象とする情報抽出手法について説明を行う.
著者
永井 秀利 中村 貞吾 野村 浩郷
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.102, no.690, pp.25-32, 2003-02-28
参考文献数
16

我々は,マイクで拾えない程度の微発声または無発声で発声された発話の内容を認識し,これを計算機への自然言語入力として用いることを研究している.人が発声を行う場合,実際には声に出さなかったとしても,声を出した場合に類似した筋肉の活動が生じると思われる.そこで我々は,それを表面筋電位から捉えることにより,発話内容を認識することを目指している.本稿では,日本語の5母音の認識に活用するために,表面筋電測定位置として口裂周辺の4個所を選定した.その表面筋電波形を計測して分析を行った結果,この4個所でも母音認識の手がかりがかなり得られることや,声の強弱などの発声時の特徴も波形に反映されていることが確認できた.
著者
横山 弘子 大町 真一郎 阿曽 弘具
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.97, no.593, pp.1-8, 1998-03-12
被引用文献数
8

本報告では, シソーラスを自動的に構築するための手がかりとして, コーパス内の単語の共起情報をもとにクラスタリングにより多義動詞の意味分類を行なう手法を提案している.この手法について, 1つの多義動詞に対して意味に応じたクラスタを形成する実験を行った.コーパスとして1年分の朝日新聞社説を用い, まず着目した多義動詞を含む社説を複数収集しそこから得た名詞間共起情報によるクラスタリングの結果, いくつかの動詞で意味に応じたクラスタが形成されることが確認された.また, 多義動詞の類義語を含む社説も追加して同様のクラスタリングを行った.これにより着目した動詞を含む社説のみ用いた場合意味に応じたクラスタが形成されなかった動詞についても良好な結果が得られた.
著者
菊井 玄一郎 門内 健太 高橋 寛幸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.112, no.196, pp.31-36, 2012-08-23

検索サービスに入力される検索語のうち入力頻度が急上昇したものを「検索ホットワード」(バースト語)と呼ぶ。本稿では、これらの語が検索エンジンやブログ、twitterで経時的にどのような頻度で言及されているかを分析するとともに、検索頻度が急上昇した要因となる事象がこれらの書き込みから推定可能かを検討した。その結果、twitterでの言及のバーストが検索クエリ頻度上昇の先行すること、バーストの時間がその契機となった事象(例えば、TV番組での指示対象事物の露出など)にかなり即応的であることなどがわかった。また、急上昇ワードの「由来」や急上昇となった「要因」がtwitterの分析によって70%程度推定可能であることなどが分かった。
著者
堀内 貴司 千葉 靖伸 浜本 武 宇津呂 武仁
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.102, no.200, pp.93-100, 2002-07-09

本論文では,WWW上の報道記事サイト等から日本語および英語など,異なった言語で書かれた文書を収集し,多種多様な分野について,分野固有の固有名詞(固有表現)や事象・言い回しなどの訳語対応を半自動的に獲得する枠組を提案する.特に本論文では,言語を横断して内容的に関連した日英報道記事を収集する手法について述べ,さらに,言語横断関連報道記事検索により自動収集された日英関連記事対から,半自動的に訳語対応を獲得する手法を提案する.評価実験においては,評価用記事集合に対して言語横断関連報道記事検索の性能を評価した後,言語横断関連報道記事検索の性能と訳語対応獲得の性能の相関について分析した結果について詳しく述べる.
著者
高野 敦子 平井 誠 北橋 忠宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.95, no.29, pp.25-32, 1995-05-12
被引用文献数
2 1

我々は,ユーザが自然言語を用いてシステムと対話することによってデータベースから情報を検索するためのユーザフレンドリーなインタフェースの提供を目指している.そのための基礎技術の1つとして,本研究ではユーザの検索文に対する協調的な応答生成手法を提案する.我々は,既に対話一般を対象として,質問文に対して協調的な応答を生成するモデルを提案している.そこで,ユーザの検索文を質問文と捉え,そのモデルをデータベース検索という観点から再構成することによって協調的な応答生成手法を示す.本手法では,検索者の意図を考慮することにより,検索の失敗への対応含めてより検索者の目的に合った応答の実現を図る.また,検索者の意図の実現や心理的要素を考慮して検索者にとって有用な情報を付加した応答を生成する.
著者
藤沼 祥成 横野 光 Pascual Martinez-Gomez 相澤 彰子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.112, no.367, pp.35-40, 2012-12-12

近年 Twitter を始めとする Consumer Generated Media (CGM) の発展により、正式な表記でないもの、いわゆる崩れた表記が増加してきた。特に日本語を処理する時に前処理として分かち書きを必要とするが、このような崩れた表記に対しては現在の自然言語処理ツールは対応できていない。本論文においては一つの単語、「おはようございます」に注目し、Conditional Random Field (CRF) を用いて崩された「おはようございます」を抽出した。また、「おはよう」がどのようなルールにて正式な表記から崩れた表記に変化するかを追究した。実験では「おはよう」に相当する部分の抽出と「おはようございます」に相当する全体の抽出を行った。実験の結果、共に 0.91 を超える F1 値で抽出できた。また「おはよう」に相当する部分に対しては「おはよう」からどのように変換されたかのルール抽出を行い、JUMAN7.0 にないルールを抽出できた。
著者
鶴岡 慶雅 近山 隆
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.101, no.189, pp.91-97, 2001-07-09

統計的クラス分類器としての決定リストは, 近年自然言語処理における様々な分野でその有効性を示している.決定リストを構成する上で, もっとも重要な問題の一つは, ルールの信頼度の算出法である.しかし決定リストを用いた多くの研究では, 信頼度の算出法についてそれほど注意が払われていない.そこで本論文では, ベイズ学習法を利用してルールの信頼度を算出する手法を示す.さらに, 証拠の種類ごとに異なる事前分布を利用することで, より正確な信頼度の推定が可能になり, 決定リストの性能が向上することを示す.本論文では, 本手法の有効性を確かめるために, 擬似単語の判定問題に関して実験を行った.その結果, 事前分布を用いることにより判定精度の向上と, 判定の信頼度自身の正確さの向上という, 2つの点で効果が見られた.
著者
東 優 峯 恒憲 雨宮 真人
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.96, no.294, pp.39-44, 1996-10-11
被引用文献数
6

動詞の多義性解消の手段の一つとして格フレームを利用する方法がある。しかし、実用規模の格フレームは現存しないため、その作成が望まれている。この格フレームの構造として、実際の文中に現れた共起関係を集め、その共起情報を統合したものがある。この共起情報を統合する際には、何らかの基準に従って、文を分類する過程が必要となる。我々は、その分類基準として、文間の類似度を計る方法を取り、その類似度を計算するための辞書として、EDR電子化辞書の概念体系辞書を利用することとした。しかし、EDR電子化辞書は人間の手で作成されたものであるため、分類基準に個々人の主観が影響しており、実際にどの程度利用可能なものか明らかになっていない。そこで本稿では、まず、我々の格フレーム獲得手法を提案し、その手法を使った文の分類結果をもとに、EDR電子化辞書の特徴ならびに本手法の有効性について議論する。
著者
張 文利 柳沼 良知 坂内 正夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.99, no.707, pp.69-74, 2000-03-16

TVドラマや映画はシナリオ文書によって制作されている。シナリオ文書よりロケ場所、人物名及び個々の台詞の抽出が簡単のため、検索などの操作はシナリオ文書を基づいて行うことができる。しかしながら、シナリオ文書に対応するの映像部分を見つけ出すようなより複雑な検索は難しい場合もある。なぜなら、映像に付随したり関連したりする音声や文書といった複数のメディアが最初から対応付けているわけではないためである。このため、DPマッチング法を用いた複数メディアの対応付けに基づいたドラマ映像記述システムを開発している。この手法により、複数のメディアの認識を協調し互いに助け合うことで、より高次な構造化・データベース化が実現できる。ここでは、このドラマ映像記述システムの紹介に併せてシステムの評価を述べる。
著者
野本 忠司 松本 裕治
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.97, no.200, pp.1-6, 1997-07-25

本稿では大学生を中心とした被験者112名について要約文指摘能力に関する調査を行い、そのデータをもとにした自動要約手法について述べる。要約問題は日本経済新聞95年の記事から随想 (春秋)、社説、一面報道の各分野別に粒度の揃った記事を選び作成した。調査結果はKappa統計と呼ばれる尺度で評価し、さらに調査データから要約文判定の被験者間一致度を調べ、その高低に応じていくつかのデータセットを作成した。一方、自動要約の手法として、C4.5学習アルゴリズムを使い、上記データセットに対する要約モデルの生成とテスト実験をおこなった。実験の結果、K値と自動要約モデルの性能との間に相関傾向があることが認められた。
著者
田畑 惣太郎 岩崎 慶 高木 佐恵子 吉本 富士市
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.104, no.668, pp.1-6, 2005-02-18

現在, 多くの情報検索システムがあるが, モバイル環境で利用できるものは少ない.本稿ではモバイル環境で簡単に利用できる花の画像検索システムについて述べる.本システムは, 携帯電話を用いて撮影した花の画像とその位置情報, および花の簡単な特徴を花の画像検索サーバに送り, 検索した結果を携帯電話で確認するシステムである.特徴量の和による順位付けと, 各特徴量の順位を用いた順位付けの2種類について, 特徴量の重みを変化させて, 検索方法の評価を行った.その結果, 目的とする花が第1位から第10位までに入ったものが最も高かった組み合わせにおける検索率は, 前者で89%, 後者で87%であった.
著者
三浦 康秀 増市 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.158, pp.139-144, 2007-07-17
被引用文献数
1

本稿では,専門分野コーパス内に出現頻度の低い専門用語の候補文字列があるときに,その文字列を構成する部分文字列および専門分野コーパス内での周辺文字列のパープレキシティ用いて,専門用語としてのスコア付けを行う手法を提案する.文字列が与えられたときに,文字列を構成するn-gramの部分文字列を抽出しレそれらの専門分野コーパスでのパープレキシティを計算する.また同時に,専門分野コーパス内で文字列の周囲に現れるn-gramの周辺文字列のパープレキシティを計算し,これらの比を文字列のスコアとして設定する.本手法の評価実験として,インターネット上で公開されている病名辞書および解剖学用語辞書の見出し語を構成する文字列で,約6,7000件の医療テキスト内での出現回数が5回以下の文字列についてスコア付けを行い,上位200文字列の用語としての成立の可否を医師が確認した.また,比較のため名詞の出現頻度および連接頻度を用いるTerm Extractでも同様の実験を行った.結果として平均で,1-gramでは正解率70.4%,2-gramでは正解率83.5%が得られ,Term Extractによる正解率,70.6%と比較して良好な結果が得られた.
著者
サルワシュ マーテー 古井 貞煕
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.102, no.527, pp.141-146, 2002-12-12

本論文では、形態素単位による音声認識における音韻論と形態構文論のモデル化への新しいアプローチについて述べる。提案法は、我々が構築しているハンガリー語の大語彙連続音声認識(LVCSR)システムによって評価されている。タスクは、主要日刊新聞を流暢に読み上げた文音声の認識である。接辞や複合語のために膨大な数になる単語形を十分にカバーするために、形態素に基づく語彙単位をシステムに用いている。基本的な発音モデルと形態素Nグラムに対して、新しい音韻論モデルと新しい統計的形態構文言語モデル(SMLM)を評価した。柔軟性の高いトランスジューサに基づくシステム構成のおかげで、これらの新しい要素は、デコーダ自体を変更することなく、基本的なモジュールと親和性よく統合されている。ベースラインシステムに比較して、提案した音韻論モデルにより誤り率が8.32ルにより誤り率が17.9%低下した。1350形態素のハンガリー語ディクテーションタスクで、最良の構成で14.75%の形態素誤り率が得られている。