著者
相澤 彰子
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
オペレーションズ・リサーチ : 経営の科学 = [O]perations research as a management science [r]esearch (ISSN:00303674)
巻号頁・発行日
vol.52, no.11, pp.706-712, 2007-11-01
参考文献数
10
被引用文献数
1

情報を伝達するための文字の並びを「テキスト」と呼ぶ.テキスト中に出現するさまざまな構成要素は,その出現位置によって他の要素と関係づけられている.この要素どうしの関係が織りなす空間はどのようなものになるだろうか?言語処理の分野では,このような空間は「意味」と密接な関係があると考える.そして空間上での距離が近いものは,何らかの意味的な近さをもつという前提のもとに,さまざまな類似度尺度が適用される.本稿では,テキストをめぐるさまざまな「共起」事象について述べ,これらを扱うための統計的手法や適用事例を紹介する.
著者
相澤 彰子
出版者
社団法人情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.64, no.11, pp.469-474, 2014-11-01

学術文献のデジタル化によって,計算機による文献の言語解析が容易に行えるようになった。現在の文献検索は,比較的単純なキーワード抽出処理に基づいているが,大量の文献をさらに言語解析することで,利用者が必要な文献を検索したり,分野全体を俯瞰したりする作業の支援が期待できる。そこで本稿では,学術文献に対する言語解析の適用とその活用法について概観するとともに,デジタル文書と言語解析をつなぐための要素技術として,デジタル文書からの自然言語文の切り出しおよび専門用語の抽出について,その必要性や難しさを論じる。
著者
藤沼祥成 横野光 PascualMartinez-gomez 相澤彰子
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014-SLP-101, no.3, pp.1-8, 2014-05-15

あるイベントの盛り上がりに対して,それに関するツイートにも変化が現れその変化に着目することで盛り上がりを検出することが可能であると考えられる.本研究ではこの盛り上がり時間帯中のツイートに用いられている表現の特性を解析することを試みる.はじめに各時間帯のツイート集合とツイートより構築した言語モデルの関係をクロスエントロピーで算出した.実験結果より複数のハッシュタグ間における一部の盛り上がり時間帯のツイートはツイートより構築した n-gram 言語モデルに従うことを示す.また,盛り上がっている時間帯とそうでない時間帯において,クロスエントロピーにおいて統計的に有意差があることを示した (p<0.02).また,n-gram 言語モデルでは捉えられない素性も検討するため,Support Vector Machine (SVM) と Random Forest により各ツイートを盛り上がり時間帯の二値分類を行い,盛り上がり時間帯の特徴として漢字数が少ないことが明らかになった.
著者
藤沼祥成 横野光 PascualMartinez-gomez 相澤彰子
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.3, pp.1-8, 2014-05-15

あるイベントの盛り上がりに対して,それに関するツイートにも変化が現れその変化に着目することで盛り上がりを検出することが可能であると考えられる.本研究ではこの盛り上がり時間帯中のツイートに用いられている表現の特性を解析することを試みる.はじめに各時間帯のツイート集合とツイートより構築した言語モデルの関係をクロスエントロピーで算出した.実験結果より複数のハッシュタグ間における一部の盛り上がり時間帯のツイートはツイートより構築した n-gram 言語モデルに従うことを示す.また,盛り上がっている時間帯とそうでない時間帯において,クロスエントロピーにおいて統計的に有意差があることを示した (p<0.02).また,n-gram 言語モデルでは捉えられない素性も検討するため,Support Vector Machine (SVM) と Random Forest により各ツイートを盛り上がり時間帯の二値分類を行い,盛り上がり時間帯の特徴として漢字数が少ないことが明らかになった.
著者
松崎 拓也 岩根 秀直 穴井 宏和 相澤 彰子 新井 紀子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

「ロボットは東大に入れるか」プロジェクトにおける数学問題への取り組みについて報告する。開発中の解答システムは、問題文の論理表現を接点として、統語・意味理論に基づく言語解析と数式処理システムによる推論とを直接結合したものである。本稿では、システムの概要および実際の試験問題を用いた実験について述べるとともに、さらに多様な解答システムの開発へ向けた基礎資源となる数学問題対訳コーパスについて紹介する。
著者
相澤 彰子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.3, pp.1426-1436, 2008-03-15
参考文献数
23
被引用文献数
5

本論文では,タグなしテキストから類語関係を抽出するタスクを例にとり,自然言語処理における大規模コーパスの適用について考察する.近年ではウェブに代表される大規模なテキスト集合が利用可能となり,単純な手法でもコーパス規模が十分に大きければ,潜在的意味解析法(LSA)などの従来手法と比較しうる高い性能が得られるとの報告もある1).そこで論文中では,まず,大規模コーパスを用いた語の類似度計算における問題点を実際のデータに基づき調べる.次に,広範囲の語と共起する語が類似度計算におけるノイズとなるという前提のもと,ノイズ低減のためフィルタリング法,サンプリング法の2 つの方法を提案する.また,評価のための類語抽出タスクを設計し,新聞記事およびウェブ文書コレクションの2 つのコーパスを用いて,提案手法による性能改善を確認する.This paper focuses the utilization of large-scale text corpora in the task of synonymous relationship identification. Recently, large-scale text corpora became available for automatic synonyms extraction and it was reported that the performance of simple methods adapted to large-scale corpora was sometimes comparable to the one of more elaborative methods such as Latent Semantic Analysis (LSA) adapted to traditional linguistic resources 1). In this paper, assuming that the similarity calculation is affected by the co-occurrences with high frequent words, we propose two methods for reducing the bias. Also proposed is a method for extracting datasets for performance evaluation using both lexico-syntactic patterns and conventional human editing thesaurus. The effectiveness of the proposed methods is shown using newspaper and Web document collections.
著者
荒川唯 亀田尭宙 相澤彰子 鈴木崇史
雑誌
第74回全国大会講演論文集
巻号頁・発行日
vol.2012, no.1, pp.617-618, 2012-03-06

Twitterは,東日本大震災の際にも活用され,新たなメディアとして注目を浴びている.Twitterに関する研究は数々行われてきたが,ここでTwitter上での情報の発信,伝播について改めて問い直す必要があると考えられる.本研究の目的はTwitterのRetweet(以下RT)されやすいTweetを実証的に分析し,特徴を示すことである.データとしてフォロワー数の多い40アカウントの約28,756Tweetを収集した.文体と内容の特徴を抽出し,ユーザーのカテゴリーごと,RT数ごとに,機械学習による分類実験を適用した.本研究はRTされやすいTweetの特徴を示すことで,新しいメディアにおけるコミュニケーションの一面を考察し,人々のTwitterでの情報発信,伝播の一助となることを目指す.
著者
藤沼 祥成 横野 光 相澤 彰子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

近年 Twitterの発展により正式な表記でないもの、いわゆる崩れた表記が増加した。崩れた表記には話者の感情等の情報が含まれており、正式な表記に直すとそれらの情報が失われると考えられる。本論文ではそのような情報を抽出の最初の段階として「おはよう」に注目し、崩された「おはよう」を抽出した。また、その崩された「おはよう」がどのようなルールにて正式な表記から崩れた表記に変化するかについて分析を行う。
著者
藤沼 祥成 横野 光 Pascual Martinez-Gomez 相澤 彰子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.112, no.367, pp.35-40, 2012-12-12

近年 Twitter を始めとする Consumer Generated Media (CGM) の発展により、正式な表記でないもの、いわゆる崩れた表記が増加してきた。特に日本語を処理する時に前処理として分かち書きを必要とするが、このような崩れた表記に対しては現在の自然言語処理ツールは対応できていない。本論文においては一つの単語、「おはようございます」に注目し、Conditional Random Field (CRF) を用いて崩された「おはようございます」を抽出した。また、「おはよう」がどのようなルールにて正式な表記から崩れた表記に変化するかを追究した。実験では「おはよう」に相当する部分の抽出と「おはようございます」に相当する全体の抽出を行った。実験の結果、共に 0.91 を超える F1 値で抽出できた。また「おはよう」に相当する部分に対しては「おはよう」からどのように変換されたかのルール抽出を行い、JUMAN7.0 にないルールを抽出できた。
著者
原 忠義 トピチ ゴラン 宮尾 祐介 相澤 彰子
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-217, no.3, pp.1-9, 2014-06-26

自然言語処理 (NLP) ツールの多くが入力として平文テキストを前提とする一方で,実文書中のテキストは多様なレイアウト,文構造,埋め込みのオブジェクトなどによって,より表現豊かに表示されている.このようなテキストを NLP ツールで解析する際には,ツールの利用者が対象テキストをツールに合った入力形式に変換しなければならない.また,利用者の不慣れな変換作業によって得られた入力を用いたところで,そのツールが本来持つとされる性能を発揮することは困難となるであろう.本研究の目的は,平文テキストでは表し切れないテキスト構成がタグを用いて表現されるような XML 文書の解析を題材として,この問題への意識喚起を促すことにある.我々は,XML でタグ付けされたテキストと,NLP ツールの入出力となる平文テキストとの間の一般的な変換枠組を提案し,本枠組を用いて獲得されるテキスト列が,単純にタグを除去して得られるテキストよりも構文解析器で高被覆かつ高効率に処理できることを示し,実文書を NLP 技術と適切に繋ぐ技術を開発することの重要性を浮き彫りにする.
著者
山口 雄仁 藤芳 明生 渡辺 哲也 鈴木 昌和 相澤 彰子 川根 深 駒田 智彦 金堀 利洋
出版者
日本大学短期大学部
雑誌
基盤研究(A)
巻号頁・発行日
2013-04-01

本研究では,全盲・重度弱視・発達性読字障害など様々な形で視覚に障害を持つ児童・生徒が,インクルーシブな教育環境でデジタル教科書を容易に利用できるようにするため,電子書籍の国際標準規格EPUB3(DAISY4)に準拠するアクセシブルなデジタル教科書の標準モデルを確立した。それに基づいて既存のデジタル教科書に含まれる数式・化学式や図・グラフ・表・地図など特殊表記・2次元情報を,バリアフリー化するためのコンテンツ制作・編集システムと,多言語でそうしたコンテンツを利用するための閲覧システムなどを開発するとともに,わかりやすい触読図製作ツール,理数系文書理解支援技術などを研究した。
著者
長谷川 新 相澤 彰子 浜本 隆之
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

パーソナライゼーションにおいて、ユーザが求めている情報を判断するには、趣味嗜好を表した情報(プロファイル) との類似度の計算をする必要がある。しかし、ユーザの情報は様々な形式やトピックを含むため、文書構造の解析やトピックの分析が必要となり、類似度の計算は容易ではない。そこで、テキスト情報を対象に、圧縮に基づく情報間類似度を応用することで、トピックを意識せず類似度を測る手法を提案し、評価する。
著者
蔵川 圭 武田 英明 高久 雅生 相澤 彰子
出版者
日本知能情報ファジィ学会
雑誌
日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集 第25回ファジィ システム シンポジウム
巻号頁・発行日
pp.140, 2009 (Released:2009-12-15)

科学研究費補助金における研究者番号を持つ研究者を対象とし,Web上の研究者リソースをリンキングするサービスとして研究者リゾルバーαを構築して公開している.リンキングのためには,同姓同名や異体字などの様々な問題を克服して研究者同定をしなければならない.ここでは,科研費の研究者と代表的な34大学の研究者総覧データベースに登録された研究者の漢字氏名を対象に同姓同名分析を行った.その上でシステム内部の同定手法を定め実装し,同定精度をサンプル調査した.本報告では,これらの結果について示す.
著者
相澤 彰子
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.7, pp.1720-1730, 2003-07-15

本論文ではテキスト分類における低頻度語の利用とその効果について述べる.テキストに含まれる多数の低頻度語を手がかりとして利用するために,線形判別関数に基づく単純なテキスト分類法に注目し, (1)情報量的な観点に基づく重み付け尺度,(2)確率的言語モデルにおける統計的ディスカウンティング法の適用,(3)形態素解析ツールを利用した複合語抽出処理による性能の改善を目指す.実験では,ともにスケーラビリティに優れた手法である単純ベクトル法やサポートベクタマシンを用いて,大規模なテキスト分類問題における改善や特性を考察する.
著者
相澤 彰子
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.41, no.12, pp.3332-3343, 2000-12-15

本論文では語と文書の共起関係に注目し,与えられた文書集合中での語の特徴度の量的表現やその適用について,情報量的な観点から考察を加える.今日,情報検索の分野において広く用いられている ?tfidf (term frequency -inverse document frequency)は,語頻度と対数文書頻度の逆数を乗じた尺度である.ここで $tf$ を語の総出現頻度で正規化した値は,語の出現確率の推定値に対応しており,さらに $idf$ は一種の情報量として解釈できることから,?tfidf ? は確率と情報量をかけあわせた尺度であるといえる.本論文では,このような ?tfidf ? の定義を拡張して,語の特徴度を,「語の出現確率」と「語の持つ情報量」の積の形で一般的に定義し,実際のテキストデータに適用した結果を示す.
著者
相澤 彰子
出版者
一般社団法人 情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.68, no.12, pp.574-579, 2018-12-01 (Released:2018-12-01)

学術論文の数が加速度的に増加する中で,研究活動に必要な最新の情報を逐一入手することは,もはや研究者の手に負えなくなってきている。人工知能は,このような問題への解決の糸口を与えるものと期待される。そこで本稿では,人工知能による学術情報の検索・理解支援に焦点をあてて,(1)大量の論文の中から関連論文を容易に見つけるための検索・推薦技術,(2)論文の内容を素早く的確に把握するためのキーワード抽出・自動要約技術,(3)論文に書かれた知識を抽出して活用するための言語解析・知識獲得技術などについて,現状と課題を概観する。
著者
佐藤 和宏 市瀬 龍太郎 栗原 聡 相澤 彰子 沼尾 正行
出版者
日本知能情報ファジィ学会
雑誌
日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集 第25回ファジィ システム シンポジウム
巻号頁・発行日
pp.139, 2009 (Released:2009-12-15)

科学研究費の申請データを解析した結果について,報告する.本研究の目的は,研究助成金申請データから研究分野間の関係性を抽出する手法を,研究領域の時系列変化の解析と予測に応用することである.従来,学術研究の動向を調べる研究としては,論文のデータを用いる事が一般的であった.しかし論文を用いる方法には,研究分野によってバイアスがかかるという問題がある.これに対し著者らは,研究分野間の関係性の抽出に研究助成金申請データを用いることを提案し,その有効性を2005 年度の科研費申請データを用いて示した.本論文では,その手法を複数年度のデータに対して適用し,研究領域の時系列変化の解析と予測を行った結果について説明する.解析結果として,時系列変化の抽出に対する有効性を示唆する結果が得られた.予測もある程度は可能であったが,解決すべき課題が多く残っている.