著者
大岩 秀和 松島 慎 中川 裕志
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

大規模データから省メモリかつ高速に学習を行う手法として,L1正則化付きオンライン学習アルゴリズムが複数提案されている.しかし,これらの既存手法は予測に有用であっても出現頻度の低い特徴をモデルから排除してしまう性質があった. 本研究では,低頻度かつ予測に有用な特徴を予測モデルに動的に組み込める新たな正則化手法を提案する.さらに,本手法の理論解析と実験による評価を行い,本正則化手法の有用性を示す.
著者
塚本 修一 増田 英孝 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.87, pp.35-42, 2002-09-17
被引用文献数
1

本研究は、HTMLの表形式データの構造の認識とその後の利用を目的とした変換のために、表の項目名と項目データの境界を認識するシステムを実現した。表はデータを整理し、見やすくする性質がある。しかし、携帯端末などの低解像度小画面にHTMLの表を表示する場合、スクロールすると項目名の部分が見えなくなってしまう。また、罫線が引かれている為に、表示領域にも制限が出来、単語途中の折り返しにより可読性が低下する。そこで、本研究では、表のデータをユーザが要求する形に出力するための基礎技術として、HTMLの表の構造を認識するアルゴリズムを提案する。提案手法は、表の行間あるいは列間の類似度による。すなわち類似度が低い場合には、行間あるいは列間に内容的な切れ目があると認識する。このアルゴリズムを実際のWebページ上の表データに適用したところ80%程度の認識率を得た。We implemented a recognition system to identify the boundary between attribute names and values of a table in HTML in order to obtain its structure. Table in HTML is aimed at displaying information clearly and understandably. However, users can't see the attributes of the table by using PDA, because of its small and low resolution display when they browse the Web pages. Its low readability is caused by the phenomena such that only a small portion of table is shown on the screen at once, and original one line is usually broken up into many lines on display screens. We propose an algorithm to recognize the structure of tables in HTML for the purpose of transforming them into forms of high readability even on a small screen of mobile terminal. Our method utilizes a similarity between rows(or columns)of the table. Precisely speaking, if we find an adjacent pair of rows(or columns) having low similarity, they probably are boundaries between item name row(or column)and item data rows(or columns). We achieved approximately 80% accuracy of recognition by applying our algorithm to existing tables on the Web.
著者
吉田 稔 中川 裕志 石田 智也 中嶋 啓浩 松井 藤五郎 和泉 潔 池田 翔 本多 隆虎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

ある銘柄の取引高の上昇・下降を予測するために、関連するニュース記事の見出しを利用する手法について検討する。
著者
西澤 信一郎 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.56, pp.89-95, 1996-05-28
参考文献数
7
被引用文献数
2

本稿では,日本語の会話中において,発話間の因果関係がどのような形式で記述されているのか,をコーパスを用いて検討した結果について述べる.このような談話構造は,発話者の「思考の流れ」を示しているものと考えられ,発話者は,地図課題対話など目的の定まった会話の場合はもちろんのこと,雑談など特定の目的に左右されない自由会話の場合でも,この構造をある程度認識し,協調的な会話を進めているものと考えられる.そこで,本稿では,地図課題など目的の定まった会話からなるコーパスではなく,飲み会の席上での会話データを対象とした自由課題コーパスを用いた検討を行なった.また,この検討結果を利用し,因果関係を記述するような談話構造をコーパス中から取り出すために必要な手順について提案した.We discuss here how a discourse structure representing a causality relation among two or more sentences is described in Japanese task-free dialogue. The structure, we think, shows "the stream of consideration" of a speaker. We argue that the speaker recognizes the structure and have a conversation cooperatively even in the case of task-free dialogue. Then, we discuss the causality relation with a corpus of Japanese task-free dialogue and show how to find out discourse structures for the relation from the corpus systematically.
著者
山田 剛一 中川 裕志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.57-58, 1996-03-06

話し言葉を扱おうという研究が増えている。話し言葉の特徴として挙げられる現象はいくつかあるが、その一つに、助詞の省略(脱落)と呼ばれているものがある。例えば、次の文では「私の発表」という名詞句の後ろに助詞が存在しない。(1)私の発表何番目でしたっけ?特にかしこまった場面でなければ、話し言葉では、このような無助詞の名詞句が頻繁に現れる。既存の書き言葉の文法を持った解析システムでは無助詞を扱うことはできないので、何らかの助詞を補って、書き言葉での適格文にする必要がある。しかし、本当に助詞が省略されていて、それを補わなければならないのだろうか。
著者
中川 裕志
雑誌
研究報告マルチメディア通信と分散処理(DPS) (ISSN:21888906)
巻号頁・発行日
vol.2021-DPS-188, no.11, pp.1-6, 2021-09-02

死後の個人データの扱いは個人の尊厳の維持,あるいは生前の意思にできるだけ沿うことが重要である.この観点から,本報告では故人に永遠の生命をディジタルな形で与える不死のディジタル人格に関して,そのビジネス化あるは商業利用の実情を述べる.故人の顔画像の福笑いのような行き過ぎた,あるいはエンターテイメント化した故人の個人データのビジネス化などにみられる問題点を指摘して,故人の個人データのビジネス化のあるべき姿を模索する.
著者
中川 裕志
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2014, pp.2B4OS15a4, 2014

<p>ビッグデータとりわけパーソナルデータの活用が2013年6月に政府指針として打ち出されたが、前後してJR東のSuicaデータの扱いを巡る騒動が起こった。この状況を踏まえて、政府のパーソナルデータに関する検討会の技術検討ワーキンググループ報告が12月10日に公表された。この報告から明らかになった匿名化を現実社会で使うにあたっての制度設計提言に基づく技術課題について述べる。</p>
著者
和泉 潔 池田 翔 石田 智也 中嶋 啓浩 松井 藤五郎 吉田 稔 中川 裕志 本多 隆虎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第25回全国大会(2011)
巻号頁・発行日
pp.2H1OS186, 2011 (Released:2018-07-30)

本研究では,新聞記事データを用いた業種別株価指数の分析の新たな手法を提案した.本手法を用いて,2009年の1 年間を対象に外挿予測精度を評価した結果,予測精度の目標とした52%を超えた業種は,19 業種中11業種(57.8%) であった.また,予測正答率は時期・業種によって予測正答率の季節性が見られた.これにより,期間毎のテキストマイニングによる予測の信頼度を測る指標になることが期待できる.
著者
中川 裕志 杉本 雅則 渡部 聡彦
出版者
一般社団法人 情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.50, no.6, pp.339-344, 2000-06-01 (Released:2017-05-25)
被引用文献数
1

東京大学に1999年度に設立された情報基盤センターの図書館電子化部門および同研究部門は図書館の電子化ならびに将来像を検討するために新設された部門である。設立以来の短い期間に部門のメンバーが考えてきたことは, 必ずしもまだまとまっているわけではないが、いくつかの有力なアイデアも提案されてきているので報告する。まず, 図書館の概念に対するアンチテーゼ的な見方を述べ, 次に情報基盤センター図書館電子化部門で近未来にどのようなサービスを企画しているかを述べる。最後に, 将来, アカデミックな共有の場としての図書館において有望なユーザインターフェース技術の紹介をする。
著者
滝澤 修 松本 勉 中川 裕志 村瀬 一郎 牧野 京子
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.8, pp.1977-1979, 2004-08-15

プライバシ保護などに利用できるステガノグラフィ(秘匿通信)は,情報の埋め込み媒体が持つ情報の冗長性を利用するため,画像や音響信号など冗長度の高い媒体について多く提案されてきた.本論文では,ディジタルドキュメントを埋め込み媒体とし,文書内に挿入された改行コードの位置を秘匿情報とするテキストステガノグラフィを提案する.提案手法はドキュメントのレイアウト情報を利用しないため,電子メールのようなプレーンテキストに対しても秘匿情報の埋め込みが可能で,文字通信においてプライバシを保つ手段として利用できる.
著者
佐倉 統 福住 伸一 中川 裕志
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2019, pp.4Rin138, 2019

<p>この論文の目的は,人とAIが一緒に写っている写真を対象にしてそれらの構図を分析すること(図像分析)が,人−AI関係の文化的相違の解明に資すると示すことである.試行的に得られたインターネット上の画像から,日本由来の写真では人とAI/ロボットは横並びに位置してこちらを見ていることが多く,欧米由来の写真では人とロボットがお互いに向き合っている構図が多いことがわかった.共視論研究(北山,2005)によれば,日本の浮世絵の母子像は何か別の物(第三項)を一緒に注視していることが多く,西洋の絵画ではこのような共視は少ないという.このような"共視"は人では生後9か月から見られるようになる.浮世絵の母子関係と同じパターンが人−AI関係にも見られるのだとすると,それはAIやロボットが人間の子供と同じく何物か(第三項)を共同注視することのできる存在,それだけの認知能力をもった存在として日本では無意識に認知していることを示唆する.欧米ではAI/ロボットはもっと人に従属する存在として位置づけられているのではないか.今後より体系的な図像分析をおこない,東アジア内での国際比較(日韓台)をおこなう必要がある.</p>
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-46, 2003-01

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
中川 裕志 佐藤 一誠
出版者
東京大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2012-04-01

プライバシー保護データマイニングのひとつである差分プライバシーは有望な方法であるが、データベースのレコード間に相関がある場合の分析があまり進んでいなかった。本研究では、相関がある場合に従来の差分プライバシーを適用した場合、データ入手を狙う攻撃者が相関に関する背景知識を少なく持っているほうが、流出する情報が大きいという直感に反する状況を明らかにし、この状況を改善するために背景知識も考慮したベイズ型差分プライバシーの数理モデルを確立した。この数理モデルにおいて情報漏洩の確率を与えられた閾値以下にする加算すべきラプラス雑音のパラメタを求める近似的アルゴリズムを示した。
著者
簗瀬 拓弥 増田 英孝 山田 剛一 荒牧 英治 中川 裕志
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2013-IFAT-110, no.1, pp.1-6, 2013-02-21

本研究では電車の運行状況をリアルタイムに一般の Twitter のユーザのツイートから取得することを目的とする.対象として常磐線をキーワードとして含むパブリックタイムライン上のツイートを半年分収集した.このデータを用いて単位時間あたりのバースト数を元に定常時と異常時を判別し,通知を行うシステムを試作した.また,遅延や運転見合わせ時のユーザのツイートの特徴の分析を行った.
著者
滝澤 修 松本 勉 中川 裕志 村瀬 一郎 牧野 京子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.8, pp.1977-1979, 2004-08-15
参考文献数
1
被引用文献数
1

プライバシ保護などに利用できるステガノグラフィ(秘匿通信)は,情報の埋め込み媒体が持つ情報の冗長性を利用するため,画像や音響信号など冗長度の高い媒体について多く提案されてきた.本論文では,ディジタルドキュメントを埋め込み媒体とし,文書内に挿入された改行コードの位置を秘匿情報とするテキストステガノグラフィを提案する.提案手法はドキュメントのレイアウト情報を利用しないため,電子メールのようなプレーンテキストに対しても秘匿情報の埋め込みが可能で,文字通信においてプライバシを保つ手段として利用できる.In the usual steganography applied to digital documents, secret messages are embedded in the layout information (e.g., the space between lines or characters) because character codes have no redundancy. This paper proposes a new method for hiding information in plain text without using any layout information. It enables a secret message to be embedded as binary digits that are related to the number of characters in each line of the cover text.