著者
吉井 和輝 Eric Nichols 中野 幹生 青野 雅樹
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-106, no.4, pp.1-8, 2015-05-18

単語ベクトルは,統計的自然言語処理で利用しやすい分散意味表現として近年盛んに用いられるようになってきた.しかしながら,今まで主に英語で評価されてきたため,英語以外の言語での有効性は不明である.本研究では,単語の類推 (word analogy) と文完成 (sentence completion) の二つの評価タスクを用い,著名なオープンソースツールである word2vec (gensim の再実装) と GloVe を用いて構築した日本語単語ベクトルの評価を行った.単語の類推タスクでは,英語データで公表されている結果に近い結果を得たが,文完成のタスクでは,精度が大幅に減少した.本稿では,両タスクのエラー解析で明らかになった英語の単語ベクトルと日本語の単語ベクトルの性能差や,日本語特有の問題について調査した結果について述べる.
著者
吉井 和輝 Eric Nichols 中野 幹生 青野 雅樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理
巻号頁・発行日
vol.2015, no.4, pp.1-8, 2015-05-18

単語ベクトルは,統計的自然言語処理で利用しやすい分散意味表現として近年盛んに用いられるようになってきた.しかしながら,今まで主に英語で評価されてきたため,英語以外の言語での有効性は不明である.本研究では,単語の類推 (word analogy) と文完成 (sentence completion) の二つの評価タスクを用い,著名なオープンソースツールである word2vec (gensim の再実装) と GloVe を用いて構築した日本語単語ベクトルの評価を行った.単語の類推タスクでは,英語データで公表されている結果に近い結果を得たが,文完成のタスクでは,精度が大幅に減少した.本稿では,両タスクのエラー解析で明らかになった英語の単語ベクトルと日本語の単語ベクトルの性能差や,日本語特有の問題について調査した結果について述べる.
著者
LindaChangvisommid 青野雅樹
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.305-306, 2013-03-06

特定の映画から興行収入を予測することは、研究者や映画制作者にとってもまだ難しい問題である。本研究では、映画のデータを入手し、そこから考えられる素性を検討した。次に、この素性を使って、興行収入を数値としてではなく、収入の範囲から5値あるいは9値等に分類し、分類問題に帰着させる。そこでSVM等を用いて映画の興行収入を予測する実験を行った。実験に用いるデータは、映画に関するオンラインデータベースIMDB(The Internet Movie Database)および興行収入情報のBox Office Mojoから取得した。素性には、映画のジャンル、出演者、監督、公開時期などを含み、これらの素性を用いて予測モデルを作成し、交差検証方法を用いてモデルの評価を行った。
著者
佐藤智博 青野雅樹
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.693-694, 2013-03-06

ウェブでの情報検索手段として検索エンジンが広く用いられている.しかし,検索エンジンによるランキングを不正に得る行為が横行しており,これをウェブスパムと呼ぶ.そのコンテンツは機械生成的に単語を羅列したり,近い意味の単語を組み合わせたりすることにより構成されていることが多い.そこで本研究は,ウェブスパム検出の為の効率的なコンテンツベース素性を抽出する手法を提案する.ウェブスパムコーパスに対し潜在的ディリクレ配分法(LDA)を適用することで,トピック毎に単語群を抽出することができる.これらから単語を選択しコンテンツベース素性とする.この素性を用いて機械学習によるウェブスパム検出を行い,提案手法の有効性を確認した.
著者
立間 淳司 関 洋平 青野 雅樹 大渕 竜太郎
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J91-D, no.1, pp.23-36, 2008-01-01

本論文では,「周辺強調画像」(PEI:Periphery Emphasized Image)による輪郭輝度強調を処理の一部として含む,複数のフーリエスペクトルの重ね合わせによる特徴量表現を主たる特長とする,検索性能の高い新しい三次元モデルの形状類似検索手法を提案する.対象とするデータは,ISOの国際標準であるVRML形式(VRML2.0)で与えられるデータとする.VRMLでは,三次元物体形状を,基本的に多角形の集合(いわゆる``ポリゴンスープ'')で表現する.このため,立体としての三次元データの特徴量を,通常は仮定することができない.本提案手法では,VRMLで表現された三次元形状のデータベースが与えられたとき,これにまず,点正対(Point SVD)と法線正対(Normal SVD)を適用する.正対処理を通して,三次元モデルは,正規化された空間で(回転などの影響の少ない)向き合わせがほぼ完成した状態となる.次いで,正対処理された三次元形状モデルに対してレンダリングを行い,Depth buffer画像,シルエット画像,輪郭画像,ボクセルの四つの形状表現を生成し,それぞれのフーリエスペクトルを計算し,それらの低周波成分の組合せを特徴量とした.また,Depth buffer画像とシルエット画像に関しては,三次元物体の輪郭を強調するため「周辺強調画像」(PEI)に輝度変換するという工夫を施した.提案手法の有効性を検証するために,三次元物体形状の類似検索のベンチマークデータであるPrinceton Shape Benchmark,Engineering Shape Benchmark,及びSHREC2007の3種類のデータセットを用いた.従来手法との比較実験の結果,これまで知られている代表的な形状類似検索手法よりも優れた検索性能を得た.
著者
大渕竜太郎 青野 雅樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告グラフィクスとCAD(CG) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.77, pp.91-96, 1996-08-22
被引用文献数
3

本論文では,コンピュータグラフィクスにおけるglobal illumination(大域照明)問題のray?tracing(光線追跡法)による解法をlow?discrepancy sequences (DS)を用いたquasi?Monte Carlo (M)積分法により高速化する手法を述べる.本論文ではまずLDSの性質について簡単に紹介し,ついでQMC光線追跡法が単純なMonte Carlo光線追跡法より速く,またStratified?Monte Carlo光線追跡法とほぼ同速度で収束することを実験的に示す.最後に,適応的に光源をサンプルするerror?bounded luminaire sampling (BL)法を提案する.実験により,EBLS法はQMSの速く正確な収束と随時サンプル数を追加できる性質をうまく使い,画像全体での光源サンプル数を固定した場合には,EBLS法を用いない場合に比べて,特に半影などの偏差の大きくなり易い部分で画像の質を改善することを示す.In this paper, we describe a quasi-Monte Carlo (QMC) method, which employs deterministic low-discrepancy sequences (LDSs), to solve the global illumination problem. We first describe characteristics of LDSs. Then, in a distribution ray-tracing setting, we show that the QMC integral with LDSs converges significantly faster than the Monte Carlo (MC) integral and about as fast as the stratified-Monte Carlo (SMC) integral with a typical pseudo-random sequence. Finally, we describe our adaptive error-bounded luminaire sampling (EBLS) method. The EBLS method exploits two advantages of QMC; (1) convergence is faster and more accurate than MC, and (2) unlike SMC, samples can be added incrementally in small increments. Experiments showed that, given a budget of luminaire samples per image, the EBLS algorithm produces higher-quality images, especially in the penumbrae, than a method in which the numbers of samples per luminaire was predetermined.
著者
大渕竜太郎 増田 宏 青野 雅樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.41, no.3, pp.559-569, 2000-03-15
被引用文献数
1

各種のデジタルコンテンツを対象とし,電子透かしと呼ばれる情報をコンテンツ自体に埋め込み,この情報を著作権管理などの目的で利用しようとする研究が行われている.最近その埋め込み対象として3次元モデルが加わったが,これまでの電子透かし手法は3次元ポリゴンメッシュやその属性を対象として開発されおり,そのままでは(形状)CADモデルには適用できない場合がほとんどである.これは,CADモデルの多くは主たる形状定義プリミティブとしてポリゴンではなくパラメータ曲線・曲面を用いていること,またCADモデルでは既存の手法による透かし埋め込みにともなうトポロジや幾何形状の変更を許さない用途が圧倒的に多いこと,の2つの理由による.本論文は,non-uniform rational B-spline(NURBS)曲線および曲面を対象とした新たなデータ埋め込みアルゴリズムを提案する.このアルゴリズムは,再パラメータ化に用いる有理線形関数の持つ自由度を使って情報を埋め込む.再パラメータ化はNURBS曲面・曲線の幾何形状を厳密に保存し,また,有理線形関数による再パラメータ化はNURBSの次数や節点数を変えないためモデルのデータ量も保存する.本論文ではさらに,NURBSに限定しない種々のパラメータ曲線・曲面を対象とした情報埋め込み手法の概略を,幾何形状の保存とデータ量の保存という2つの要件で分類・整理して列挙した.Digital watermarking adds various information to digital contents for copyright management and other applications. 3D model has recently been recognized as a watermarking target data type. However, existing watermarking algorithms target polygonal meshes and their attributes for watermarking so that they can't be readily applied to the majority of (geometric) computer aided design (CAD) models for two major reasons. First, these CAD models employ parametric curves and surfaces, not polygonal meshes, as their main shape-defining primitives. Second, most CAD applications do not tolerate modifications of model topology and/or geometry that are introduced by existing watermarking algorithms. This paper proposes a new watermarking algorithm for non-uniform rational B-spline(NURBS) curves and surfaces, which employs rational linear reparameterization for embedding messages. The algorithm exactly preserves the shape,-that is, the geometry and topology-of its watermarking targets. Furthermore, it preserves the data size of the model. We consider these two properties, exact preservation of shape and preservation of data size, to be important in various applications of CAD models. In addition to the shape- and data size-preserving data embedding algorithm for NURBS curves and surfaces, this paper outlines additional methods for embedding data in various types of parametric curves and surfaces.
著者
栗山 繁 大渕 竜太郎 青野 雅樹 持丸 正明
出版者
豊橋技術科学大学
雑誌
基盤研究(B)
巻号頁・発行日
2006

人体の動作や形状を計測して大規模に蓄えられたデジタルデータ集合に対し、所望のデータを探し出す技術とそのデータを様々に役立てる再利用技術を開発した。動作データの探索に関しては世界最高の性能を達成し、規則の導出に基づく新たな探索機構も開発した。一方、形状データの探索に関しても特徴量の学習に基づく各種手法を開発し、世界最高クラスの性能を達成した。また、再利用技術を用いた種々のアプリケーションを開発した。
著者
北村 順平 青野 雅樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.113, pp.45-50, 2008-11-19

ウェブスパムでは、より多くのトラフィックを集めることを目的に様々なスパミング手法が用いられている。ウェブの専門家がウェプスパムを識別することは不可能ではないが、膨大な数のウェブスパムを 1 つ 1 つ識別することは非現実的である。そこで我々は、機械学習を用いることで半自動的にウェブスパムを検出する手法を提案した。本手法では訓練用のウェブサイトとテスト用のウェプサイト間の類似度を求めることでウェブスパムの検出を行う。類似度は KNN と SVM を組み合わせた SVM-KNN を拡張したものを用いた。WEBSPAM-UK2007 データセット [1] を用いて本手法の評価を行った結果、効率的にウェブスパムを検出できることを確認した。Web spams use many kind of techniques to achieve more traffic from search engines. A web specialist can identify a webspam from websites but it's a distant idea to identify all webspams from a huge number of websites. We propose a method which can semi-automatically detect webspams by applying machine learning techniques. Our method uses similarity of websites to detect webspams. Similarities are determined by KNN, SVM and SVM-KNM. Experimental results on WEBSPAM-UK2007 datasets [1] show that we can efficiently identify webspams.
著者
向井 誠 青野 雅樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2005, no.94, pp.27-32, 2005-09-29

本研究では,RSSで記述されたWebコンテンツ群からユーザの嗜好に沿ったコンテンツの取得にかかる労力を最小限に抑えることを目的に,Webコンテンツの推薦を実現するプロトタイプシステムの設計,実装を行う.既存の検索エンジンでは見つけにくい最新ニュース記事やBlogなどの更新頻度の高いWebサイトに対し,その概要の記述にRSSを用いることが多くなった.しかし,RSSフィードが増加するにつれこれまで同様"情報の洪水"が問題となっている.提案手法ではRSSに記述されたコンテンツに対して内容に基づくフィルタリングを適用し,ユーザの興味に沿ったコンテンツの推薦提示を実現する.Recently, we can find a large amount of contents on the WWW. However, it has been difficult to extract some valuable information for us. In this paper, we propose a recommendation system which is based on Content-based Filtering. Our method aims at helping users to find information from RSS Feed that are in accordance with their personal interests. A method of generating User Profiles based on user preference is a very important task for providing recommendation systems. Therefore, we propose two method of generating User Profiles: Dynamic User Profile and Static User Profile. These Profiles corresponds to some kind of user preference.
著者
青野 雅樹 小林 メイ
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告マルチメディア通信と分散処理(DPS) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.54, pp.79-84, 2002-06-06

近年ブロードバンドのインターネットの普及に伴い,巨大なデータの伝送や処理がネットワークを介して行うことが可能となってきた。同時に,横溢する巨大データに対する知的な処理(マイニング)の重要性が増してきた。本報告では,ベクトル空間モデルでモデル化された大規模文書データの次元削減手法による,情報検索,クラスタリング,および可視化について述べる。コンテンツ解析や理解を助けるために開発した,自動推奨する3つの軸(基底ベクトル)に投影してデータ表示したり,この3次元空間での回転・拡大縮小,平行移動といったアフィン変換操作が可能なProsciuttoと呼ばれるシステムに関しても言及する。We present a novel system, Prosciutto, for IR (Information Retrieval) and visualization of the contents of massive databases. The system has several notable features. One of the most useful is a similarity search based on vector space modeling. Another is a service to recommend three mutually perpendicular subspace coordinate axes in attribute space onto which document vectors can be projected and displayed for view to help users understand relationships between a query and database documents.