著者
池田 和史 柳原 正 松本 一則 滝嶋 康弘
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.68-77, 2010-09-28

ブログ上の文書には口語的な表現や特有の表記などのくだけた表現が多数含まれるため,一般の形態素解析器を用いても十分な解析精度を得ることはできない.くだけた表現は人手により辞書登録されることが一般的であるが,人的コストの大きさや専門的な知識を必要とすることが課題である.本稿ではくだけた表現を正規な表現に修正することで高精度な形態素解析を実現する手法を提案する.提案手法ではくだけた表現の修正候補文字列をくだけた表現の少ない文書から自動的に検索し,修正ルールを生成する.生成した多数の修正ルールから文脈に適した修正ルールを選択的に適用するために,検索結果における修正候補文字列の出現頻度,修正前後の文字列間における編集距離,修正前後の文の形態素解析結果の比較,を用いて修正ルールをスコアリングする手法を合わせて提案する.提案手法と従来手法の性能比較評価実験を行い,各手法における未知語の出現率や単語区切りの正確さ,修正前後の文の意味変化を定量的に評価した.提案手法では従来手法と同程度の単語区切りの正確さを維持しながら,対象文章の未知語出現数を 36.1% 減少させることに成功した.これは従来手法における未知語減少数の 2.5 倍以上である.
著者
柳原 正 池田 和史 松本 一則 滝嶋 康弘
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.8, no.2, pp.313-315, 2009-08-20

一般的に用いられる形態素解析器では、単語境界や品詞の推定を行う際に形態素解析用辞書が必要である。新しい単語に対応するため、それらの単語を辞書に追加しなければならないが、この作業は人手によって行わなければならないため、コストがかかることが大きな問題となっている。本論文では、情報量基準に基づく形態素解析用辞書の自動獲得方式を提案する。提案内容では、情報量基準に基づくモデル検定によって、単語境界及び品詞を自動推定する。これにより、人手を借りずに形態素解析用辞書を自動的に更新可能となる。
著者
服部 元 原 隆浩 滝嶋 康弘 菅谷史昭 西尾 章治郎
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.1, no.2, pp.26-37, 2008-09-30
被引用文献数
1

近年,携帯電話やゲーム機,カーナビゲーションシステム,テレビなど,Web ブラウザを搭載している PC 以外の機器が増加している.しかしながら,それらの機器は一般にキーボードを搭載せず,数字ボタンや十字キーなどの限られた入力インタフェース(以下,リモコン型 UI と呼ぶ)のみを備えているものが多い.そのため,Web ページの閲覧は容易に行えるものの,Web ページの検索を行う場面では,試行錯誤しながら検索語入力を行い検索結果を絞り込むという PC と同等の検索手法は困難であることから,リモコン型 UI 端末向けの使いやすい Web 検索方法が求められている.そこで本論文では,閲覧中の Web ページに表示されている語の中からユーザが検索したい語 (注目語) を指定すると,システムが自動的に最適なページを提示するクリック型検索手法を提案する.本手法は,検索に重要な語を注目語の周辺から抽出することを特徴としており,品詞や意味,表示方法などに基づく語単独の重要度と,注目語との距離や共起の度合いに基づく重要度の2つの指標からなる周辺語重要度モデルを利用して,語の重要度を算出している.本手法を実装して検索結果に対する主観評価実験を行った結果,注目語のみで行った検索において評価が低かった検索結果のうち,最大で 63.6% のケースにおいて満足度が向上することを示した.また,2 クリック以内の検索結果に対しては,従来方式のみの場合と比較して,満足するケースが最大で 63.3% から 76.0% に向上することを示した.The Internet today provides an ubiquitous environment for viewing Web pages. Now we can view them on many kinds of terminals such as mobile phones, video game machines, car navigation systems, and television sets, besides PCs. On the other hand, most of them have limited input devices which consist of 9 number buttons and 4 direction buttons, which we call “Remote controller type input devices.” This limitation causes a difficulty to the Internet search task that we have to input correct key words by trying and erring until we find the best Web page. Therefore, we need a search system to make the task easier for Remote controller type input devices. This paper proposes a new search system, click based Web search system, which automatically searches related Web pages with a core word and surrounding words when a user clicks a specified word (the core word). The most important technique used in this system is a method to calculate the importance of each surrounding word based on a surrounding word weighting model. This model consists of the importance based on their parts of speech, meanings and expression, and the importance based on the distance and cooccurernce between a core word and the word. We performed subjective evaluation and showed that the proposed method have achieved a satisfaction rate of 63.6%, which is much higher than the results produced by other common methods on low evaluated cases. When applying to the second click the proposed method helps to increase satisfaction rate from 63.3% when only using common method to 76.0% of the final result.
著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘 滝嶋 康弘
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.8, pp.2474-2483, 2011-08-15
被引用文献数
2

本稿では高速かつ高精度に有害サイトを検出するため, Webサイトの背景色やリンク先, ブラウザに特定の動作をさせるスクリプトなど, 有害サイトに特徴的に見られる傾向をHTML要素から検出する手法を提案する. 提案手法では有害サイトのHTMLに偏って出現するような文字列を自動的に抽出し, SVM(Support Vector Machine)を用いてこれらの特徴を組み合わせて有害サイトの検出を行う. 提案手法はWebサイトの本文の情報を利用しないため, 既存のキーワードベース方式によって検出が困難なサイトも検出が可能である. このため, 既存のキーワードベース方式と組み合わせて利用することで検出精度を向上させることも可能である. 大規模なWebサイトデータを用いた性能評価実験を行い, 既存のキーワードベース方式と比較して, 適合率を9.3ポイント向上するなどの性能向上を確認した.In this paper, we propose high-speed and accurate algorithms for detecting malicious Web pages. Our algorithms detect the features of malicious Web pages from their HTML elements such as the background colors of Web pages, the server names related to malicious Web pages, or the name of javascript functions that makes browsers perform unusual actions in response to malicious Web pages. Strings that appear especially in HTML elements of malicious Web pages are automatically chosen. SVMs (Support Vector Machines) combine these strings and detect malicious Web pages. Since our algorithms do not rely on the text parts of Web pages, they can detect Web pages that existing text-based algorithms have difficulty in detecting. By conducting a large-scale performance evaluation with real malicious Web pages, we showed that the hybrid algorithms of our algorithms and existing text-based algorithms increase the precision of existing text-based algorithms alone by 9.3 points.
著者
石先 広海 Herring Susan C. 服部 元 小野 智弘 滝嶋 康弘
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.12, no.3, pp.47-52, 2013-08-20

We analyze user behavior on SoundCloud.com, a web-based music distribution site, using the methodology of computer-mediated discourse analysis. The broad goal is to infer patterns of use that can inform the development of methods to facilitate communication among online users. In order to achieve this goal, we analyze SoundCloud comments and identify site design features that facilitate users' actions, using speech act analysis and dynamic topic analysis. We address two research questions: What are the most common communicative acts on the music distribution site, and which commenting function of the site contributes most to facilitating interactive commenting? Results of speech act analysis show that 56% of comments are REACT which means site users mostly react to the song in short, simple comments. Additionally the users tend to be more interactive when using the timed comment function, which appear below the song waveform, provided by the site. Dynamic topic analysis reveals that the structure of regular comments, made on the song as a whole, shows prompt focused such as blog comment, and structure of timed comments shows sequential threads are more interactive as is the case in chatting. These findings indicate that comments which focus on particular part of the song have possibility to facilitate user's interactive comments.
著者
宮地 悟史 滝嶋 康弘 羽鳥 好律
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.7, pp.1114-1125, 2005-07-01

地上ディジタル1セグメント放送への適用を目的としたH.264レート制御方式について提案する.従来のレート制御では, GOP単位に一定量を割り当てる手法が一般的で, 画像品質の面並びにバッファサイズを用途に応じて厳密に設定できないなどの問題があった.これに対し本論文では, H.264の符号化特性をベースにして, 画像性質を最大限に考慮した情報量割当と, HRDバッファ制約への準拠との両立を目的とした方式を提案する.画像性質の反映に関しては, フレームごとの予測誤差を事前に算出し, それに基づき最適な発生情報量を予測する.また, バッファ制約の考慮については, GOPのバッファ遷移状態から得られるスケーリング概念を新たに導入し, 予測された発生情報量に適用して割り当てるべき情報量を得る.このようにして割り当てられた情報量は, 一定のバッファ制約のもとで, 各フレームの性質を相対的に反映させたものとなる.シミュレーション結果により, 本提案レート制御方式が, 画質変動を最小限に抑え, また, バッファ制約に準拠していることが確認された.
著者
池田 和史 柳原 正 松本 一則 滝嶋 康弘
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.8, no.2, pp.13-18, 2009-08-20

ブログ上の文書には口語的な表現や特有の表記などのくだけた表現が多数含まれるため、一般の形態素解析器を用いても十分な解析精度を得ることはできない。くだけた表現は人手により辞書登録されることが一般的であるが、人的コストの大きさや専門的な知識を必要とすることが課題である。本稿ではくだけた表現を文語的な表現に修正するための教師なし学習手法を提案する。提案手法ではくだけた表現の修正候補文字列をくだけた表現の少ない文書から自動的に検索し、修正ルールを生成する。生成した多数の修正ルールから文脈に適した修正ルールを選択的に適用するために、検索結果における修正候補文字列の出現頻度、修正前後の文字列間における編集距離、修正前後の文の形態素解析結果の比較、を用いて修正ルールをスコアリングする手法を合わせて提案する。提案手法を実装し、従来手法との性能比較評価実験を行った。各手法を利用したときの未知語の出現率や文節区切りの正確さ、修正前後の文の意味変化を定量的に評価した。提案手法では従来手法と同程度の文節区切りの正確さを維持しながら、対象文書の未知語出現数を30.3%減少させることに成功した。これは従来手法における未知語減少数の2倍以上である。
著者
松本 一則 内藤 正樹 帆足 啓一郎 呉 剣明 滝嶋 康弘
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. ITS (ISSN:09135685)
巻号頁・発行日
vol.108, no.424, pp.59-63, 2009-01-28
参考文献数
3
被引用文献数
2

Microsoft Wordによる電子情報通信学会技術研究報告形式のテンプレートファイルです.
著者
服部 元 武吉 朋也 小野 智弘 滝嶋 康弘
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.109, no.390, pp.13-18, 2010-01-18
被引用文献数
1

本研究では,特定のテーマに関連するノウハウ情報を効率的に収集する「ノウハウ検索」手法を提案する.既存の検索エンジンにおいては,一般的に大量の検索結果が得られる.ここで,クエリが「富士山の標高」のような,検索結果上位の数文書程度を閲覧すれば十分な回答が得られるタイプの検索であれば,問題はない.一方,クエリが「おいしいカレーの作り方」のような多様なノウハウの収集を目的とするタイプの検索の場合は,なるべく多くのWeb文書を閲覧する必要があり,検索結果を順次閲覧する方法では,時間や労力の点で限界がある.本稿では,なるべく少ない閲覧数でより多くのノウハウを集める効率的な情報収集の手法を提案する.具体的には,単語の概念関係と出現頻度を利用してノウハウに関連する単語をWeb文書から抽出し,未読のノウハウ情報を含むWeb文書を優先的にユーザに提示する.評価実験を行い,単語の概念関係を導入することでノウハウに関連する単語を多く抽出できること,および,未読のノウハウ情報を優先的に提示することで,一般の検索結果を閲覧するよりも効率的にノウハウ情報を閲覧できることを示した.
著者
帆足 啓一郎 上向 俊晃 松本 一則 滝嶋 康弘
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.3, pp.41-52, 2009-09-30
被引用文献数
1

本研究では,過去の研究において筆者らが提案した,位置情報付き写真共有 Web サイト上から収集した画像に対し,その位置情報と色特徴に基づいてクラスタリングを行うことにより,Points of Interest (POI) を表す画像群 (POI クラスタ) を自動的に抽出する手法に加え,抽出された POI クラスタに関連するランドマークの名称を自動的に推測する手法の提案と評価を行う.具体的には,POI クラスタの場所と領域に基づき,地図検索を行い,POI クラスタ周辺のランドマークの名称を収集し,次に,各ランドマーク名称を検索クエリとして Web 画像検索を行い,ランドマークに関連する画像情報を収集し,POI クラスタ内の画像との類似度を算出することにより,POI クラスタの画像との関連度が高いランドマーク名称を推測する.東京都心で撮影された画像群を対象とした評価実験により,提案手法によるランドマーク推測の有効性を実証する.This research proposes a novel method to associate specific landmarks to points of interest (POIs), i.e., areas that are expected to be of interest to many users, which can be automatically extracted by clustering geo-tagged images based on their geographical location and color features. Namely, the proposed method first collects images from the Web, by using the names of the landmark candidates of the extracted POIs as Web image search queries. The collected images are used as references of the respective landmarks. The landmark representing each POI is then determined, based on the content-based similarity between the images in the POIs, and the Web images of the landmark candidates. This approach makes possible the automatic construction of a landmark identification system for geo-tagged images. The effectiveness of the proposed method is proved by evaluation experiments conducted with images in the Tokyo metropolitan area.
著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘 滝嶋 康弘
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.8, pp.2474-2483, 2011-08-15

本稿では高速かつ高精度に有害サイトを検出するため, Webサイトの背景色やリンク先, ブラウザに特定の動作をさせるスクリプトなど, 有害サイトに特徴的に見られる傾向をHTML要素から検出する手法を提案する. 提案手法では有害サイトのHTMLに偏って出現するような文字列を自動的に抽出し, SVM(Support Vector Machine)を用いてこれらの特徴を組み合わせて有害サイトの検出を行う. 提案手法はWebサイトの本文の情報を利用しないため, 既存のキーワードベース方式によって検出が困難なサイトも検出が可能である. このため, 既存のキーワードベース方式と組み合わせて利用することで検出精度を向上させることも可能である. 大規模なWebサイトデータを用いた性能評価実験を行い, 既存のキーワードベース方式と比較して, 適合率を9.3ポイント向上するなどの性能向上を確認した.
著者
高木 幸一 宮地 悟史 滝嶋 康弘
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.79, pp.13-17, 2006-07-14

本稿では、MP3ビットストリームからAACビットストリームへの効率的な変換方式について提案する。一般に、異コーデック間における変換を実現するためには"トランスコーディング"と呼ばれるデコードおよび再エンコ―ドが必要となる。しかしながら同方式における再エンコードは音質の劣化を伴うばかりでなく、大きく時間を要すると言う問題がある。そこで、本稿では、MP3のフレーム構造と量子化スケールサイズをAACに継承する手法を提案する。同手法により、音質を劣化させることなく、AACの符号化プロセスにおいて最も時間を要する繰り返しプロセスが簡略化でき、結果として高速化が実現可能となる。実験結果により、提案手法が高音質を保持したまま符号化ドメインにおける高速変換が可能であることを検証した。In this paper, we propose an efficient conversion algorithm from an MP3 stream into AAC. Generally, this kind of conversion, "transcoding," requires full-decoding and re-encoding. However, the re-encoding based transcoding process may cause quality degradation and take a longer time. This paper proposes a transcoding method where the AAC encoding process inherits the frame structure and the quantization scale from the MP3 bitstream. This enables a reduction of iterative procedure which requires the most of processing time of AAC encoding without incurring quality degradation. Experimental results show that the proposed method realizes high speed coded domain transcoding while maintaining a higher level of audio quality.
著者
滝嶋 康弘 米山 暁夫 宮地 悟史 柳原 広昌 中島 康之 和田 正裕
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CS, 通信方式 (ISSN:09135685)
巻号頁・発行日
vol.101, no.494, pp.37-42, 2001-12-06

携帯電話に対するビデオ配信用コンテンツ制作システムの設計法を提案する。モバイルマルチメディアが注目される中、そのコンテンツ制作は従来のインターネット配信向け制作環境などとは異なる要求条件を有する。受信端末環境、伝送ネットワーク環境、製作環境における低レート伝送、素材時間短縮、補助情報・テロップ挿入、一素材多利用等の条件を考慮し、低レートAV符号化、高機能AV編集、軽量テロップフォーマット、高速フォーマット変換等の特徴を持つ制作システムを提案する。本設計に基づくソフトウエアシステムの開発に関しても報告する。
著者
滝嶋 康弘 米山 暁夫 宮地 悟史 柳原 広昌 中島 康之 和田 正裕
出版者
一般社団法人映像情報メディア学会
雑誌
映像情報メディア学会技術報告 (ISSN:13426893)
巻号頁・発行日
vol.25, no.83, pp.37-42, 2001-12-13

携帯電話に対するビデオ配信用コンテンツ制作システムの設計法を提案する。モバイルマルチメディアが注目される中、そのコンテンツ制作は従来のインターネット配信向け制作環境などとは異なる要求条件を有する。受信端末環境、伝送ネットワーク環境、制作環境における低レート伝送、素材時間短縮、補助情報・テロップ挿入、一素材多利用等の条件を考慮し、低レートAV符号化、高機能AV編集、軽量テロップフォーマット、高速フォーマット変換等の特徴を持つ制作システムを提案する。本設計に基づくソフトウエアシステムの開発に関しても報告する。