著者
吉田 光男 乾 孝司 山本 幹雄
巻号頁・発行日
2010-02

Web 2.0 はWeb 上における情報の双方向性を強化し,新たなWeb サービスを生み出した.そのWeb サービスの一種としてTwitter をはじめとするマイクロブロギング・サービスが挙げられる.マイクロブロギング・サービスはオンライン・ソーシャル・ネットワーキング・サービスの一種であり,個人の情報プラットフォームとして機能する.本論文では,代表的なマイクロブロギング・サービスであるTwitter のリンクを含むつぶやきに着目し,その特徴を調査した.その結果,人間による投稿とボットによる投稿では投稿文字列長に顕著な差があること,ユニークユーザ数の多いニュースサイトがTwitter ではあまり注目されていないことなどが明らかになった.
著者
山本 幹雄 小林 聡 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.33, no.11, pp.1322-1330, 1992-11-15
参考文献数
11
被引用文献数
20

音声対話における発話文は 言い淀み 言い直し 間投詞 助詞の省略 倒置などの話し言葉特有の特徴を持つため これまでの書き言葉に対する自然言語の解析手法をそのまま適用するには問題がある・本論文では解析において まず問題と通る名詞文節の助詞落ちと倒置について 実際の音声対話文約1 800文を分析し その結果をもとに解析手法を提案する.音声対話文では 名詞文節の約4%の助詞が省略されていた.省略される助詞は「が を に は」など述部に係る場合に必須格の機能を持つものが80%を占めていた.係り先の性質としては 述部に係る助詞落ち名詞文節の99%が最も近くの述部に係る.また 文頭にある助詞落ち名詞文節は「は」が省略される可能性が高く(68%) 遠くに係る可能性を持っているまた 係り関係(格)については 述部の格構造の簡単な意味制約によって 90%が推定できることが分かった.倒置に関しては 述部に係る文節が倒置される場合が94%を占めており 倒置された句が1つ前の文節に係る場合が91%であった.また 倒置された句の直前の文節は必ず終止形で終わっていることが分かった.以上の分析を反映したヒューりスティックスを助詞落ちに関して5つ 倒置に関して2つ提案した.語彙が700の小規模な実験タスクで評価した結果 助詞落ち 倒趣共に約90%の例を正しく解析できることが分かった.
著者
岡登洋平 加藤佳司 山本 幹雄 板橋秀一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.2, pp.469-478, 1999-02-15
被引用文献数
13

機械とユーザの対話において 機械が人間と同様に相槌を打つことが可能であれば ユーザの話しやすさの改善につながる. 本研究では 話し手の発話間にポーズの出現とほぼ同時に相槌が打たれる場合を対象として システムによる相槌挿入を試みた. システムが適切なタイミングで相槌を打つにはポーズを検出するよりも早く相槌の挿入判定を行う必要がある. そこで本稿では話し手の発話から抽出した韻律情報を用いて 予測的に相槌の挿入判定を行う手法について検討した. まず対象としたテレフォンショッピングをタスクとした対話について音声を分析し 聞き手の相槌が韻律的に特徴のある話し手の発話箇所で打たれていることを示した. 次に相槌音声を消去した対話を聞かせ 相槌の箇所を人間が判定する実験を行ったところ 実際に出現した相槌の76%は実験でも検出され 発話長が長い場合に相槌を打つと判定した被験者が多いことが明らかになった. さらに相槌を打つタイミングについて 対話の分析と知覚実験を行った. この結果 相槌は発話中のポーズ開始から0.3秒以内に打つ必要があることが明らかになった. そこでテンプレートを用いた韻律パターンの認識による相槌タイミングの検出方法を提案し 相槌判定のための予測時間を変えて相槌挿入判定とタイミングの検出実験を行ったところ 予測時間0.1秒のとき84% 予測時間0.4秒のとき72%のタイミング正解率を得た. また予測時間0.1秒のとき得られたシステムの応答を人間が評価したところ 抽出箇所の74%は自然な発声箇所であると判定された.A user's degree of comfort in a man-machine spoken dialog environment is likely to improve, if spoken dialog systems can provide correct 'Aizuchi' responses to the use's utterances. This hypothesis was evaluated using a dialog corpus that relates to telephone shopping tasks, and contains 'Aizuchi' responses near the end of a speaker's utterance. The evaluation also requires a dialog system capable of detecting 'Aizuchi' timing before the end of the utterance. To this end, therefore, a method is proposed which uses prosodic information to guide correct 'Aizuchi' responses. A preliminary prosodic analysis of our utterances confirmed that an 'Aizuchi' indeed relates to the duration, speaking rate and minimum F0 of an utterance. Next, using dialogs from which 'Aizuchi' responses were previously removed, an experiment was carried out to spontaneously prompt such responses from human subjects. Results show that subjects were able to match about 80% of the 'Aizuchi' responses contained in the original dialogs, and that many subjects tended to do so during long utterances. Then, a dialog analysis was performed to investigate 'Aizuchi' timing, Results of which indicate that the system should give an 'Aizuchi' within 0.3 seconds of the end of the speaker's utterance. By comparison, in an 'Aizuchi'-prompting experiment based on prosodeic pattern recognition, the system achieved 84% with no 0.1-second prediction of end of utterance and 72% with 0.4-second prediction. Finally, human perceptual evaluation of the timing of system detection, yielded an accuracy of 74% which lends support to the naturalness of 'Aizuchi' response given by system.
著者
吉田 光男 乾 孝司 山本 幹雄
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:03875806)
巻号頁・発行日
vol.54, no.12, pp.2502-2512, 2013-12

ブログページには,Web検索エンジンなど機械的にページを処理するシステムにおいてノイズになる部分が含まれる.そのため,ブログのコンテンツを利用するためには,コンテンツの抽出処理が必要になる.さらに,ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読み手によるコンテンツに二分できる.ポストとコメントの存在はブログの特性の1つであり,ブログの特性を活用するシステムや研究では,ポストおよびコメントを別々に抽出できていることが望ましい.本論文では,ブログページ集合を用いることにより,ポストとコメントを自動的に分離抽出する手法を提案する.複数のブログ記事ページを含むあるブログサイトにおいて,ポストはすべての記事ページに出現するが,コメントはいずれかの記事ページにしか出現しないという点に着目し考案した.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を検証し,コンテンツをポストおよびコメントに分離できることを確認した.Content extraction is necessary to use blogs as data for Web search engines, because blog pages are excessively added noisy parts such as menus, advertisements and copyright notices. Most of the blog contents are texts, and those can be divided in two parts, posts and comments. A post is a content written by the blog owner and a comment is piece of text written by readers in response to the owner's post. In this paper, we propose a simple method to extract the posts and comments separately from series of blog pages, whose posts are all written by the same owner. The proposed method is based on the assumption that although posts appear in all blog pages, comments do not. We describe experimental results to show good performance of the proposed method using real Web pages of the blog sites in Japanese.
著者
吉田 光男 山本 幹雄
出版者
日本データベース学会
雑誌
日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日
vol.8, no.1, pp.29-34, 2009-06

近年のCMS の普及によりWeb ページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWeb ページ群からコンテンツを抽出する手法を提案する。本手法は、Web ページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web 上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。
著者
山本 幹雄 貞光 九月 三品 拓也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.104, pp.29-34, 2003-10-17
参考文献数
10
被引用文献数
9

混合ディレクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布)、文脈/文書の確率モデルを検討する。本稿では、混合ディレクレ分布のパラメータおよび適応時に必要な事後分布の期待値推定方法をいくつか述べ、動的に適応する?textit{n}gram言語モデルを用いた実験で確率的LSAのベイズ的な発展モデルとの比較を示す。混合ディレクレ分布や混合Polya分布は他のベイズ的な文脈モデルに比べて単純なので、予測分布を閉じた式で導出可能である。これは、Latent Dirichlet Allocation (LDA)のような他のベイズ的なモデルがいずれも予測分布の推定に近似を必要とする点と比べて、大きな優位性といえる。実験では、混合ディレクレ分布を用いたモデルが低い混合数で比較モデルよりも低いパープレキシティを達成できることを示す。We investigate a generative context/text model using Dirichlet mixtures as a distribution for parameters of a multinominal distribution, whose compound distribution is Polya mixtures. In this paper, we describe some estimation methods for parameters of Dirichlet mixtures and a posterior distribution (adaptation), and show experiments to compare the proposed model with the other Bayesian variants of Probabilistic LSA in perplexity of adaptive \textit{n}gram language models. Since the Dirichlet and Polya mixtures are simpler than the other Baysian context models such as Latent Dirichlet Allocation (LDA), the posterior distribution can be derived as a closed form without approximations needed by LDA. In the experiments we show lower perplexity of Dirichlet mixtures than that of the other.
著者
龍 梓 木村 龍一郎 飯田 頌平 宇津呂 武仁 三橋 朋晴 山本 幹雄
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J102-D, no.3, pp.104-117, 2019-03-01

ニューラル機械翻訳(NMT)の弱点の一つとして,扱える語彙に限りがある点が知られている.NMTにおいては,語彙辞書に含まれていない単語は未知語トークンとして出力されるため,これが誤訳となる.従来法では,出力文に含まれた未知語トークンが対応する原言語の単語を推定しその訳語に置き換えることによって,NMTにおいて出力可能となる語彙の規模を拡大した.しかし,この方式は,単語単位での語彙規模の拡大にとどまる点が弱点であった.本論文においては,ニューラル翻訳において,大規模フレーズ語彙に対応する方式を提案する.具体的には,訓練用対訳文においてフレーズ間の二言語対応の情報を収集し,二言語間で対応済みのフレーズ対訳対を同一のトークンに置き換えた後,NMTモデルの訓練を行う.翻訳時には,NMTモデルの語彙集合中の語彙部分に対しては,NMTモデルによる訳文生成がなされ,一方,その他のフレーズまたは単語語彙部分に対しては,SMTモデルによる翻訳がなされる.日中,中日,日英,英日の各方向の翻訳において評価を行い,提案手法の有効性を検証した.
著者
山本 幹雄 貞光 九月 三品 拓也
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2003, no.104(2003-SLP-048), pp.29-34, 2003-10-17

混合ディレクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布)、文脈/文書の確率モデルを検討する。本稿では、混合ディレクレ分布のパラメータおよび適応時に必要な事後分布の期待値推定方法をいくつか述べ、動的に適応する?textit{n}gram言語モデルを用いた実験で確率的LSAのベイズ的な発展モデルとの比較を示す。混合ディレクレ分布や混合Polya分布は他のベイズ的な文脈モデルに比べて単純なので、予測分布を閉じた式で導出可能である。これは、Latent Dirichlet Allocation (LDA)のような他のベイズ的なモデルがいずれも予測分布の推定に近似を必要とする点と比べて、大きな優位性といえる。実験では、混合ディレクレ分布を用いたモデルが低い混合数で比較モデルよりも低いパープレキシティを達成できることを示す。
著者
吉田 光男 荒瀬 由紀 角田 孝昭 山本 幹雄
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 = Proceedings of the Annual Conference of Japanese Society for Artificial Intelligence
巻号頁・発行日
vol.29, no.2I1-1, pp.1-4, 2015

ウェブ検索エンジンに入力されるクエリの検索頻度は人々の興味関心を反映しており,流行の分析などに有用なデータである。しかし,その検索頻度データを検索エンジン事業者以外が利用することは困難である。そこで本論文では,検索結果の上位に表示される傾向のあるWikipediaのページビューデータを用いれば検索頻度を推定できると仮定し,その推定可能性を検証する。The frequency of a web search query generally reflects the degree of people's interest in the subject matter. Search logs are therefore a useful resource for trend analysis. However, accessing search logs is typically restricted to search engine providers. In this paper, we investigate whether search frequency can be estimated from another resource, namely, Wikipedia page view of open data. As a result, frequently searched queries revealed remarkably high correlations against Wikipedia page view. This fact suggests that Wikipedia page view is effective for understanding popular web search trends happening around the world.
著者
伊藤 敏彦 大谷耕嗣 肥田野 勝 山本 幹雄 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.1994, no.109, pp.49-56, 1994-12-15
被引用文献数
5

自然な発話を許す音声対話システムでは、ユーザの発話を表現する文法が書き言葉と比べてかなり緩くなり、しかも間投詞、言い直しなどの現象も多く生じるため、音声認識率はどうしても低くなる。受理可能な文を多くすることと認識率はトレードオフであるためどこかで妥協する必要があり、このため話者の入力文と受理可能な文にはギャップが生じる。また自然な発話を音声認識部だけで対処することは現在のところ無理があり、誤認識された入力文にも対処することが意味理解部に要求される。本報告では以上の問題点に関する検討のための基礎データを集めることを目標に行なった3つの実験について述べる。一つ目は音声対話システムを使用するユーザへの事前の説明を変えることによって対話システムへのユーザの入力がどのように変化するかを調べた。二つ目はユーザの入力文数に対して異なり単語数がどのように変化するかを調べ、あるタスクでどの程度の単語数が必要かを検討した。三つ目の実験は音声認識部によって生じた誤認識を人間はどれくらい原文と意味的に同じ文に訂正できるかである。It is difficult to recognize and understand spontaneous speech, because spontaneous speech has many phenomena of ambiguty such as omissions, inversions, repairs and so on. Since there is a trade-off between the looseness of linguistic constraints and recognition precision, the recognizer cannot perfectly recognize the completely free speech of the user on the current art of speech recognition. Therefore some problems arise. First problem is that there are gaps between sentences a dialog sysytem can accept and sentences the user wants to say. Second problem is that the semantic analyzer has to understand sentences with misrecognition that human never utters. In this paper, we describe three experiments concerning the problems of spontaneous speech dialog systems and their results. First experiment is about effects of a prior explanation of the system's limit on the speaker's utterance. Second experiment is about the relationship between the number of different words and the number of inputs. Third experiment is about recovery strategies of human to understand correct meanings of misrecognized sentences.
著者
吉田 光男 乾 孝司 山本 幹雄
雑誌
楽天研究開発シンポジウム論文集
巻号頁・発行日
vol.2009, pp.7-10, 2009-11

近年のWeb ページの増加により,Web ページのコンテンツを利用するサービスや研究が盛んになってきている.本論文では,Web ページ集合を用いる事により,CSS セレクタで表現されたコンテンツ抽出ルールを自動的に獲得する手法を提案する.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対して適切な抽出ルールが獲得できた事を示す.
著者
川原 一真 山本 幹雄
雑誌
全国大会講演論文集
巻号頁・発行日
vol.54, pp.21-22, 1997-03-12
被引用文献数
2

ワードプロセッサ等を用いて作成された日本語文書に含まれる各種の表記誤りを、計算機により校正するために様々な手法が提案されている。誤り検出ルールを用いた手法では、誤り検出ルールを人手によって作成しなくてはならず、手間がかかる。また、辞書を用いた形態素解析システムを使って、入力文を形態素解析した結果と準備しておいた形態素辞書とを比較する手法では、使用した形態素解析システムが誤った文を無理矢理正しい形態素の連続としてしまう可能性が強い。そこで我々は、文に対して辞書を用いない方法で分割位置を与えるシステムを用いて、正しい文から成ると考えられるコーパスから単語辞書を構築し、その辞書との比較によって表記誤りを検出する手法を提案する。一定の基準で入力文を分割するシステムを用いるため、英文スペルチェッカーで実用化されている手法が流用できるのではないかという期待ができる。また、正しい文からなるコーパスを用いれば、誤り検出用の辞書が自動で得られるというのも利点である。なお今回の実験で、本手法によってミスタイプとかな漢字変換誤りの一部を検出できるということが確かめられた。
著者
角田 孝昭 吉田 光男 津川 翔 山本 幹雄
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

自動車販売台数の推移は、季節成分を伴った典型的な経済時系列である。また、高額商品であるため購入者はインターネット上で事前調査を念入りに行う傾向が高い。本論文では、状態空間モデルによる販売数の時系列分析に、ユーザの注目度を反映したデータを加えた予測手法を提案する。評価実験ではGoogle TrendsまたはWikipediaのページビューデータを統合することにより、予測の精度が改善できることを示す。
著者
貞光 九月 三品 拓也 山本 幹雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.9, pp.1771-1779, 2005-09-01
被引用文献数
6

混合ディリクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布), 生成文書モデルを提案し, 統計的言語モデルへの応用という面で高い性能をもつことを示す. 本論文では, 混合ディリクレ分布のパラメータ推定法及び適応時に必要な事後分布の期待値推定法をいくつか述べた後に, 二つの代表的な従来の文書モデルと比較する. 一つ目の従来モデルは, 統計的言語モデルにトピックを取り込むときによく使われるMixture of Unigramsである. 二つ目は代表的な生成文書モデルであるLDA(Latent Dirichlet Allocation)である. 新聞記事を用いた文書確率及び動的に適応するngramモデルを用いた実験で, 提案モデルは従来の二つのモデルと比べて低い混合数で低いパープレキシティを達成できることを示す.
著者
吉田 光男 山本 幹雄
出版者
日本データベース学会
雑誌
日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日
vol.8, no.1, pp.29-34, 2009-06
被引用文献数
3

近年のCMS の普及によりWeb ページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWeb ページ群からコンテンツを抽出する手法を提案する。本手法は、Web ページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web 上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。
著者
吉田 光男 乾 孝司 山本 幹雄
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.12, pp.2502-2512, 2013-12-15

ブログページには,Web検索エンジンなど機械的にページを処理するシステムにおいてノイズになる部分が含まれる.そのため,ブログのコンテンツを利用するためには,コンテンツの抽出処理が必要になる.さらに,ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読み手によるコンテンツに二分できる.ポストとコメントの存在はブログの特性の1つであり,ブログの特性を活用するシステムや研究では,ポストおよびコメントを別々に抽出できていることが望ましい.本論文では,ブログページ集合を用いることにより,ポストとコメントを自動的に分離抽出する手法を提案する.複数のブログ記事ページを含むあるブログサイトにおいて,ポストはすべての記事ページに出現するが,コメントはいずれかの記事ページにしか出現しないという点に着目し考案した.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を検証し,コンテンツをポストおよびコメントに分離できることを確認した.
著者
吉田 光男 乾 孝司 山本 幹雄
出版者
情報処理学会
雑誌
情報処理学会研究報告. データベース・システム研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2009-DBS-149, no.20, pp.1-8, 2009-11

近年のブログの普及により,ブログのコンテンツを利用するサービスや研究が盛んになってきている.ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読者によるコンテンツに大分する事ができる.ブログのコンテンツを利用する場合は,それらが別々に抽出できている事が望ましい.本論文では,ブログ記事集合を用いる事により,ポストとコメントを自動的に分離抽出する手法を提案する.本手法は,ポストはブログ記事集合全てのブログ記事に出現するが,コメントはいずれかのブログ記事にしか出現しないというアイデアが基になっている.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を示す.
著者
山本 幹雄
巻号頁・発行日
2012

科学研究費助成事業(科学研究費補助金)研究成果報告書:基盤研究(B)2009-2011