著者
吉田 光男 乾 孝司 山本 幹雄
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2009-DBS-149, no.20, pp.1-8, 2009-11-13

近年のブログの普及により,ブログのコンテンツを利用するサービスや研究が盛んになってきている.ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読者によるコンテンツに大分する事ができる.ブログのコンテンツを利用する場合は,それらが別々に抽出できている事が望ましい.本論文では,ブログ記事集合を用いる事により,ポストとコメントを自動的に分離抽出する手法を提案する.本手法は,ポストはブログ記事集合全てのブログ記事に出現するが,コメントはいずれかのブログ記事にしか出現しないというアイデアが基になっている.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を示す.
著者
山本 英子 武田 善行 梅村 恭司 山本 幹雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.71, pp.9-15, 2000-07-28
被引用文献数
2

本論文では,情報検索に利用でき、かつ表記の揺れに寛容な類似度を提案する.表記の揺れに対応することができる編集距離という手法があるが,この手法では情報検索精度が弱いことが知られている.そこで,本論文では,情報検索の性能を持ち,かつ表記の揺れにも対応することができるダイナミックプログラミングを用いた類似度の計算法を提案し,その情報検索性能が単語に基づく手法とngramに基づく手法と比較した結果,効果的であり,かつ提案した手法が表記の揺れに寛容であることを報告する.In this paper, we propose a similarity measure suitable for information retrieval and tolerant for morphological variation. Edit distance is well-known similarity measure that can cope with variations. Unfortunately, edit distance is not suitable for information retrieval due to its performance. We have improved The behavior of edit distance by extending its definition. We have compared the proposed similarity measure with the popular similarity measures for information retrieval.
著者
越川 満 内山 将夫 梅谷 俊治 松井 知己 山本 幹雄
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.51, no.8, pp.1443-1451, 2010-08-15

フレーズベース統計的機械翻訳では,連続する単語列(フレーズ)を翻訳の最小単位とした確率的規則に基づいて翻訳候補の順位付けを行い,最も確率の高い候補を出力とする.しかし,入力文のフレーズ区切りや翻訳前後の訳語関係(フレーズ対応)の組合せ数は膨大である.そのため,従来の統計的機械翻訳システムは,翻訳候補およびフレーズ区切り・対応に対して大胆な近似を行うことで探索空間を狭めており,厳密な確率の最大化をしていない.本稿では,フレーズ対応・区切りに関する厳密な確率最大化を行う問題を,フレーズベース翻訳において広く用いられているすべての素性を考慮可能な形式で整数線形計画問題として定式化し,それを翻訳候補のリランキングに応用する手法を提案・実装する.評価実験の結果,提案手法は有意に翻訳精度を改善することが示されると同時に,フレーズベース翻訳における探索の課題は,フレーズ対応ではなく翻訳候補文についてより多くの候補を評価することにあるという示唆が得られた.
著者
渡辺 尚吾 乾 孝司 山本 幹雄
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

我々は,一般のオープンなウェブ空間,特にブログ空間内のデータから, レビューサイトと同様な内容,すなわち商品ごとに構造化されたレビュー情報を自動抽出する研究を行っている.今回は,ブログ記事と商品を紐付けするために,言語処理技術によって,ブログ記事から商品を表す表現を自動抽出する手法を提案する.提案手法では,商品のカテゴリ情報を利用することで,機械学習に必要な教師データを自動収集し,学習に用いる.
著者
川俣 眞人 山本 幹雄 板橋 秀一 大村 浩 田中 和世
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.392, pp.9-14, 2000-10-19

ホルマント型音声合成方式において、ホルマント振幅の項に声帯振動の影響による効果を表すための非線形項を導入することによって音質が改善されることは既に報告した。非線形項は音質改善の他に音声の自然性や個人性にも影響を与えることが予想される。今回はその非線形関数を10話者、5母音別に新たな関数モデルを導入していくつかのパタンとして類型化することを試みた。その結果このモデルの妥当性を確認することができた
著者
山本 幹雄
出版者
広島大学
雑誌
若手研究(B)
巻号頁・発行日
2008

本研究では、音声認識技術を活用した(1)音声字幕付き教材配信システムおよび(2)要約復唱(リスピーク)方式による情報支援システムの開発を行うとともに、同システムを実際の大学講義に導入し、事例研究にもとづく教育効果の定性的分析および実用化のための課題整理を行った。これにより、情報保障および教育効果のベンチマークが明らかになり、市販の音声認識エンジンを活用した実用的な教育支援モデルの提案を行うことができた。
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。
著者
三品 拓也 貞光 九月 山本 幹雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.9, pp.2168-2176, 2004-09-15
参考文献数
19
被引用文献数
1

本論文ではかな漢字変換誤り,特に同音異義語の選択誤りを対象とした日本語スペルチェックの方法を報告する.同音異義語誤りの判定には局所的な情報と大域的な情報の両者が必要であるが,本論文では大域的な情報をモデル化するために確率的LSAを用いることを提案・検討する.評価実験として,人為的に誤りを混入させたテストデータを用いた誤り検出・訂正実験を行った.局所的な情報のモデル化に従来からよく使われているngramモデルのみを利用した手法をベースラインとして比較した.ベースラインシステムでは再現率93.8%,適合率79.0%(F値85.8%)であった性能が,確率的LSAと組み合わせることにより再現率95.5%,適合率83.6%(F値89.2%)と改善された.We report a method of a Japanese spell checker for homophone errors which often occur in Japanese input process using a kana-kanji conversion system. Error detection methods need both of local and global information around a target word. In this paper, we propose and investigate use of a probabilistic LSA for modeling global information. We will show experimental results of performance to detect and correct homophone errors which are generated randomly. We use a simple method based on ngram models as a baseline system. Ngram models are common for Japanese spell checkers to model local information. In the results, although detection rates of the baseline system are 93.8% in recall, 79.0% in precision (85.8% in F-measure), those of a combination system of an ngram model and a probabilistic LSA increase to 95.5% in recall, 83.6% in precision (89.2% in F-measure).
著者
山本 幹雄 乾 孝司
出版者
筑波大学
雑誌
基盤研究(B)
巻号頁・発行日
2009

本研究では、高精度かつ長距離のフレーズ並び替えを可能とするルールの抽出手法を開発した。抽出されたフレーズ並び替えルールの特徴は、フレーズの並び替えに重要な働きをする機能語(助詞など)の対訳関係を中心に語彙化されている点である。これにより、翻訳対象である文構造を的確に捉えながらフレーズの並び替えが可能となる。日英の翻訳実験において、提案ルールによって翻訳性能を改善できることを明らかにした。