著者
SANDUIJAV ENKHBAYAR 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.185-205, 2005-10-10 (Released:2011-06-07)
参考文献数
4
被引用文献数
1 4

本論文では, 現時点で利用可能なモンゴル語の言語資源, 特に, 名詞・動詞の語幹のリスト, および, 名詞・動詞に接続する語尾のリストから, モンゴル語の名詞句・動詞句を生成する手法を提案する.具体的には, 名詞・動詞の語幹に語尾が接続する際の音韻論的・形態論的制約を整備し, 語幹・語尾の語形変化の規則を作成する.評価実験の結果において, 100%近くの場合について, 生成された名詞句・動詞句の中に正しい句候補が含まれるという性能を達成した.さらに, 本論文では, この句生成に基づいて, モンゴル語の名詞句・動詞句の形態素解析を行なう手法を提案する.具体的には, まず, 既存のモンゴル語辞書から名詞語幹および動詞語幹を人手で抽出する.次に, これらの語幹に対して, モンゴル語名詞句・動詞句生成規則を適用することにより, 語幹・語尾の組から句を生成するための語形変化テーブルを作成する.そして, この語形変化テーブルを参照することにより, 与えられた名詞句・動詞句を形態素解析して語幹・語尾に分離する.評価実験の結果においては, 語形変化テーブルに登録されている句については, 形態素解析の結果得られる語幹・語尾の組合せの候補の中に, 正しい解析結果が必ず含まれることが確認できた.
著者
外池昌嗣 佐藤理史 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.47, pp.53-60, 2004-05-14
参考文献数
10

解の選択は質問応答システムのコンポーネントの1つで、何らかの方法で得られた解候補の中から信頼できるものを選ぶものである。本研究では語と語の連想の強さに注目して解の選択を行う。本稿では、問題文から抽出されたキーワードと解候補の間の語彙的な関係の強さに基づく解の選択法を提案する。提案する解の選択法は2つのステップに分けられる。1つ目のステップでは、語の特徴と語彙的関係の強さを用いて、問題文から適切なキーワードを抽出する。一方、2つ目のステップでは、サーチエンジンのヒット数に基づいて、キーワードと解候補の間の関係の強さを測定する。実験の結果、提案手法で4択クイズ「クイズ$ミリオネア」の79%を解くことができた。Answer validation is a component of question answering system, which selects reliable answer from answer candidates extracted by certain methods. In this paper, we propose an approach of answer validation based on the strengths of lexical association between the keywords extracted from a question sentence and each answer candidate. The proposed answer validation process is decomposed into two steps: the first is to extract appropriate keywords from a question sentence using word features and the strength of lexical association, while the second is to estimate the strength of the association between the keywords and an answer candidate based on the hits of search engines. In the result of experimental evaluation, we show that a good proportion (79%) of a multiple-choice quiz "Who wants to be a millionaire" can be solved by the proposed method.
著者
外池 昌嗣 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.5, pp.3-42, 2005

質問応答システムにおける処理の流れのうち, 何らかの方法で抽出された複数の解候補に川頁位付けし, 答えを選ぶステップのことを本論文では, 解選択のステップと呼ぶ.本論文では, 大規模かつ日々更新されるウェブを利用して, 質問文中の重要語句 (キーワード) と解候補の共起に基づく語彙的関係 (連想) の強さを測定し, これに基づいて解選択をする.この連想の強さはウェブのサーチエンジンのヒット数から計算できる尺度で表す.本論文では, この連想を利用した解選択法を2つ提案する.1つ目の手法は, あらかじめ決めておいた語の重みに基づいて質問文からキーワードを選択した後, キーワードと解候補の連想の強さに基づいて解を決める方法である.2つ目の手法は, キーワードと解候補の連想の強さを利用して, その質問にとって最も適切なキーワードと解候補を同時に選ぶ方法である.実験の結果, これら2つの手法を統合した手法で, 4択クイズ「クイズ$ミリオネア」の約79%の問題を解くことができた.また, サーチエンジンのヒット数を用いて解選択を行う従来手法の性能を有意に改善できた.
著者
松本 裕治 武田 浩一 永田 昌明 宇津呂 武仁 田代 敏久 山下 達雄 林 良彦 渡辺 日出雄 竹澤 寿幸
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48(1998-NL-125), pp.1-8, 1998-05-28

近年,電子化テキストの急激な増加,および,インターネットによる一般利用者の電子媒体への日常的なアクセスに伴って,言語処理研究と言語に関する実用技術の間のギャップが徐々に狭まってきており,実用的な自然言語処理研究という言葉が真に現実的な意味を持ち出してきた.本報告では,そのような実用的言語処理技術の事例のいくつかを「ここまでできるぞ言語処理技術」というタイトルで紹介する.
著者
Oh Hyunwoo Budianto Teguh Ding Yi Long Zi 宇津呂 武仁
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

本論文では,RTSの一つであるStarCraft IIを題材として,大規模なゲームログ データを対象として,プレー中の戦略を同定するタスクについて研究を行う.特 に,本論文では,RTSゲームの戦略の中でも,検出が容易であると考えられる Rush戦略に焦点を当て,Rush戦略が用いられているゲームのログを選択的に同定 する方式を提案する.
著者
Budianto Teguh Oh Hyunwoo Ding Yi Long Zi 宇津呂 武仁
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

Real-Time Strategy is a game genre which requires good strategy decision by the players. In this research, we analyse rush strategies in a Real-Time Strategy game: StarCraft II.
著者
注連 隆夫 土屋 雅稔 松吉 俊 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.5, pp.167-197, 2007-10-10 (Released:2011-06-07)
参考文献数
32
被引用文献数
3 5

日本語には, 「にあたって」や「をめぐって」のように, 2つ以上の語から構成され, 全体として1つの機能的な意味をもつ機能表現という表現が存在する.一方, この機能表現に対して, それと同一表記をとり, 内容的な意味をもつ表現が存在することがある.そして, この表現が存在することによって, 機能表現の検出は困難であり, 機能表現を正しく検出できる機能表現検出器が必要とされている.そこで, 本論文では, 日本語機能表現を機械学習を用いて検出する手法を提案する.提案手法では, Support Vector Machine (SVM) を用いたチャンカーYam Chaを利用して, 形態素解析結果を入力とする機能表現検出器を構築する.具体的には, 形態素解析によって得られる形態素の情報と, 機能表現を構成している形態素の数の情報, 機能表現中における形態素の位置情報, 機能表現の前後の文脈の情報を学習・解析に使用することにより, F値で約93%という高精度の検出器を実現した.さらに, 本論文では, 機能表現検出器の解析結果を入力として, 機能表現を考慮した係り受け解析器を提案する.提案手法では, Support Vector Machine (SVM) に基づく統計的係り受け解析手法を利用して, 機能表現を考慮した係り受け解析器を構築する.具体的には, 京都テキストコーパスに対して, 機能表現の情報を人手で付与し, 機能表現の情報を基に文節の区切りや係り先の情報を機能表現を考慮したものに変換した.そして, SVMに基づく統計的係り受け解析の学習・解析ツールCabo Chaを用いて, 変i換したデータを学習し, 機能表現を考慮した係り受け解析を実現した.評価実験では, 従来の係り受け解析手法よりもよい性能を示すことができた.
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
守谷 一朗 今田 貴和 宇津呂 武仁 河田 容英 神門 典子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

本論文では,検索対象に対して,検索エンジン・サジェストを通して収集され るウェブページの内容を集約・俯瞰するタスクにおいて,収集されるウェブペー ジ集合に対してトピックモデルを適用することにより話題の集約を行った結果 と,従来型の検索結果上位のスニペットとの比較を行い,トピックモデルを用 いた話題集約・俯瞰方式の有効性を評価する.
著者
前川 喜久雄 山崎 誠 松本 裕治 傳 康晴 田野村 忠温 砂川 有里子 田中 牧郎 荻野 綱男 奥村 学 斎藤 博昭 柴崎 秀子 新納 浩幸 仁科 喜久子 宇津呂 武仁 関 洋平 小原 京子 木戸 冬子
出版者
大学共同利用機関法人人間文化研究機構国立国語研究所
雑誌
特定領域研究
巻号頁・発行日
2006

当初の予定どおりに、5000万語規模の現代日本語書籍均衡コーパスを構築して2011年に公開した。同時に構築途上のコーパスを利用しながら、コーパス日本語学の確立にむけた研究を多方面で推進し、若手研究所の育成にも努めた。現在、約200名規模の研究コミュニティーが成立しており、本領域終了後も定期的にワークショップを開催するなど活発に活動を続けている。
著者
片山 太一 芳中 隆幸 宇津呂 武仁 河田 容英 福原 知宏
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.19, pp.1-8, 2009-11-13
被引用文献数
1

本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.Spam blogs or splogs are blogs hosting spam posts, created using machine generated or hijacked content for the sole purpose of hosting advertisements or raising the number of inward of target sites. Among those splogs, this paper focuses on detecting a group of splogs which are estimated to be created by an identical spammer. We especially show that similarities of html structures among those splogs created by an identical spammer contribute to improving the performance of splog detection. In measuring similarities of html structures, we extract a list of blocks (minimum unit of content) from the DOM tree of a html file. We show that the html files of splogs estimated to be created by an identical spammer tend to have similar DOM trees and this tendency is quite effective in splog detection.
著者
川村 よし子 前田 ジョイス 北村 達也 三輪 譲二 宇津呂 武仁
出版者
東京国際大学
雑誌
基盤研究(B)
巻号頁・発行日
2009

本研究の目的は、世界各国の日本語学習者に、よりよい読解支援環境をWeb上で提供することである。代表者らはすでに読解学習支援システム『リーディング・チュウ太』を開発しWeb上で公開している。今回新たに文章の難易度の主要な決定要因である単語の難易度と構文の複雑さに着目し、「学習者の視点にたった文章の難易度判定システム」を開発することを目指した。そのため、本研究では世界各国の母語の異なる学習者を対象にした難易度判定実験を行い、その結果を基に、単語と構文の双方に着目した文章の難易度判定システムを開発した。さらに、チュウ太の辞書ツールにはデータ・マイニングシステムを組み入れ、日本語学習者の辞書利用の実態調査を行った。利用者の推移や言語別の利用者数の変化および辞書のカバー率の調査を通して、辞書開発に関する今後の課題も明らかになった。研究成果は、Web上の読解学習支援ツールとして世界の日本語学習者・教育関係者に無償公開している。
著者
北内 啓 宇津呂 武仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.21, pp.41-48, 1998-03-12
被引用文献数
2

本研究では、日本語形態素解析の確率モデル学習におけるパラメータ推定の精度を上げるための有効な品詞分類を自動的に学習した。解析誤りをもとに詳細化する品詞分類を素性として取り出し、品詞分類を段階的に細かくしていく。学習によって得られた品詞分類を用いてbi-gramのマルコフモデルに基づくパラメータ推定を行うことにより、形態素解析の精度を向上させた。実験により、人手で調整して決めた品詞分類に比べ、より少ないパラメータ数でより高い精度を得ることができた。また、品詞分類によってパラメータ数や精度がどのように変化するかといった、品詞分類全体の性質をとらよることができた。This paper proposes a method of an learning optimal set of part-of-speech tags which gives the highest performance in morphological analysis. In our method, considering patterns of errors in the morphological analysis, first, candidates of more specific part-of-speech tags to be included in the model of morphological analyzer are generated. Then, the most effective candidate which gives the greatest decrease in errors is employed. In the experimental evaluation of the proposed method, we achieve a morphological analyzer of higher performance compared with a model with a hand-tuned set of part-of-speech tags, and with much smaller number of parameters.
著者
宇津呂 武仁 松本 裕治 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.34, no.5, pp.913-924, 1993-05-15
被引用文献数
24

自然言語処理のための大規模な意味辞書を構築するためには、人間のための辞書や大規模コーパスに含まれる自然言語の文を解析して、そこから意昧辞書を構築する技術を確立することが重要となる。計算機で知識獲得を行う場合、全自動で知識が獲得されることが望ましいが、現在利用可能な情報が貧弱であるため、有用な知識を獲得するためには何らかの人間の介入が必要である。しかし、最終的に得られる結果が人間の主観的な判断の影響を受けないように、人間の介入は最小限に抑えたい。我々は、英語と日本語のように統語構造および語彙が異なる二言語間の翻訳例を構文解析して、その結果を二言語間で比較するというアプローチによって語彙的知識の獲樗を行っている。そこでは、両言語の解析結果を比較することによって統語的および意味的曖昧性の両方が解消するため、単言語だけのアプローチに比ぺると人間の介入を大幅に抑えて語彙的知識を獲得できる。本論文では、二言語対訳コーパスから日本語の動詞の表層格フレームを獲得する手法について述べる。我々の手法では、システムと人間との相互作用は、動詞の複数の意昧を類別する部分だけに許される。そこでは、システムが動詞の複数の意昧を類別する手がかりをヒューリスティックスによって発見し、その妥当性を人間が判定するという形で相互作用が行われる。その際には、対訳例の英語の情報が有カな手がかりとなる。
著者
影浦 峡 阿辺川 武 内山 将夫 佐藤 理史 宇津呂 武仁 竹内 孔一 相澤 彰子 戸田 愼一
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2009

(1) レファレンス・ツールにおける「包括性」の概念および包括性を 実現するための要件を明らかにした。(2) 専門語彙クローラーと対訳・関連多言語アーカイヴ クローラーを開発し、機能的包括性を有するレファレンス情報資源を構築した。(3) 翻訳情報 資源を提供する統合翻訳支援サイト「みんなの翻訳」(http://trans-aid.jp/)を開発・公開し、 一般利用に提供し翻訳情報資源の有効性を検証した。
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。
著者
宇津呂 武仁 颯々野 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.86, pp.9-16, 2000-09-21
被引用文献数
3

本論文では,人手によって作成された少量の初期固有表現リストと大量の人手未解析コーパスから,ブートストラップにより日本語固有表現抽出規則を学習する手法を提案し,その実験的評価結果を報告する.実験の結果,ブートストラップのサイクルを経るにしたがって,初期固有表現リストによる固有表現抽出の性能(F値)が徐々に改善されるという結果が得られた.この結果により,少量の初期知識と大量の人手未解析コーパスを用いたブートストラップ法のアプローチが,日本語の固有表現のまとめ上げの問題においても,ある程度有効に機能することが確認できた.Approaches to named entity recognition that rely on hand-crafted rules and/or supervised learning techniques have limitations in terms of their portability into new domains as well as in the robustness over time. For the purpose of overcoming those limitations, this paper evaluates named entity chunking and classification techniques in Japanese named entity recognition in the context of minimally supervised learning. This experimental evaluation demonstrates that the minimally supervised learning method proposed here improved the performance of the seed knowledge on named entity chunking and classification. We also investigated the correlation between performance of the minimally supervised learning and the sizes of the training resources such as the seed set as well as the unlabeled training data.