著者
後藤 功雄 加藤 直人 田中 英輝 江原暉将 浦谷則好
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.3, pp.968-979, 2006-03-15
参考文献数
22

カタカナで表記された外国人名の英訳語を,関連語をキーワードとする言語横断情報検索と,発音類似性を利用した訳語推定により,World Wide Web(WWW)文書から獲得する手法を提案する.ニュース記事に出現する人名は新出語であることが多く,対訳辞書に登録されていない場合も多い.提案手法は,カタカナの外国人名が文書中に存在した場合,はじめにその周辺の単語を対訳辞書によって英訳し,これらをキーワードとして英語のWWW 文書検索を行う.次に,検索されたWWW 文書中から人名候補となる英単語列を翻字により変換し,発音が類似した英単語列を訳語とする.ニュース記事に出現した外国人名を対象として本手法による実験を行い,有効性を確認した.This paper proposes a method of acquiring English equivalents of foreign personal names written in katakana characters from the World Wide Web (WWW). In news articles, new foreign personal names appear frequently and are rarely registered in bilingual dictionaries. Our method can automatically obtain the English equivalents of personal names by using two phases: cross-language information retrieval using related words and acquisition of translation based on phonetic similarity. In the first phase, given a katakana foreign personal name appearing in a news article, the method extracts words related to the foreign personal name, translates these words into English using bilingual dictionaries, and retrieves WWW documents in English using the translated words as keywords. In the second phase, our method extracts candidates of English equivalents from the retrievedWWWdocuments, transliterates the candidates to phonetic expressions, compares them with the phonetic expression of the personal name written in katakana, and obtains the most similar one as the English equivalent. We confirmed the effectiveness of our method with a series of experiments using foreign personal names appearing in news articles.
著者
江原暉将 沢村 英治 福島 孝博 丸山 一郎 和田 裕二 門馬 隆雄 白井 克彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.69, pp.121-126, 2001-07-16
被引用文献数
2

通信・放送機構で平成8年度から12年度まで実施した「視聴覚障害者向け放送ソフト制作技術の研究開発プロジェクト」の研究成果と残された課題について報告する。本プロジェクトの目的は、聴覚障害者のための字幕付きテレビ放送番組を効率的に制作するための技術基盤を確立することである。具体的な研究項目として、自動要約、自動同期、統合化システム技術がある。自動要約については、ニュース記事を対象に文字数にして70%にすることを目標にして研究を進め、「重要文抽出法」と「形態素単位文字数圧縮法」を併用して目標を達成した。自動同期については、ニュースおよびナレーション主体のドキュメンタリー番組を対象に研究し、ナレーションと背景音の比が20dB 以上の番組に対しては自動同期が可能であることを示した。統合化システム技術では、適切な点で字幕の改行・改ページを加える自動字幕画面制作技術を研究し、自動要約、自動同期とあわせて自動字幕制作システム実証モデルを構築した。本実証モデルを用いて評価実験を行い、性能評価を行うと共に実用化のための課題を明らかにした。Telecommunication Advancement Organization of Japan proceeds "Research Project for TV Production for the Seeing and Hearing Impaired" from 1995 to 2001. The purpose of the project is to establish the technologies of producing closed captions for hearing impaired people on TV programs efficiently. We have three research issues in the project: automatic text summarization, automatic synchronization with speech and captions and system engineering. Automatic text summarization summarizes Japanese news text to 70% volume. Important sentence extraction, morphem-based text shortening and bunsetsu-based text shortening are used. Automatic synchronization uses HMM-based word spotter and DP-based synchronizing point search. The method can be applicable to news and narration programs in which signal strength ratio between speech and background sound is more than 20dB. System engineering research results automatic changing method of new page and new line at a point easy to read. We integrate these elementary technologies to the automatic captioning system and evaluate it by caption creators and end users. From this evaluation experiments, we can know the system performance and future research issues.
著者
金 淵培 江原暉将
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.35, no.6, pp.1018-1028, 1994-06-15
被引用文献数
16

日英機械翻訳の精度を低下させる要因の一つとして、文が長すぎるということがある。文が長くなると係り受け構造が複雑となり、構文解析ができず、翻訳に矢敗することが多くなる。この問題を解決するため、われわれは日本語の長文を複数の短文に自動的に分割する研究を行った。われわれの手法は、形態素、品詞、文節カテゴリのようなさまざまな情報をフレキシブルに組み合わせて分割点の認定が行えるという特徴をもつ。さらに、分割を行うと、分割後の文に主語がなくなることがあり、この現象も機械翻訳の精度を悪くする。そこで、主語のなくなった文に対して、自動的に主語を補完する研究を行った。主語補割こは、学習データを用いて、主語になる名詞の特徴ベクトルの確率分布を推定した後、各主語候補に対して主語になれる確率値を算出して主語補完を行う統計的方法を用いている。約400文のニュース文を対象に分割と主語補完の実験を行った。分割点の認定には、分割点が記述されているパターン約100個を用いてパターン・マッチングを行い、約88%の分割点認定率を得た。 また、主語補完の補完率は76%であった。本論文では、短文分割の有効性と方法括よび主語楠完について述ぺる。