著者
田中 英輝 美野 秀弥 越智 慎司 柴田 元也
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-209, no.9, pp.1-9, 2012-11-15

著者らは 「やさしい日本語」 でニュース提供するための研究を行っている. 2012 年 4 月より,やさしい日本語のニュースを web で試験的にサービスする公開実験 「NEWS WEB EASY」 のサイトの運用を開始した.本稿ではまず,この公開実験のサイト,および,そこで使っているやさしい日本語の特徴について述べる.次に,提供しているニュースが,外国人 (漢字圏・非漢字圏) と子ども (小学生・中学生) にどのような効果を持つかを確認するために行った実験について報告する.具体的にはやさしい記事と元記事に対する,理解度テストを実施し,その,正解率,あきらめ率,回答時間を測定した.この結果,すべての集団で正解率が向上することがわかり,やさしい記事の基本的な効果を確認した.また,外国人用に作ったやさしい日本語が子どもにも効果的であることが確認できた.さらに詳細な分析を行った結果,漢字圏外国人には実質的に理解度が上昇する効果を,非漢字圏外国人には,記事を最後まで読み通す部分に効果があることを確認した.また,子どもでは,中学生は元記事の理解度がかなり高いことから,小学生に対する実質的な理解度向上の効果が高いことを確認した.
著者
安藤 彰男 今井 亨 小林 彰夫 本間 真一 後藤 淳 清山 信正 三島 剛 小早川 健 佐藤 庄衛 尾上 和穂 世木 寛之 今井 篤 松井 淳 中村 章 田中 英輝 都木 徹 宮坂 栄一 磯野 春雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.877-887, 2001-06-01
被引用文献数
57

テレビニュース番組に対する字幕放送を実現するためには, リアルタイムで字幕原稿を作成する必要がある.欧米では特殊なキーボード入力により, ニュースの字幕原稿が作成されているが, 日本語の場合には, 仮名漢字変換などに時間がかかるため, アナウンサーの声に追従して字幕原稿を入力することは難しい.そこで, 音声認識を利用した, 放送ニュース番組用の字幕制作システムを開発した.このシステムは, アナウンサーの音声をリアルタイムで認識し, 認識結果中の認識誤りを即座に人手で修正して, 字幕原稿を作成するシステムである.NHKでは, 本システムを利用して, 平成12年3月27日から, ニュース番組「ニュース7」の字幕放送を開始した.
著者
打浪 文子 岩田 一成 熊野 正 後藤 功雄 田中 英輝 大塚 裕子
出版者
社会言語科学会
雑誌
社会言語科学 (ISSN:13443909)
巻号頁・発行日
vol.20, no.1, pp.29-41, 2017-09-30 (Released:2018-02-07)
参考文献数
30
被引用文献数
1

本研究では,知的障害者に対する「わかりやすい」情報提供を実践する媒体である「ステージ」と,外国人向けの「やさしい日本語」で時事情報の配信を行うNHKの「NEWSWEB EASY」(以下NWE),およびNWE記事の書き換え元であるNHKの一般向けニュース原稿の3つのメディアのテキストを,文長や記事長,難易度や使用語彙の観点から計量的および質的に分析し,その共通点および相違点を明らかにした.分析の結果から,ステージとNWEの共通点として形態素数や和語の率が近いことや,「外来語」や「人の属性を表す語」などの名詞や動詞を中心とした難解語彙の群があることが示された.また相違点として,ステージには副詞や接辞等に「やさしい日本語」の基準に照らせば書きかえ可能なものがあること,さらにステージのみの特徴として同じ動詞をさまざまな形で重ねて使っていることが示された.条件を統制した上で上記3つのメディアの共通・相違性に関する比較研究を深めること,知的障害者向けの情報提供のさらなる分析と知見の収集を行うこと,従来の研究領域を超える「言語的な困難を有する人」すべてを対象とした「わかりやすい」日本語による情報保障の具体的な方法を提示することの3点が本研究の今後の課題である.
著者
田中 英輝 熊野 正 後藤 功雄 美野 秀弥
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.1, pp.81-117, 2018-02-15 (Released:2018-05-15)
参考文献数
40
被引用文献数
1

NHK はインターネットサイト NEWS WEB EASY で外国人を対象としたやさしい日本語のニュースを提供している.やさしい日本語のニュースは日本語教師と記者の 2 名が通常のニュースを共同でやさしく書き換えて制作し,本文にはふりがな,難しい語への辞書といった読解補助情報が付与されている.本稿では NEWS WEB EASY のやさしい日本語の書き換え原則,および制作の体制とプロセスの概要と課題を説明した後,課題に対処するために開発した 2 つのエディタを説明する.1 つは書き換えを支援する「書き換えエディタ」である.書き換えエディタは先行のシステムと同様に難しい語を指摘し,書き換え候補を提示する機能を持つが,2 名以上の共同作業を支援する点,難しい語の指摘機能に学習機能を持つ点,また,候補の提示に書き換え事例を蓄積して利用する点に特徴がある.他の 1 つは「読解補助情報エディタ」である.読解補助情報エディタは,ふりがなや辞書情報を自動推定する機能,さらに推定誤りの修正結果を学習する機能を持つ.以上のように 2 つのエディタは,自動学習と用例の利用により,読解補助情報の推定の誤り,やさしい日本語の書き方の方針変更などに日々の運用の中で自律的に対応できるようになっている.本稿では 2 つのエディタの詳細説明の後,日本語教師および記者を対象に実施したアンケート調査,およびログ解析によりエディタの有効性を示す.
著者
木下 明徳 後藤 功雄 熊野 正 加藤 直人 田中 英輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.113, pp.81-86, 2007-11-20
参考文献数
8

NHK の国際放送では 18 ケ国語が使われており,それらの放送用原稿は,日本語の原稿やその英訳原稿が翻訳され作成されている.このような翻訳作業を支援するために,我々は過去の翻訳用例を検索する「多言語用例提示システム」の開発を行っている.精度の良い検索を実現するためには,検索キーワードとなりうる単語,すなわち,内容語の認定が重要である.しかしながら,内容語 (あるいは機能語) を認定するには辞書が必要となるが,様々な言語に対して辞書を用意することは困難である.そこで,本稿では,言語が持つ統計的特徴を利用し辞書を使わない手法について述べる.また,8つの言語 (日本語,英語,フランス語,スペイン語,ロシア語,イタリア語,インドネシア語,マレー語) に対して行った,機能語認定の実験結果について報告する.NHK provides news services in 18 languages, translating Japanese news articles into English and those ones into other languages. To aid such translation work, we have been developing a translation example browser that retrieves examples similar to inputs from multi-lingual news corpora. The browser has to identify function words(or content words) in inputs by using machine-readable dictionaries to retrieve appropriate examples. However those dictionaries are difficult to be prepared for the browser in various languages. This paper proposes automatic identification methods of function words using statistic features common to many languages. We conduct a series of experiments in 8 languages, such as Japanese, English, French, Spanish, Russian, Italian, Indonesian language and Murray language.
著者
相沢 輝昭 江原 暉将 浦谷 則好 田中 英輝 加藤 直人 中瀬 純夫 有賀 憲和 松田 健生
雑誌
全国大会講演論文集
巻号頁・発行日
vol.40, pp.419-420, 1990-03-14

NHKでは、現在、2チャンネルの24時間衛星放送を実施している。第1チャンネルの中心になっているのは、英、仏、独、伊、露、韓、中の各国語による「ワールドニュース」で、通常は、元のニュースに日本語テロップ(字幕)を重畳して放送している。具体的には、数十人のバイリンガルが、ニュースの聴取、翻訳、要約、原稿の作成までの全てを、限られた時間内で処理している。しかし、これが衛星放送運用上の大きなネックになっており、その省力化のためMT(機械翻訳)システムが導入された。第1段階として、英語ニュースに対するテロップ作成の実用化を目指す。このため、現在ほぼ毎日5分間、MTシステム作成のテロップを用いた放送が行われている。
著者
後藤 功雄 田中 英輝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.5, pp.577-597, 2018-12-15 (Released:2019-03-15)
参考文献数
21

ニューラル機械翻訳 (NMT) は入力文の内容の一部が翻訳されない場合があるという問題があるため,NMT の実用には訳出されていない内容を検出できることが重要である.著者らはアテンションの累積確率と出力した目的言語文から入力文を生成する逆翻訳の確率という 2 種類の確率による,入力文の内容の欠落に対する検出効果を調査した.日英の特許翻訳での訳抜けした内容の検出実験を実施し,アテンションの累積確率と逆翻訳の確率はいずれも効果があり,逆翻訳はアテンションより効果が高く,これらを組み合わせるとさらに検出性能が向上することを確認した.また,訳抜けの検出を機械翻訳結果の人手修正のための文選択に応用した場合に効果があることが分かった.
著者
後藤 功雄 加藤 直人 田中 英輝 江原暉将 浦谷則好
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.3, pp.968-979, 2006-03-15
参考文献数
22

カタカナで表記された外国人名の英訳語を,関連語をキーワードとする言語横断情報検索と,発音類似性を利用した訳語推定により,World Wide Web(WWW)文書から獲得する手法を提案する.ニュース記事に出現する人名は新出語であることが多く,対訳辞書に登録されていない場合も多い.提案手法は,カタカナの外国人名が文書中に存在した場合,はじめにその周辺の単語を対訳辞書によって英訳し,これらをキーワードとして英語のWWW 文書検索を行う.次に,検索されたWWW 文書中から人名候補となる英単語列を翻字により変換し,発音が類似した英単語列を訳語とする.ニュース記事に出現した外国人名を対象として本手法による実験を行い,有効性を確認した.This paper proposes a method of acquiring English equivalents of foreign personal names written in katakana characters from the World Wide Web (WWW). In news articles, new foreign personal names appear frequently and are rarely registered in bilingual dictionaries. Our method can automatically obtain the English equivalents of personal names by using two phases: cross-language information retrieval using related words and acquisition of translation based on phonetic similarity. In the first phase, given a katakana foreign personal name appearing in a news article, the method extracts words related to the foreign personal name, translates these words into English using bilingual dictionaries, and retrieves WWW documents in English using the translated words as keywords. In the second phase, our method extracts candidates of English equivalents from the retrievedWWWdocuments, transliterates the candidates to phonetic expressions, compares them with the phonetic expression of the personal name written in katakana, and obtains the most similar one as the English equivalent. We confirmed the effectiveness of our method with a series of experiments using foreign personal names appearing in news articles.
著者
三浦 菊佳 住吉 英樹 山田 一郎 宮﨑 太郎 宮崎 勝 松井 淳 加藤 直人 田中 英輝
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会誌
巻号頁・発行日
vol.72, no.3, pp.J66-J72, 2018

<p>AI(人工知能)技術でより多くの情報を活用して,質の高い番組を制作する取り組みが始まっている.過去に放送された番組を,新たな番組制作により活かすために,放送日時やジャンルといった表層的な情報に加え,詳細なコンテンツ内容で番組を関連付けたテレビ番組マップを提案する.番組検索の際,目的の番組と同時に,意味的に関連する別の番組も見つけることができるほか,一般視聴者向けネットサービスにおけるお薦めコンテンツ提示などにも応用できる.本論文では,テレビ番組マップを自動構築する手法について述べる.大規模なWebデータから獲得した単語間の意味的関係を用い,EPG(電子番組表)に含まれる番組概要文から主題を表す単語を取り出し,抽出した主題語と番組との関係を推定する.実際にNHKの科学番組に手法を適用し,テレビ番組マップを試作した実験について報告する.</p>
著者
丸山 岳彦 柏岡 秀紀 熊野 正 田中 英輝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.3, pp.39-68, 2004-07-10 (Released:2011-03-01)
参考文献数
35
被引用文献数
6 11

従来の文分割研究において, 文の分割点として利用されてきたのは, 「節」の境界である. しかしながら, 実際に文の分割点として用いられる節境界はごく一部の種類のものに限られており, 文に含まれる節境界を網羅的に検出する手法は考えられてこなかった. 我々は, 日本語の文に含まれる節境界の位置を網羅的に検出し, その種類を特定するプログラム“CBAP (Clause Boundaries Annotation Program)”を開発した. CBAPは, 形態素解析の結果を入力とし, 局所的な形態素の連接を対象としたパタンマッチによって, 147種類の節境界を検出する. CBAPを性質の異なる5種のコーパスに適用したところ, いずれのコーパスでも97%以上の検出性能が確認された. この検出結果を利用することにより, 言語学的に意味のある文の分割点を特定することができ, 従来の手法よりも柔軟に文分割を行なうことができる. また, 1~3形態素という非常に局所的な範囲のみから節境界を検出できるため, 発話に追従して処理を進めていく漸進的構文解析や同時通訳システム, また, 句点を含まない音声コーパスを対象とした発話分割処理などに有用である. 本稿では, CBAPによる節境界の検出手法を示し, 節境界を用いて文分割・発話分割処理を行なった事例をもとに, 節境界検出の有用性を述べる.
著者
松井 淳 加藤 直人 小林 彰夫 今井 亨 田中 英輝 安藤 彰男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.108, pp.211-216, 1999-12-20
参考文献数
7

ニュースのリアルタイム字幕作成を目的とした音声認識には一般のタスクと違う特徴がある.すなわち発声される可能性のあるテキスト,あるいはそれに類似したテキストを放送の前に入手できる特徴である.著者らはこの点に着目して認識性能を向上させる手法をいくつか研究してきた.これらは計算処理量の比較的重いものと軽いものがあり,軽い処理ほど放送直近の原稿を利用できる.本稿では,比較的処理の重い「言語モデルの適応化手法」,処理の軽い「放送直前の原稿を利用したn-gram確率の動的計算法」,および「未知語自動登録法」を使った実験を報告し,これらを組み合わせて利用することで単語正解精度が89.92%から92.36%に改善されたことを示す.Although it is almost impossible to guess what will be uttered beforehand in general speech recognition task, we can do this with high possibility in news dictation task thanks to the manuscripts that well hold the words to be uttered by announcers. In this paper, we describe three ways of utilizing such news manuscripts and will show empirically that they greatly helped improving the news recognition rate.
著者
田中 英輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69, pp.89-94, 1995-07-20
被引用文献数
4

自然言語処理に利用するための規則をコーパスから学習する研究が最近盛んになっている.これらの研究では,得られた規則の適用範囲をいかに一般化するかが大きな課題となる.なぜなら,コーパスから直接学習される規則はそのままでは適用範囲が極端に狭いからである.現在はこの問題を解決するためにシソーラスを利用した手法が試みられている.このとき,シソーラス上のどの概念で規則を一般化するかが問題となる.しかしシソーラス上のノードの選び方は,組合せ的に爆発を起こすためその決定は容易ではない.本稿では,この問題を線形時間で解く基本的なアルゴリズムを提案する.本稿の問題は一般的に言うと帰納学習の分野で問題とされていた「構造化属性」の問題に属する.さらに,決定木の最適部分木を求める問題とも等しい.The proper treatment of structured attributes in inductive learning is getting much attention as this learning technique is now frequently applied to the knowledge extraction in natural language processing, In this context, the problem is finding a set of thesaurus nodes that maximally generalizes words in the learning source, but causes minimum errors. The number of candidate node sets, however, explodes as the thesaurus size increases, and no efficient algorithm has been discovered so far. In this paper, we propose the algorithm T^* which can find the optimal node sets in linear-time. This algorithm first converts the thesaurus into a directed acyclic graph changing this difficult problem into a shortest path problem with a graph where we can use an efficient algorithm. We then show that T^* can also be used to find the optimally pruned decision tree.