著者
横野光 稲邑哲也
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-207, no.6, pp.1-7, 2012-07-19

本論文では日本語のガ格要素に対して,副助詞「は」を用いて表現するかどうかを推定するモデルを提案する.「は」は主題を表すために用いられることが多く,提案モデルはそれに着目し前文脈において対象要素がどのような使われ方をしているかを考慮する.新聞記事を対象とした実験により,文中要素のみに着目した既存手法よりも提案モデルの方が良い性能を示すことが明らかになった.
著者
田中 英輝 美野 秀弥 越智 慎司 柴田 元也
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-209, no.9, pp.1-9, 2012-11-15

著者らは 「やさしい日本語」 でニュース提供するための研究を行っている. 2012 年 4 月より,やさしい日本語のニュースを web で試験的にサービスする公開実験 「NEWS WEB EASY」 のサイトの運用を開始した.本稿ではまず,この公開実験のサイト,および,そこで使っているやさしい日本語の特徴について述べる.次に,提供しているニュースが,外国人 (漢字圏・非漢字圏) と子ども (小学生・中学生) にどのような効果を持つかを確認するために行った実験について報告する.具体的にはやさしい記事と元記事に対する,理解度テストを実施し,その,正解率,あきらめ率,回答時間を測定した.この結果,すべての集団で正解率が向上することがわかり,やさしい記事の基本的な効果を確認した.また,外国人用に作ったやさしい日本語が子どもにも効果的であることが確認できた.さらに詳細な分析を行った結果,漢字圏外国人には実質的に理解度が上昇する効果を,非漢字圏外国人には,記事を最後まで読み通す部分に効果があることを確認した.また,子どもでは,中学生は元記事の理解度がかなり高いことから,小学生に対する実質的な理解度向上の効果が高いことを確認した.
著者
荒牧 英治 増川 佐知子 森田 瑞樹 保田 祥
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-208, no.9, pp.1-8, 2012-08-26

これまで言語学で高い関心を集めている問題の1つに人間の語彙数がある.数々の調査がなされてきたが,その多くは,理解できる語彙(理解語彙)の調査にとどまり,実際に使用する語彙(使用語彙)についてはどのくらいのものか,いっこうにわからないとされてきた.本研究では,ウェブ上の発言データを利用し,10万人という大規模な人数で使用語彙調査を行った.調査の結果,使用語彙は平均8,000語であることが明らかになった.さらに,同データを用いて,語のユーザ数の調査を行った.この結果,ユーザに偏りがある語や偏りがない語のリストが得られた.このようなユーザ数にもとづいたリストは本研究で初めて得られたものである.
著者
石垣 達也 トピチ ゴラン 濵園 侑美 能地 宏 小林 一郎 宮尾 祐介 高村 大也
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-250, no.8, pp.1-11, 2021-09-21

本稿では,新たな言語生成タスクとして,レーシングゲーム実況テキスト生成を提案する.このタスクでは,視覚情報としてレーシングゲームの録画映像,言語データとして実況発話,構造化データとして速度,ハンドル角度といった数値データを入力として扱い,視聴者が映像を視聴しながら,レースをより理解し,楽しむための実況テキストを生成する.既存の言語生成研究においては,データセットの欠如が一因となり映像,言語,構造化データの複数モダリティを同時に考慮する言語生成研究を行うことは困難であった.また,言語生成の中でも,特に実況生成においては「どのタイミングで発話するか」「何を発話するか」を最低限決定する必要があるが,例えば野球を対象とした既存研究においてはイニング間に実況を行うなど,発話タイミングがあらかじめ与えられる設定が扱われ,後者にのみ着目されてきた.本研究ではまず,映像,構造化データとそれらに対応する実況テキストが対になった大規模データセットを作成し,レース実況の特徴について分析する.分析より,実況テキストはその言語的な特徴が,時間および実況者の視点の影響を受け,変化することが分かった.さらに,実況生成タスクをタイミング同定と発話生成の 2 つのサブタスクに分割し,これらについてベースライン手法を提案する.実験より,構造化データの活用は有益である一方,視覚情報については最先端の画像エンコーダを用いたとしても,本タスクにおいて効果が限定的であり,実況生成タスクが挑戦的な課題であることが分かった.マルチモーダルな言語生成タスクのためのデータセットとして,本研究で作成したデータセットは公開する.
著者
武富 厚美 久野 雅樹
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-219, no.1, pp.1-4, 2014-12-09

近年,盛んに利用されている Twitter のようなマイクロブログでは,感情を含んだ投稿を多く含んでいる.本研究では,ツイートにおける感情表現を定量化し,ツイート頻度や Twitter 上でのつながりのようなユーザの特徴という観点から分析を行った.その結果,ツイート量が多いユーザは攻撃的な投稿をする傾向があった.しかし彼らのフォロワー数は多く,攻撃的な投稿は肯定的に面白い表現として捉えられていると考えられる.一方,ツイート量が少ないユーザは,攻撃的でない不快感情やポジティブ感情のようなパーソナルな感情をつぶやいている。彼らのフォロワー数は少なく,自身の感情を他者と共有することを指向していると考えられる.
著者
井手 佑翼 出口 祥之 五藤 巧 Armin Sarhangzadeh 渡辺 太郎
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2022-NL-253, no.18, pp.1-5, 2022-09-22

既存の典型的な文法誤り訂正モデルは各入力文を独立に扱うため,文脈を考慮した訂正を行えない.この問題に対して先行研究では,訂正対象の文だけでなく,先行する文脈をモデルに入力する手法が提案されてきた.本研究は,これに加えて後続の文脈または前後両方の文脈を入力した場合に訂正性能がどのように変化するか,定性分析を交えて調査する.
著者
佐藤 理史 加納 隼人 西村 翔平 駒谷 和範
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.5, pp.1-9, 2013-07-11

大学入試センター試験 『国語』 の現代文で出題される,いわゆる 「傍線部問題」 を解く方法を定式化し,実装した.実装した方法は,「評論」 の 「傍線部問題」 の半数を正しく解くことができた.We have formalized and implemented a method for solving questions about underlined segments in contemporary Japanese language, National Center Test for University Admissions. The method can solve a half of these questions in "critical essay" correctly.
著者
得丸 公明
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-219, no.23, pp.1-19, 2014-12-09

ヒトは母語の会話を聞き取るときは,モノラル (片耳) で聞いている.すなわち最初に音が入った側の耳だけで聞き,もう片方の耳からの音は聞いていない.これは脳幹聴覚神経核が両耳聴覚にもとづいておこなっている方向定位能力を文法処理にあてているからではないか.文法 (定義:主として単音節の付加・変化によって,意味の修飾・接続を指示し,習得すると無意識に使いこなせる論理スイッチ) をもたないピダハンは,大人になっても子供の二語文・三語文の文型しか使わない.これはアマゾンのジャングルで突如襲い掛かってくる敵に対応するために,大人になっても両耳聴覚を音源の方向定位や速度判定に使い続ける必要があり,文法の二元統合処理ができなくなったのではないか.本稿は,この仮説を検討するために,聴覚神経生理学,神経組織学,免疫ネットワ-ク理論,南アフリカの中期旧石器時代考古学,音韻論,エントロピ-を熱力学的概念として誤り訂正をおこなった情報理論,言語命題のみならず電子計算機やタンパク質産生メカニズムも対象とする一般論理学,フィ-ルド言語学などの学際研究を統合するものである.学際的に確立した複数個の公理が,系 (システム) を形成することによって,片耳聴覚と文法処理の直接的な関係が浮き彫りになることを期待する.
著者
武富 厚美 久野 雅樹
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.1, pp.1-4, 2014-12-09

近年,盛んに利用されている Twitter のようなマイクロブログでは,感情を含んだ投稿を多く含んでいる.本研究では,ツイートにおける感情表現を定量化し,ツイート頻度や Twitter 上でのつながりのようなユーザの特徴という観点から分析を行った.その結果,ツイート量が多いユーザは攻撃的な投稿をする傾向があった.しかし彼らのフォロワー数は多く,攻撃的な投稿は肯定的に面白い表現として捉えられていると考えられる.一方,ツイート量が少ないユーザは,攻撃的でない不快感情やポジティブ感情のようなパーソナルな感情をつぶやいている。彼らのフォロワー数は少なく,自身の感情を他者と共有することを指向していると考えられる.There are large numbers of emotional expressions in the texts of microblogs such as Twitter. In this study, emotional expressions in tweets were analyzed quantitatively in the light of Twitter users' characteristics such as the users' posting frequency and the users' follow-follower relationship on Twitter. As a result, the heavy users tended to use offensive words. As they had many followers, it is suggested that their offensive tweets would be often regarded as affirmative and interesting. On the other hand, the casual users tended to use words expressing personal emotions such as nonoffensive unpleasant ones and positive ones. It is suggested that they would like to share their emotions with their relatively limited followers.
著者
高橋哲朗
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.17, pp.1-7, 2013-11-07

twitter に代表されるマイクロブログは世の中の動向を知るためのセンサとしての活用が可能であるが,発言位置を特定できるユーザは一部でしかないため地理的な情報を用いた活用が難しいという課題がある.そこで本研究ではより網羅的にユーザの位置情報を推定するために,「雨」 のような局所性のあるイベントに対する発言の同期を集計することにより,発言位置を特定できないユーザの位置情報を推定する手法を提案する.実験の結果,約 41% の精度で都道府県単位の位置を推定できることを確認した.また位置情報が既知であるユーザの発言を元に 「雨」 以外に局所的な発言の同期が起きる語を抽出する手法を提案し,実験の結果,雨などの自然状況や花火などのイベントを含む複数のカテゴリの語が得られることを確認した.
著者
尾崎 竜史 一杉 裕志
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-228, no.8, pp.1-4, 2016-09-22

双閉モノイド圏 (biclosed monoidal category) を紹介し,これが古典的な範疇文法のモデルとなることを説明する.また,このモデルでは古典的な範疇文法において ad hoc に導入されていた文法範疇の同値性 (X\Y ) /Z ● X\ (Y/Z) のようなルールが自然同型として構成されることを示す.また,単一の文に対して同じ意味を与えるような二通りの構文解析が可能な現象を,双閉モノイド圏における図式の可換性を通して捉えることを提案する.最後に,組み合わせ範疇文法への拡張を簡単に検討する.
著者
持橋 大地 山田 武士 上田 修功
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2009, no.36(2009-NL-190), pp.49-49, 2009-03-18

本論文では,教師データや辞書を全く必要とせず,あらゆる言語に適用できる教師なし形態素解析器および言語モデルを提案する。観測された文字列を,文字 n グラム ‐ 単語 n グラムをノンパラメトリックベイズ法の枠組で統合した確率モデルからの出力とみなし,MCMC 法と動的計画法を用いて,繰り返し 「単語」 を推定する。提案法は,あらゆる言語の生文字列から直接,高精度で未知語のない n グラム言語モデルを構築する方法ともみなすことができる。
著者
奥野 陽 萩原 将文
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.36, pp.1-6, 2009-03-18
被引用文献数
9

本論文では,インターネットを用いた日本語入力システムを提案する。従来の日本語入力システムはインターネットが普及する以前の状況を前提に開発されてきた。一方で,近年の Web アプリケーションの台頭に見られるように,クライアントサイドの機能をサーバーサイドに移す動きが顕著である。提案システムはインターネットのメリットを最大限に活用するため,インターネットを通してサーバー側で変換を行う。インターネットを用いることで,次のような利点がある。(1) Web 上の文章から抽出された大規模な統計量を用いることができる。(2) サーバーサイドの豊富なハードウェアリソースを利用できる。(3) ユーザーが登録した単語を共有することで,専門用語や流行語などの単語を変換できるようになる。提案システムの評価を行うため,初心者ユーザーを想定して文章を入力する評価実験を行った。実験の結果では,提案システムは Microsoft Office IME 2007 と比べて入力時間が平均 21%,キータイプ数が平均 26% 削減された。In this paper, we propose a Japanese input system based on the Internet. The advantages of usage of the Internet are the following three merits; (1) The large-scale statistic extracted from the Web can be used; (2) the rich hardware resource of the server-side can be used; (3) the words such as a technical term or the vogue word can be converted by sharing the words that users registered. From the result of the experiments, as for the proposed system, an average of 21% in input time and 26% in the number of the key types were reduced in comparison with the Microsoft Office IME 2007,
著者
伊藤 彰則
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2015-NL-221, no.12, pp.1-6, 2015-05-18

筆者のグループがこれまで研究してきた,音声対話を利用した英会話のための CALL システムに関する技術について述べる.音声認識技術を利用した現状の CALL システムは,発音やイントネーションなど,1 つの発話に含まれる要素を採点するものが多い.それも重要ではあるが,英会話学習には 「実際に使われる表現を何度も繰り返して練習する」 ということも必要である.この考えに基づき,筆者のグループではこれまで 「対話に基づく CALL システム」 について研究してきた.本稿では,対話音声からの韻律評価,文法誤り検出および応答タイミング制御練習のためのシステムについて述べる.
著者
塚本悠馬 笹野遼平 高村大也 奥村学
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.14, pp.1-8, 2013-11-07

近年,Twitter をはじめとするマイクロブログを利用した商品やイベントの告知に対し,多くのユーザが感想など告知の投稿者やその告知への感想に関心があるユーザにとって有益な関連投稿を行うようになってきている.しかし,関連投稿の多くは告知投稿とは明示的に関連付けられてはいないため,告知の投稿者がこれらの関連投稿を見つけるのは容易ではない.そこで本研究では,特に Twitter の機能であるリツイートに注目し,告知に対する非明示的な関連投稿を効率的に収集する手法を提案する.Events, festivals or product releases are often announced via microblogs such as Twitter. Many users post messages that are relevant to the announcements. Such relevant posts are useful for both the authors of the announcements and the users who are interested in public opinions to the announcements. However, it is not easy to collect such relevant posts because many of the relevant posts are not explicitly associated with the announcement post. In this paper, we propose a method for efficiently collecting such posts that are only implicitly relevant posts to announcements, focusing on retweets of Twitter in particular.
著者
磯野 史弥 松吉 俊 福本 文代
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.7, pp.1-8, 2013-09-05

本研究では,Web 掲示板に存在する皮肉や誹謗中傷などの不適切な表現を自動的に検出する手法を提案する.我々は,Web 掲示板における皮肉を人手で体系的に分類し,8 つの分類クラス (疑問,推測,諦め,不相応,誇張,驚き,形容,対比) を構築した.それぞれの分類クラスに対して,対象の文とその前後文の評価極性を考慮する構文パターンを設計した.提案する皮肉検出システムは,構文パターンの集合を利用することにより,入力された文が皮肉文であるかどうかを判定する.提案する誹謗中傷検出システムは,Support Vector Machine (SVM) を用いて,入力された文が誹謗中傷文であるかどうかを判定する.ここでは,素性として,独自に構築した辞書に存在する誹謗中傷語の出現頻度と,対象の文とその前後文の評価極性を利用した.評価実験の結果,提案するシステムは,F 値においてベースラインを上回った.We propose two detection systems that identify sarcasm and slander in posts on bulletin board system (BBS). We made a corpus of sarcasm in BBS, and classified sarcasm instances into eight classes: interrogative, guess, give-up, unbalance, exaggeration, shock, metaphor, and contrast. For each sarcasm class, we constructed syntactic patterns for detection of sarcasm that include sentence structures and polarity conditions of the target sentence, the previous sentence and the next sentence. Our first system detects sarcasm using a database of the syntactic patterns. We made a corpus of slander in BBS and a list of slander expressions extracted from the corpus. Our second system detects slander using Support Vector Machine (SVM), where as features, we use frequencies of words in the list, and positive expressions and negative expressions in the target sentence, the previous sentence and the next sentence. In the experiment, the proposed systems can achieve superior F-measures compared with baseline systems.
著者
能地 宏 持橋 大地 石塚 満
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-208, no.4, pp.1-11, 2012-08-26

文書の潜在トピックを捉え,トピックに応じた適切なnグラムを用いて予測を行うBayes的なnグラム言語モデルを提案する.文章には,単語の出現が文書のトピックに依存して決まる内容語と,文法的な関係のみで決まる機能語が存在する.我々はこれらの単語の出現が,文脈によっておおまかに決まることに着目し,適切な箇所でのみトピックを考慮した予測を行うモデルとして,2種類のモデルを提案し,比較を行う.トピック別のnグラムモデルを,通常のGibbsサンプリングで学習したのではすぐに局所解に陥ってしまうことを実験的に示し,それを回避するための新しいBlocked Gibbsサンプリングを提案する.提案法は,パープレキシティの比較において,Unigram Rescalingと同等以上の性能を示しながら,予測時間の大幅な改善を行うことを確認した.
著者
廣川 純也 深澤 拓海 松村 冬子 原田 実
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-225, no.3, pp.1-7, 2016-01-15

言語処理システムの基盤技術である形態素解析では既に高い精度が実現されている.しかし,方言やネットスラングなどの標準語から外れた日本語文を解析する際,それらの表現が形態素解析で用いる辞書に登録されていないため,正しく解析ができない場合がある.本研究では方言の中でも特に関西弁を含む日本語文の形態素解析の精度向上を目指し,形態素解析器 JUMAN に関西弁特有の語の表記や活用形,連接規則を追加することで,従来は未知語として処理されていた語の正しい解析を実現する.
著者
小池 誠
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-228, no.5, pp.1-7, 2016-09-22

本稿は,音声対話システムの出力インタフェースとして,マイクロ波聴覚刺激を応用した無線通信を提案する.この無線通信の原理は,音声信号で振幅変調し,次にパルス変調し,更に頭部に向けてパルス変調されたマイクロ波ビームを照射する.マイクロ波聴覚刺激により頭部が復調器として機能し,頭の中に直接,音声が聞こえる.
著者
佐藤 敏紀 橋本 泰一 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-229, no.15, pp.1-14, 2016-12-14

SNS やニュース記事で発見される新語や未知語の継続的な採録は,分かち書き用の辞書を作成して更新する際の課題のひとつである.我々は,固有名詞や複合語に対する高い網羅性と分かち書き精度を実現し続ける際に,コーパスではなく辞書として言語資源を追加することを選択した.そして,形態素より長い固有名詞や複合語を単一の見出し語として分かち書きし,品詞情報や読み仮名などを付与できる辞書を生成するためのシステムを構築した.さらに辞書生成システムを運用して短い周期での更新を長期間継続した.我々は,形態素より長い固有名詞や複合語を一語として分かち書きすること,及び,辞書生成システムを運用して短い周期で更新することの各効果を,ニュース記事を複数のカテゴリに分類する実験を通じて確認した.