著者
川崎 博章 笹野 遼平 高村 大也 奥村 学
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.12, pp.2481-2491, 2013-12-15

スクリーンリーダは,コンピュータ上のテキスト情報を音声で読み上げるソフトウェアアプリケーションであり,視覚障害者がコンピュータを利用して情報にアクセスする際に重要な役割を果たす.スクリーンリーダに搭載されている重要な機能の1つに漢字詳細読みの出力がある.多くの漢字には同音異字が存在しており,漢字詳細読みには音声による説明のみでユーザに漢字を正しく想起させることが求められている.たとえば,一般的には“コウニュウ”という読みを持つ単語は“購入”しかないため,“購”という漢字は“コウニュウのコウ”という漢字詳細読みにより想起することが可能である.一方で,“コウバイ”という読みを持つ単語は“勾配”や“公売”などが存在するため,“コウバイのコウ”という漢字詳細読みから“購”という漢字を想起することは難しい.しかし,このような曖昧性を持つ漢字詳細読みは既存のスクリーンリーダの中にも存在しており,正しい漢字が想起できない要因の1つとなっている.また,漢字詳細読みで用いる単語はユーザに慣れ親しんだものであるべきだが,単語の親密度は時間の経過やユーザの背景により変化する.そこで,本論文では,同音異字の情報と単語の親密度を考慮に入れた,コーパスを用いた漢字詳細読みの自動生成法を提案する.さらに漢字想起実験により,提案手法はインタラクティブな要素を取り入れることで生成される漢字詳細読みの長さを既存のスクリーンリーダのものと同程度に抑えていること,および,提案手法により自動生成された漢字詳細読みの性能が既存のスクリーンリーダのものよりも高いことを示す.
著者
塚越 駿 笹野 遼平 武田 浩一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.1, pp.125-155, 2023 (Released:2023-03-15)
参考文献数
39

自然言語文をベクトルとして表現する文埋め込みは,深層学習を用いた自然言語処理の基礎技術として盛んに研究されており,特に自然言語推論 (Natural Language Inference; NLI) タスクに基づく文埋め込み手法が成功を収めている.しかし,これらの手法は大規模な NLI データセットを必要とすることから,そのような NLI データが整備された言語以外については高品質な文埋め込みの構築が期待できないという問題がある.本研究ではこの問題を解決するため,NLI データと比べて多くの言語において整備が行われている言語資源である辞書に着目し,辞書の定義文を用いた文埋め込み手法を提案する.また,標準的なベンチマークを用いた評価実験を通し,提案手法は既存の NLI タスクに基づく文埋め込み手法と同等の性能を実現すること,評価タスクの性質や評価データの抽出方法により性能に差異が見られること,これら2手法を統合することでより高い性能を実現できることを示す.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014-12-15 (Released:2015-03-15)
参考文献数
24
被引用文献数
3

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.
著者
山田 康輔 笹野 遼平 武田 浩一
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.4, pp.B-K22_1-12, 2020-07-01 (Released:2020-07-01)
参考文献数
20

It has been reported that a person’s remarks and behaviors reflect the person’s personality. Several recent studies have shown that textual information of user posts and user behaviors such as liking and reblogging the specific posts are useful for predicting the personality of Social Networking Service (SNS) users. However, less attention has been paid to the textual information derived from the user behaviors. In this paper, we investigate the effect of using textual information with user behaviors for personality prediction. We focus on the personality diagnosis website and make a large dataset on SNS users and their personalities by collecting users who posted the personality diagnosis on Twitter. Using this dataset, we work on personality prediction as a set of binary classification tasks. Our experiments on the personality prediction of Twitter users show that the textual information of user behaviors is more useful than the co-occurrence information of the user behaviors and the performance of prediction is strongly affected by the number of the user behaviors, which were incorporated into the prediction. We also show that user behavior information is crucial for predicting the personality of users who do not post frequently.
著者
塚本悠馬 笹野遼平 高村大也 奥村学
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.14, pp.1-8, 2013-11-07

近年,Twitter をはじめとするマイクロブログを利用した商品やイベントの告知に対し,多くのユーザが感想など告知の投稿者やその告知への感想に関心があるユーザにとって有益な関連投稿を行うようになってきている.しかし,関連投稿の多くは告知投稿とは明示的に関連付けられてはいないため,告知の投稿者がこれらの関連投稿を見つけるのは容易ではない.そこで本研究では,特に Twitter の機能であるリツイートに注目し,告知に対する非明示的な関連投稿を効率的に収集する手法を提案する.Events, festivals or product releases are often announced via microblogs such as Twitter. Many users post messages that are relevant to the announcements. Such relevant posts are useful for both the authors of the announcements and the users who are interested in public opinions to the announcements. However, it is not easy to collect such relevant posts because many of the relevant posts are not explicitly associated with the announcement post. In this paper, we propose a method for efficiently collecting such posts that are only implicitly relevant posts to announcements, focusing on retweets of Twitter in particular.
著者
木原 裕二 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.19, pp.1-6, 2014-05-15

ソーシャルメディアのユーザの中には複数のソーシャルメディアのアカウントを関連付けずに使用しているユーザがいる.しかし,特徴的な表現や話題などから,それらの複数のアカウントが同じユーザにより作成されたものであると第三者に推測されてしまう場合がある.本研究では,まず,Twitter とブログの著者の同一性推定システムを構築することにより,どのような特徴がこれらのアカウントが同じユーザにより作成されたものと判断される要因となるのかを明らかにし,そこから得られた知見をもとにした関連付け防止システムの構築を行う.Some social media users do not link their accounts on other social media platforms. However, the user identity is sometimes revealed by others due to the characteristics of expressions and topics in the posts. In this paper, we first examine what kinds of characteristics can be a clue for user identification by constructing a system for identifying user accounts on Twitter and blogs, and then propose a system to prevent identification of user accounts on different social media platforms on the basis of the findings from the user identification system.
著者
塚本悠馬 笹野遼平 高村大也 奥村学
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-214, no.14, pp.1-8, 2013-11-07

近年,Twitter をはじめとするマイクロブログを利用した商品やイベントの告知に対し,多くのユーザが感想など告知の投稿者やその告知への感想に関心があるユーザにとって有益な関連投稿を行うようになってきている.しかし,関連投稿の多くは告知投稿とは明示的に関連付けられてはいないため,告知の投稿者がこれらの関連投稿を見つけるのは容易ではない.そこで本研究では,特に Twitter の機能であるリツイートに注目し,告知に対する非明示的な関連投稿を効率的に収集する手法を提案する.
著者
笹野 遼平 黒橋 禎夫
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.11, pp.3765-3776, 2008-11-15

本稿では大域的情報を用いた日本語固有表現認識手法を提案する.提案する手法では,SVMを用いた固有表現認識手法を基とし,構造的な解析などから得られる大域的な情報として,先行文における同一形態素の解析結果,共参照関係にある表現の解析結果,係り先から得られる情報,固有表現情報を付与した格フレームを用いた格解析から得られる情報の4つの情報を新たに導入する.CRL固有表現データ(5分割交差検定),IREXテストセット,および,ウェブテキストに固有表現を付与したデータを用いた評価実験の結果,従来手法より高い精度が得られ,手法の有効性が確認された.
著者
鈴木 雄登 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-209, no.8, pp.1-7, 2012-11-15

昨今, Web サービスの発達により気軽に Web 上にテキストを投稿することが可能になった.それに伴い, 「パフェる」 や 「リムる」 のような新しいカタカナ動詞も多く使用されるようになった.しかしこうしたカタカナ動詞には一見しただけでは意味が推測できないものが多く存在する.そこで本研究では,カタカナ動詞の入力に対して語源と言い換えの 2 つを出力として提示すればその意味の理解の助けになるとの考えから,格要素の統計的分布を用いてカタカナ動詞の語源と言い換えを獲得する手法を提案する.
著者
馬緤 美穂 笹野 遼平 高村 大也 奥村 学
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.11, no.3, pp.12-22, 2018-10-17

本研究では,ある職業の人間がとる行動を獲得するためのシステムを提案する.提案システムは,対象の職業が主語となっている文から行動を抽出する主語ベース部,および,対象の職業に従事するユーザによって書かれた文から本人の行動を抽出する著者ベース部の2つの要素で行動を収集し,得られた行動と職業の間のカイ二乗値を計算することで職業に特徴的な行動を獲得する.クラウドソーシングを用いた評価を通し,2つの構成要素を組み合わせることでより幅広い職業について行動が獲得できること,また,主語ベース部では他者から言及されやすい行動が多く獲得される傾向にあるのに対し,著者ベース部では対象の職業の日常に根ざした行動が多く獲得される傾向にあることを示す.
著者
林 正頼 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-227, no.7, pp.1-7, 2016-07-22

英語教育において,学習者が書いた英作文が,どの程度のレベルであるかを把握することは,教育者,学習者双方にとって有用である.本研究では,英作文のレベル判定問題を順序回帰問題として定式化する.レベル判定の手がかりとして,語彙情報といった基本的な素性に加え,英作文に含まれる誤りの傾向や,文の容認性などを導入し,それらの有効性を検証する.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014
被引用文献数
3

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.
著者
山田 康輔 笹野 遼平 武田 浩一
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.4, pp.B-K22_1-12, 2020

<p>It has been reported that a person's remarks and behaviors reflect the person's personality. Several recent studies have shown that textual information of user posts and user behaviors such as liking and reblogging the specific posts are useful for predicting the personality of Social Networking Service (SNS) users. However, less attention has been paid to the textual information derived from the user behaviors. In this paper, we investigate the effect of using textual information with user behaviors for personality prediction. We focus on the personality diagnosis website and make a large dataset on SNS users and their personalities by collecting users who posted the personality diagnosis on Twitter. Using this dataset, we work on personality prediction as a set of binary classification tasks. Our experiments on the personality prediction of Twitter users show that the textual information of user behaviors is more useful than the co-occurrence information of the user behaviors and the performance of prediction is strongly affected by the number of the user behaviors, which were incorporated into the prediction. We also show that user behavior information is crucial for predicting the personality of users who do not post frequently.</p>
著者
青木 竜哉 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.381-406, 2019-06-15 (Released:2019-09-15)
参考文献数
35

ソーシャルメディアにおいては,辞書に掲載されているような用法とは全く異なる使われ方がされている単語が存在する.本論文では,ソーシャルメディアにおける単語の一般的ではない用法を検出する手法を提案する.提案手法では,ある単語が一般的ではない使われ方がされていた場合,その周辺単語は一般的な用法として使われた場合の周辺単語と異なるという仮説に基づいて,着目単語とその周辺単語の単語ベクトルを利用し,注目している単語の周辺単語が均衡コーパスにおける一般的な用法の場合の周辺単語とどの程度異なっているかを評価することにより,一般的ではない用法の検出を行う.ソーシャルメディアにおいて一般的ではない用法を持つ40単語を対象に行った実験の結果,均衡コーパスと周辺単語ベクトルを用いる提案手法の有効性を確認できた.また,一般的でない用法の検出においては,単語ベクトルの学習手法,学習された単語ベクトルの扱い方,学習コーパスを適切に選択することが重要であることがわかった.
著者
山田 康輔 笹野 遼平 武田 浩一
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.5, pp.1-6, 2020-06-26

本研究では,大規模コーパスからのフレーム知識獲得において,コーパスから収集された動詞の文脈を考慮することの有用性を検証する.具体的には,FrameNet および PropBank において 2 種類以上のフレームを喚起する動詞に着目し,それらの動詞が喚起するフレームの違いを ELMo や BERT に代表される文脈化単語埋め込みがどのくらい捉えているかを,各用例の文脈化単語埋め込みのクラスタリング結果とそれらに付与されたフレームを比較することにより調査する.
著者
笹野 遼平 河原 大輔 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1207-1233, 2014-12-15 (Released:2015-03-15)
参考文献数
31

日本語において受身文や使役文を能動文に変換する際,格交替が起こる場合がある.本論文では,対応する受身文・使役文と能動文の格の用例や分布の類似性に着目し,Web から自動構築した大規模格フレームと,人手で記述した少数の格の交替パターンを用いることで,受身文・使役文と能動文の表層格の対応付けに関する知識を自動獲得する手法を提案する.さらに,自動獲得した知識を受身文・使役文の能動文への変換における格交替の推定に利用することによりその有用性を示す.
著者
笹野 遼平 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.687-703, 2017

<p>日本語二重目的語構文の基本語順に関しては多くの研究が行われてきた.しかし,それらの研究の多くは,人手による用例の分析や,脳活動や読み時間の計測を必要としているため,分析対象とした用例については信頼度の高い分析を行うことができるものの,多くの仮説の網羅的な検証には不向きであった.一方,各語順の出現傾向は,大量のコーパスから大規模に収集することが可能である.そこで本論文では,二重目的語構文の基本語順はコーパス中の語順の出現割合と強く関係するという仮説に基づき,大規模コーパスを用いた日本語二重目的語構文の基本語順に関する分析を行う.100 億文を超える大規模コーパスから収集した用例に基づく分析の結果,動詞により基本語順は異なる,省略されにくい格は動詞の近くに出現する傾向がある,Pass タイプと Show タイプといった動詞のタイプは基本語順と関係しない,ニ格名詞が着点を表す場合は有生性を持つ名詞の方が「にを」語順をとりやすい,対象の動詞と高頻度に共起するヲ格名詞およびニ格名詞は動詞の近くに出現しやすい等の結論が示唆された.</p>
著者
高村 大也 笹野 遼平
出版者
東京工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2014-04-01

要約技術の開発に必要となる大規模要約データを自動構築する技術、またそれを効果的に利用する技術を開発した。また、入力文書に対し、文分割、文圧縮、文融合などの演算を施した上で要約を生成する技術、およびウェブページの推薦システムにおいて、ユーザにカスタマイズしたスニペットを生成する技術を開発した。また、野球のイニング速報を自動的に生成する技術を開発した。さらに、ニューラルネットワークに基づく文要約手法において、出力長を制御する技術を開発した。また、日本語の文圧縮のための大量のデータを自動的に抽出する手法を開発し、実際にこの手法を用いて大規模データを構築し、文圧縮モデルの学習を行った。