著者
川崎 博章 笹野 遼平 高村 大也 奥村 学
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.12, pp.2481-2491, 2013-12-15

スクリーンリーダは,コンピュータ上のテキスト情報を音声で読み上げるソフトウェアアプリケーションであり,視覚障害者がコンピュータを利用して情報にアクセスする際に重要な役割を果たす.スクリーンリーダに搭載されている重要な機能の1つに漢字詳細読みの出力がある.多くの漢字には同音異字が存在しており,漢字詳細読みには音声による説明のみでユーザに漢字を正しく想起させることが求められている.たとえば,一般的には“コウニュウ”という読みを持つ単語は“購入”しかないため,“購”という漢字は“コウニュウのコウ”という漢字詳細読みにより想起することが可能である.一方で,“コウバイ”という読みを持つ単語は“勾配”や“公売”などが存在するため,“コウバイのコウ”という漢字詳細読みから“購”という漢字を想起することは難しい.しかし,このような曖昧性を持つ漢字詳細読みは既存のスクリーンリーダの中にも存在しており,正しい漢字が想起できない要因の1つとなっている.また,漢字詳細読みで用いる単語はユーザに慣れ親しんだものであるべきだが,単語の親密度は時間の経過やユーザの背景により変化する.そこで,本論文では,同音異字の情報と単語の親密度を考慮に入れた,コーパスを用いた漢字詳細読みの自動生成法を提案する.さらに漢字想起実験により,提案手法はインタラクティブな要素を取り入れることで生成される漢字詳細読みの長さを既存のスクリーンリーダのものと同程度に抑えていること,および,提案手法により自動生成された漢字詳細読みの性能が既存のスクリーンリーダのものよりも高いことを示す.
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.2, pp.627-637, 2006-02-15
参考文献数
26
被引用文献数
16

単語の感情極性(望ましいか否か)を判定する方法を提案する.提案手法では,単語の感情極性を電子のスピンの方向と見なし,語釈文,シソーラス,コーパスによって構築された語彙ネットワークをスピン系でモデル化する.平均場近似を利用してスピン系の状態を近似的に求めることにより,単語の感情極性を判定する.また,系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する.提案手法を用いてWordNet に収録されている語彙に対して実験を行い,14 語という少数の単語を種とした場合は約80%の正解率で,3 000We propose a method for extracting semantic orientations of words: desirable or undesirable. We construct a lexical network out of glosses in a dictionary, a thesaurus and a corpus. Regarding semantic orientations of words on the network as spins of elect
著者
石垣 達也 トピチ ゴラン 濵園 侑美 能地 宏 小林 一郎 宮尾 祐介 高村 大也
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-250, no.8, pp.1-11, 2021-09-21

本稿では,新たな言語生成タスクとして,レーシングゲーム実況テキスト生成を提案する.このタスクでは,視覚情報としてレーシングゲームの録画映像,言語データとして実況発話,構造化データとして速度,ハンドル角度といった数値データを入力として扱い,視聴者が映像を視聴しながら,レースをより理解し,楽しむための実況テキストを生成する.既存の言語生成研究においては,データセットの欠如が一因となり映像,言語,構造化データの複数モダリティを同時に考慮する言語生成研究を行うことは困難であった.また,言語生成の中でも,特に実況生成においては「どのタイミングで発話するか」「何を発話するか」を最低限決定する必要があるが,例えば野球を対象とした既存研究においてはイニング間に実況を行うなど,発話タイミングがあらかじめ与えられる設定が扱われ,後者にのみ着目されてきた.本研究ではまず,映像,構造化データとそれらに対応する実況テキストが対になった大規模データセットを作成し,レース実況の特徴について分析する.分析より,実況テキストはその言語的な特徴が,時間および実況者の視点の影響を受け,変化することが分かった.さらに,実況生成タスクをタイミング同定と発話生成の 2 つのサブタスクに分割し,これらについてベースライン手法を提案する.実験より,構造化データの活用は有益である一方,視覚情報については最先端の画像エンコーダを用いたとしても,本タスクにおいて効果が限定的であり,実況生成タスクが挑戦的な課題であることが分かった.マルチモーダルな言語生成タスクのためのデータセットとして,本研究で作成したデータセットは公開する.
著者
塚本悠馬 笹野遼平 高村大也 奥村学
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.14, pp.1-8, 2013-11-07

近年,Twitter をはじめとするマイクロブログを利用した商品やイベントの告知に対し,多くのユーザが感想など告知の投稿者やその告知への感想に関心があるユーザにとって有益な関連投稿を行うようになってきている.しかし,関連投稿の多くは告知投稿とは明示的に関連付けられてはいないため,告知の投稿者がこれらの関連投稿を見つけるのは容易ではない.そこで本研究では,特に Twitter の機能であるリツイートに注目し,告知に対する非明示的な関連投稿を効率的に収集する手法を提案する.Events, festivals or product releases are often announced via microblogs such as Twitter. Many users post messages that are relevant to the announcements. Such relevant posts are useful for both the authors of the announcements and the users who are interested in public opinions to the announcements. However, it is not easy to collect such relevant posts because many of the relevant posts are not explicitly associated with the announcement post. In this paper, we propose a method for efficiently collecting such posts that are only implicitly relevant posts to announcements, focusing on retweets of Twitter in particular.
著者
池田 大介 高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.50-57, 2010 (Released:2010-01-06)
参考文献数
23
被引用文献数
2 6

We propose a machine learning based method of sentiment classification of sentences using word-level polarity. The polarities of words in a sentence are not always the same as that of the sentence, because there can be polarity-shifters such as negation expressions. The proposed method models the polarity-shifters. Our model can be trained in two different ways: word-wise and sentence-wise learning. In sentence-wise learning, the model can be trained so that the prediction of sentence polarities should be accurate. The model can also combined with features used in previous work such as bag-of-words and n-grams. We empirically show that our method improves the performance of sentiment classification of sentences especially when we have only small amount of training data.
著者
木原 裕二 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.19, pp.1-6, 2014-05-15

ソーシャルメディアのユーザの中には複数のソーシャルメディアのアカウントを関連付けずに使用しているユーザがいる.しかし,特徴的な表現や話題などから,それらの複数のアカウントが同じユーザにより作成されたものであると第三者に推測されてしまう場合がある.本研究では,まず,Twitter とブログの著者の同一性推定システムを構築することにより,どのような特徴がこれらのアカウントが同じユーザにより作成されたものと判断される要因となるのかを明らかにし,そこから得られた知見をもとにした関連付け防止システムの構築を行う.Some social media users do not link their accounts on other social media platforms. However, the user identity is sometimes revealed by others due to the characteristics of expressions and topics in the posts. In this paper, we first examine what kinds of characteristics can be a clue for user identification by constructing a system for identifying user accounts on Twitter and blogs, and then propose a system to prevent identification of user accounts on different social media platforms on the basis of the findings from the user identification system.
著者
田中 駿 矢野 裕一郎 二宮 崇 高村 大也
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

本研究はBBS(電子掲示板)要約の問題を整数線形計画問題として解く手法を提案する。BBS要約は文章要約の一種であり、BBSの記事から重要な投稿だけを抽出することにより要約が生成される。一般の文章要約では字数制限を整数線形計画問題の制約とすることができるが、BBS要約には字数制限がないため、一般の文章要約の手法はそのままでは適用できない。本研究では記事に応じて投稿数の制限を与える手法を提案する。
著者
塚本悠馬 笹野遼平 高村大也 奥村学
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-214, no.14, pp.1-8, 2013-11-07

近年,Twitter をはじめとするマイクロブログを利用した商品やイベントの告知に対し,多くのユーザが感想など告知の投稿者やその告知への感想に関心があるユーザにとって有益な関連投稿を行うようになってきている.しかし,関連投稿の多くは告知投稿とは明示的に関連付けられてはいないため,告知の投稿者がこれらの関連投稿を見つけるのは容易ではない.そこで本研究では,特に Twitter の機能であるリツイートに注目し,告知に対する非明示的な関連投稿を効率的に収集する手法を提案する.
著者
高村 大也 乾 孝司 奥村 学
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.2, pp.627-637, 2006-02-15

単語の感情極性(望ましいか否か)を判定する方法を提案する.提案手法では,単語の感情極性を電子のスピンの方向と見なし,語釈文,シソーラス,コーパスによって構築された語彙ネットワークをスピン系でモデル化する.平均場近似を利用してスピン系の状態を近似的に求めることにより,単語の感情極性を判定する.また,系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する.提案手法を用いてWordNet に収録されている語彙に対して実験を行い,14 語という少数の単語を種とした場合は約80%の正解率で,3 000
著者
鈴木 雄登 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-209, no.8, pp.1-7, 2012-11-15

昨今, Web サービスの発達により気軽に Web 上にテキストを投稿することが可能になった.それに伴い, 「パフェる」 や 「リムる」 のような新しいカタカナ動詞も多く使用されるようになった.しかしこうしたカタカナ動詞には一見しただけでは意味が推測できないものが多く存在する.そこで本研究では,カタカナ動詞の入力に対して語源と言い換えの 2 つを出力として提示すればその意味の理解の助けになるとの考えから,格要素の統計的分布を用いてカタカナ動詞の語源と言い換えを獲得する手法を提案する.
著者
高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.23, no.6, pp.505-513, 2008 (Released:2008-09-17)
参考文献数
22
被引用文献数
3 3

We discuss text summarization in terms of maximum coverage problem and its variant. To solve the optimization problem, we applied some decoding algorithms including the ones never used in this summarization formulation, such as a greedy algorithm with performance guarantee, a randomized algorithm, and a branch-and-bound method. We conduct comparative experiments. On the basis of the experimental results, we also augment the summarization model so that it takes into account the relevance to the document cluster. Through experiments, we showed that the augmented model is at least comparable to the best-performing method of DUC'04.
著者
馬緤 美穂 笹野 遼平 高村 大也 奥村 学
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.11, no.3, pp.12-22, 2018-10-17

本研究では,ある職業の人間がとる行動を獲得するためのシステムを提案する.提案システムは,対象の職業が主語となっている文から行動を抽出する主語ベース部,および,対象の職業に従事するユーザによって書かれた文から本人の行動を抽出する著者ベース部の2つの要素で行動を収集し,得られた行動と職業の間のカイ二乗値を計算することで職業に特徴的な行動を獲得する.クラウドソーシングを用いた評価を通し,2つの構成要素を組み合わせることでより幅広い職業について行動が獲得できること,また,主語ベース部では他者から言及されやすい行動が多く獲得される傾向にあるのに対し,著者ベース部では対象の職業の日常に根ざした行動が多く獲得される傾向にあることを示す.
著者
菅野 沙也 伊藤 貴之 高村 大也
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.114, no.52, pp.71-74, 2014-05-17

本研究では文書の印象や感情に基づいて楽曲生成を行う.前処理としてコードとリズム進行のデータを作成しておき,さらにユーザーごとの感性データを取得しておく.これは一人ひとりによって異なる音楽的感性を考慮し,ユーザーそれぞれに対応した楽曲を提供するためである.文書を入力するとまず形態素解析と感情極性を用いた文書解析をすることで印象値を取得し,次にこの印象値から場面ごとのコードとリズムの進行を決定する.これらを合成することで生成された楽曲がユーザーごとに提供されることとなる.入力文書の印象や感情を楽曲を用いて表現することでさらなる印象理解を促すことを目的とした.
著者
林 正頼 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-227, no.7, pp.1-7, 2016-07-22

英語教育において,学習者が書いた英作文が,どの程度のレベルであるかを把握することは,教育者,学習者双方にとって有用である.本研究では,英作文のレベル判定問題を順序回帰問題として定式化する.レベル判定の手がかりとして,語彙情報といった基本的な素性に加え,英作文に含まれる誤りの傾向や,文の容認性などを導入し,それらの有効性を検証する.
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.11, pp.3021-3031, 2006-11-15
参考文献数
23
被引用文献数
5

複数語から成る評価表現のモデルおよびそれに基づいた分類手法を提案する.複数語から成る評価表現の感情極性は,その構成語の感情極性を単純に足し合わせるだけでは算出できないことが多い.極性の出現や反転が頻繁に起こる.そのような複数語表現の特性に対応するために,我々はモデルに隠れ変数を導入する.実験により,提案した隠れ変数モデルは複数語から成る評価表現分類において,約82%という高い分類正解率を得ることに成功した.We propose models for semantic orientations of phrases as well as classification methods based on the models. Although each phrase consists of multiple words, the semantic orientation of the phrase is not a mere sum of the orientations of the component words. Some words can invert the orientation. In order to capture the property of such phrases, we introduce latent variables into the models. Through experiments, we show that the proposed latent variable models work well in the classification of semantic orientations of phrases and achieved nearly 82% classification accuracy.