著者
川崎 博章 笹野 遼平 高村 大也 奥村 学
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.12, pp.2481-2491, 2013-12-15

スクリーンリーダは,コンピュータ上のテキスト情報を音声で読み上げるソフトウェアアプリケーションであり,視覚障害者がコンピュータを利用して情報にアクセスする際に重要な役割を果たす.スクリーンリーダに搭載されている重要な機能の1つに漢字詳細読みの出力がある.多くの漢字には同音異字が存在しており,漢字詳細読みには音声による説明のみでユーザに漢字を正しく想起させることが求められている.たとえば,一般的には“コウニュウ”という読みを持つ単語は“購入”しかないため,“購”という漢字は“コウニュウのコウ”という漢字詳細読みにより想起することが可能である.一方で,“コウバイ”という読みを持つ単語は“勾配”や“公売”などが存在するため,“コウバイのコウ”という漢字詳細読みから“購”という漢字を想起することは難しい.しかし,このような曖昧性を持つ漢字詳細読みは既存のスクリーンリーダの中にも存在しており,正しい漢字が想起できない要因の1つとなっている.また,漢字詳細読みで用いる単語はユーザに慣れ親しんだものであるべきだが,単語の親密度は時間の経過やユーザの背景により変化する.そこで,本論文では,同音異字の情報と単語の親密度を考慮に入れた,コーパスを用いた漢字詳細読みの自動生成法を提案する.さらに漢字想起実験により,提案手法はインタラクティブな要素を取り入れることで生成される漢字詳細読みの長さを既存のスクリーンリーダのものと同程度に抑えていること,および,提案手法により自動生成された漢字詳細読みの性能が既存のスクリーンリーダのものよりも高いことを示す.
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.2, pp.627-637, 2006-02-15
被引用文献数
16

単語の感情極性(望ましいか否か)を判定する方法を提案する.提案手法では,単語の感情極性を電子のスピンの方向と見なし,語釈文,シソーラス,コーパスによって構築された語彙ネットワークをスピン系でモデル化する.平均場近似を利用してスピン系の状態を近似的に求めることにより,単語の感情極性を判定する.また,系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する.提案手法を用いてWordNet に収録されている語彙に対して実験を行い,14 語という少数の単語を種とした場合は約80%の正解率で,3 000We propose a method for extracting semantic orientations of words: desirable or undesirable. We construct a lexical network out of glosses in a dictionary, a thesaurus and a corpus. Regarding semantic orientations of words on the network as spins of elect
著者
池田 大介 高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.50-57, 2010 (Released:2010-01-06)
参考文献数
23
被引用文献数
2 5

We propose a machine learning based method of sentiment classification of sentences using word-level polarity. The polarities of words in a sentence are not always the same as that of the sentence, because there can be polarity-shifters such as negation expressions. The proposed method models the polarity-shifters. Our model can be trained in two different ways: word-wise and sentence-wise learning. In sentence-wise learning, the model can be trained so that the prediction of sentence polarities should be accurate. The model can also combined with features used in previous work such as bag-of-words and n-grams. We empirically show that our method improves the performance of sentiment classification of sentences especially when we have only small amount of training data.
著者
木原 裕二 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.19, pp.1-6, 2014-05-15

ソーシャルメディアのユーザの中には複数のソーシャルメディアのアカウントを関連付けずに使用しているユーザがいる.しかし,特徴的な表現や話題などから,それらの複数のアカウントが同じユーザにより作成されたものであると第三者に推測されてしまう場合がある.本研究では,まず,Twitter とブログの著者の同一性推定システムを構築することにより,どのような特徴がこれらのアカウントが同じユーザにより作成されたものと判断される要因となるのかを明らかにし,そこから得られた知見をもとにした関連付け防止システムの構築を行う.Some social media users do not link their accounts on other social media platforms. However, the user identity is sometimes revealed by others due to the characteristics of expressions and topics in the posts. In this paper, we first examine what kinds of characteristics can be a clue for user identification by constructing a system for identifying user accounts on Twitter and blogs, and then propose a system to prevent identification of user accounts on different social media platforms on the basis of the findings from the user identification system.
著者
田中 駿 矢野 裕一郎 二宮 崇 高村 大也
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

本研究はBBS(電子掲示板)要約の問題を整数線形計画問題として解く手法を提案する。BBS要約は文章要約の一種であり、BBSの記事から重要な投稿だけを抽出することにより要約が生成される。一般の文章要約では字数制限を整数線形計画問題の制約とすることができるが、BBS要約には字数制限がないため、一般の文章要約の手法はそのままでは適用できない。本研究では記事に応じて投稿数の制限を与える手法を提案する。
著者
塚本悠馬 笹野遼平 高村大也 奥村学
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-214, no.14, pp.1-8, 2013-11-07

近年,Twitter をはじめとするマイクロブログを利用した商品やイベントの告知に対し,多くのユーザが感想など告知の投稿者やその告知への感想に関心があるユーザにとって有益な関連投稿を行うようになってきている.しかし,関連投稿の多くは告知投稿とは明示的に関連付けられてはいないため,告知の投稿者がこれらの関連投稿を見つけるのは容易ではない.そこで本研究では,特に Twitter の機能であるリツイートに注目し,告知に対する非明示的な関連投稿を効率的に収集する手法を提案する.
著者
塚本悠馬 笹野遼平 高村大也 奥村学
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.14, pp.1-8, 2013-11-07

近年,Twitter をはじめとするマイクロブログを利用した商品やイベントの告知に対し,多くのユーザが感想など告知の投稿者やその告知への感想に関心があるユーザにとって有益な関連投稿を行うようになってきている.しかし,関連投稿の多くは告知投稿とは明示的に関連付けられてはいないため,告知の投稿者がこれらの関連投稿を見つけるのは容易ではない.そこで本研究では,特に Twitter の機能であるリツイートに注目し,告知に対する非明示的な関連投稿を効率的に収集する手法を提案する.Events, festivals or product releases are often announced via microblogs such as Twitter. Many users post messages that are relevant to the announcements. Such relevant posts are useful for both the authors of the announcements and the users who are interested in public opinions to the announcements. However, it is not easy to collect such relevant posts because many of the relevant posts are not explicitly associated with the announcement post. In this paper, we propose a method for efficiently collecting such posts that are only implicitly relevant posts to announcements, focusing on retweets of Twitter in particular.
著者
高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.23, no.6, pp.505-513, 2008 (Released:2008-09-17)
参考文献数
22
被引用文献数
3 3

We discuss text summarization in terms of maximum coverage problem and its variant. To solve the optimization problem, we applied some decoding algorithms including the ones never used in this summarization formulation, such as a greedy algorithm with performance guarantee, a randomized algorithm, and a branch-and-bound method. We conduct comparative experiments. On the basis of the experimental results, we also augment the summarization model so that it takes into account the relevance to the document cluster. Through experiments, we showed that the augmented model is at least comparable to the best-performing method of DUC'04.
著者
馬緤 美穂 笹野 遼平 高村 大也 奥村 学
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.11, no.3, pp.12-22, 2018-10-17

本研究では,ある職業の人間がとる行動を獲得するためのシステムを提案する.提案システムは,対象の職業が主語となっている文から行動を抽出する主語ベース部,および,対象の職業に従事するユーザによって書かれた文から本人の行動を抽出する著者ベース部の2つの要素で行動を収集し,得られた行動と職業の間のカイ二乗値を計算することで職業に特徴的な行動を獲得する.クラウドソーシングを用いた評価を通し,2つの構成要素を組み合わせることでより幅広い職業について行動が獲得できること,また,主語ベース部では他者から言及されやすい行動が多く獲得される傾向にあるのに対し,著者ベース部では対象の職業の日常に根ざした行動が多く獲得される傾向にあることを示す.
著者
菅野 沙也 伊藤 貴之 高村 大也
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.114, no.52, pp.71-74, 2014-05-17

本研究では文書の印象や感情に基づいて楽曲生成を行う.前処理としてコードとリズム進行のデータを作成しておき,さらにユーザーごとの感性データを取得しておく.これは一人ひとりによって異なる音楽的感性を考慮し,ユーザーそれぞれに対応した楽曲を提供するためである.文書を入力するとまず形態素解析と感情極性を用いた文書解析をすることで印象値を取得し,次にこの印象値から場面ごとのコードとリズムの進行を決定する.これらを合成することで生成された楽曲がユーザーごとに提供されることとなる.入力文書の印象や感情を楽曲を用いて表現することでさらなる印象理解を促すことを目的とした.
著者
林 正頼 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-227, no.7, pp.1-7, 2016-07-22

英語教育において,学習者が書いた英作文が,どの程度のレベルであるかを把握することは,教育者,学習者双方にとって有用である.本研究では,英作文のレベル判定問題を順序回帰問題として定式化する.レベル判定の手がかりとして,語彙情報といった基本的な素性に加え,英作文に含まれる誤りの傾向や,文の容認性などを導入し,それらの有効性を検証する.
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.11, pp.3021-3031, 2006-11-15
参考文献数
23
被引用文献数
5

複数語から成る評価表現のモデルおよびそれに基づいた分類手法を提案する.複数語から成る評価表現の感情極性は,その構成語の感情極性を単純に足し合わせるだけでは算出できないことが多い.極性の出現や反転が頻繁に起こる.そのような複数語表現の特性に対応するために,我々はモデルに隠れ変数を導入する.実験により,提案した隠れ変数モデルは複数語から成る評価表現分類において,約82%という高い分類正解率を得ることに成功した.We propose models for semantic orientations of phrases as well as classification methods based on the models. Although each phrase consists of multiple words, the semantic orientation of the phrase is not a mere sum of the orientations of the component words. Some words can invert the orientation. In order to capture the property of such phrases, we introduce latent variables into the models. Through experiments, we show that the proposed latent variable models work well in the classification of semantic orientations of phrases and achieved nearly 82% classification accuracy.
著者
野呂 太一 乾 孝司 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.10, pp.3405-3414, 2007-10-15
参考文献数
14
被引用文献数
2

本論文では,ブログテキスト中に記述されたイベントが,実世界において朝,昼,夕,夜のどの時間帯で生起したかを自動判定するアルゴリズムを提案する.生起時間帯を判定する直接的な情報として,「午後3 時に~した」等の明示的な時間表現が考えられるが,ブログテキストでは,明示的な時間表現が現れにくい.そこで,本研究では,明示的な時間表現の代わりに,イベントの生起時間帯を連想させる語(「出勤」,「花火」等)の情報を利用する.イベントの生起時間帯を連想させる語集合を人手のみで収集することは表現の多さから現実的にほぼ不可能な作業である.そのため,提案手法では,ブートストラップ的に,イベントの生起時間帯の学習と並行して同時に,イベントの生起時間帯を連想させる語を自動獲得する.We propose a machine learning-based method for identifying when each event in weblog texts occurs: morning, daytime, evening, or night. Earlier study analyzed only explicit temporal expressions for events and mapped them on time-line in newswire texts. However, other texts such as weblogs contain few explicit temporal expressions. We therefore use various implicit temporal expressions extracted automatically. Specifically, we adopt naive bayes classifiers backed up with the EM algorithm, and support vector machines.
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.22, pp.79-86, 2005-03-11
参考文献数
14
被引用文献数
1

単語の感情極性(望ましいか否か)を判定する方法を提案する。提案手法では、単語の感情極性をスピンの方向とみなし、語釈文によって構築された語彙ネットワークをスピン系でモデル化する。平均場近似を利用してスピン系の状態を近似的に求めることにより、単語の感情極性を判定する。また、系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する。英語と日本語で実験を行い、数語から十数語という少数の単語を種として、高い正解率で単語の感情極性判定が実現できることを示した。We propose a method for extracting semantic orientations of words:desirable or undersirable. Regarding semantic orientations as spins of electrons,we use the mean field approximation to compute the approximate probability function of the system instead of the intractable actual probability function. We also propose a criterion for parameter selection on the basis of magnetization. Given only a small number of seed words,the proposed method extracts semantic orientations with high accuracy in the experiments on English lexicon and Japanese lexicon. The result is comparable to the best value ever reported.
著者
高村 大也 乾 孝司 奥村 学
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.2, pp.627-637, 2006-02-15

単語の感情極性(望ましいか否か)を判定する方法を提案する.提案手法では,単語の感情極性を電子のスピンの方向と見なし,語釈文,シソーラス,コーパスによって構築された語彙ネットワークをスピン系でモデル化する.平均場近似を利用してスピン系の状態を近似的に求めることにより,単語の感情極性を判定する.また,系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する.提案手法を用いてWordNet に収録されている語彙に対して実験を行い,14 語という少数の単語を種とした場合は約80%の正解率で,3 000
著者
高村 大也 笹野 遼平
出版者
東京工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2014-04-01

要約技術の開発に必要となる大規模要約データを自動構築する技術、またそれを効果的に利用する技術を開発した。また、入力文書に対し、文分割、文圧縮、文融合などの演算を施した上で要約を生成する技術、およびウェブページの推薦システムにおいて、ユーザにカスタマイズしたスニペットを生成する技術を開発した。また、野球のイニング速報を自動的に生成する技術を開発した。さらに、ニューラルネットワークに基づく文要約手法において、出力長を制御する技術を開発した。また、日本語の文圧縮のための大量のデータを自動的に抽出する手法を開発し、実際にこの手法を用いて大規模データを構築し、文圧縮モデルの学習を行った。