著者
野呂 太一 乾 孝司 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.10, pp.3405-3414, 2007-10-15
参考文献数
14
被引用文献数
2

本論文では,ブログテキスト中に記述されたイベントが,実世界において朝,昼,夕,夜のどの時間帯で生起したかを自動判定するアルゴリズムを提案する.生起時間帯を判定する直接的な情報として,「午後3 時に~した」等の明示的な時間表現が考えられるが,ブログテキストでは,明示的な時間表現が現れにくい.そこで,本研究では,明示的な時間表現の代わりに,イベントの生起時間帯を連想させる語(「出勤」,「花火」等)の情報を利用する.イベントの生起時間帯を連想させる語集合を人手のみで収集することは表現の多さから現実的にほぼ不可能な作業である.そのため,提案手法では,ブートストラップ的に,イベントの生起時間帯の学習と並行して同時に,イベントの生起時間帯を連想させる語を自動獲得する.We propose a machine learning-based method for identifying when each event in weblog texts occurs: morning, daytime, evening, or night. Earlier study analyzed only explicit temporal expressions for events and mapped them on time-line in newswire texts. However, other texts such as weblogs contain few explicit temporal expressions. We therefore use various implicit temporal expressions extracted automatically. Specifically, we adopt naive bayes classifiers backed up with the EM algorithm, and support vector machines.
著者
染谷 大河 石垣 達也 大関 洋平 永田 亮 高村 大也
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第37回 (2023) (ISSN:27587347)
巻号頁・発行日
pp.2M5GS1005, 2023 (Released:2023-07-10)

サッカーは、制約が少なく複雑性が高いチームスポーツの一つであり、試合の成り行きを予測するのは非常に難しい。近年では、主に機械学習の手法を用いて、サッカーの試合においてどの選手がどこで何のアクションをしたかを示すイベントの系列の予測が試みられており、先行イベント系列を考慮したゴール期待値の計算や特定のアクションの有効性の評価への応用が見込まれている。一方で、次にどのようなイベントが発生するかは、単に先行するイベントの系列だけでなくどの選手がそのイベントを発生させるかに大きく依存すると考えられる。そこで、本研究では選手を分散表現すなわちベクトルで表現しニューラルイベント予測モデルの入力に加えることで、先行研究では考慮されていなかった選手の特性を考慮した予測を行うことを提案する。実験の結果、選手特性を考慮することでモデルの予測精度が向上することに加え、モデルを学習する過程で得られた「選手ベクトル」が選手のポジションに関する情報を含んでいることが示された。
著者
古山 翔太 高村 大也 岡崎 直観
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.2, pp.542-586, 2022 (Released:2022-06-15)
参考文献数
52
被引用文献数
1

ニューラル文法誤り訂正では,データ拡張によって学習データの不足を補う手法が活発に研究されている.本研究では,既存のデータ拡張手法が,より良いデータ拡張を行い性能向上を目指す上で重要な要素として,(1) 誤りの多様性が訂正性能に寄与すること,(2) 特定の種類の誤り生成がその種類の誤り訂正性能に寄与すること,(3) データ拡張に用いるコーパスの大きさが訂正性能に寄与することの 3 点が仮定されている.本研究では,これらの仮定の妥当性を検証するため,多様な文法カテゴリでの誤り生成規則を組み合わせる手法を提案し,生成する誤りの種類を変えて誤り訂正モデルを学習することで,比較検証を行う.結果として,仮定 (1) (2) は正しいが,一方で,仮定 (3) においては,コーパスの規模ではなく,パラメータの更新回数と誤りの生成回数が影響することが明らかになった.さらに,提案手法は,学習者コーパスを用いない教師なし設定でも高い性能のモデルを学習でき,学習者コーパスを用いた場合でも,既存の手法と同程度に高性能なモデルを学習できることが明らかになった.折り返し翻訳・逆翻訳によるデータ拡張手法との比較を通じて,また,ルールによる誤り生成とこれらの手法を用いたモデルでは,訂正において得意な誤り種類が異なることが判明した.
著者
田村 晃裕 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.6, pp.1954-1962, 2006-06-15
参考文献数
12

既存の質問応答システムは,複数文で構成される質問には答えられない.そこで,我々はそのような複数文質問にも対応できる質問応答システムの構築を目指す.その第1 段階として,複数文質問の質問タイプを同定する手法を提案する.具体的には,まず最初に,入力として与えられた複数文質問から質問タイプを決める際に最も重要な1 文を抽出する.そして,その抽出された1 文を用いて質問タイプを同定するという手法をとる.また,本論文では,質問タイプを同定する際に有効な情報となる名詞を特定するルールも提案する.複数文質問を含んだ実験データに対して,これらの情報と手法を用いて質問タイプを同定することで,F 値が8.8%,正解率が4.4%改善できた.Conventional QA systems cannot answer to the questions composed of two or more sentences. Therefore, we aim to construct a QA system that can answer such multiple-sentence questions. As the first stage, we propose a method for classifying multiple-sentence questions into question types. Specifically, we first extract the core sentence from a given question text. Then, we use the core sentence in question classification. We also propose a rule for extracting the effective noun in question classification. The result of experiments with the dataset including multiple-sentence questions shows that the proposed method improves F-measure by 8.8% and accuracy by 4.4%.
著者
青木 竜哉 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.381-406, 2019-06-15 (Released:2019-09-15)
参考文献数
35

ソーシャルメディアにおいては,辞書に掲載されているような用法とは全く異なる使われ方がされている単語が存在する.本論文では,ソーシャルメディアにおける単語の一般的ではない用法を検出する手法を提案する.提案手法では,ある単語が一般的ではない使われ方がされていた場合,その周辺単語は一般的な用法として使われた場合の周辺単語と異なるという仮説に基づいて,着目単語とその周辺単語の単語ベクトルを利用し,注目している単語の周辺単語が均衡コーパスにおける一般的な用法の場合の周辺単語とどの程度異なっているかを評価することにより,一般的ではない用法の検出を行う.ソーシャルメディアにおいて一般的ではない用法を持つ40単語を対象に行った実験の結果,均衡コーパスと周辺単語ベクトルを用いる提案手法の有効性を確認できた.また,一般的でない用法の検出においては,単語ベクトルの学習手法,学習された単語ベクトルの扱い方,学習コーパスを適切に選択することが重要であることがわかった.
著者
川村 陸 青木 竜哉 上垣外 英剛 高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2020, pp.3Rin409, 2020

<p>SNS上のテキストにはスペルミス,強調文字,インターネットスラングなどの非標準的な単語が多く使用される.非標準的な単語を多く含んでいると読者が文章の意味を理解できないだけでなく,SNSを対象とした自然言語処理を行う上の障壁となる.この問題を解決するために,非標準的な単語を含む文を訂正するテキスト標準化が必要とされている.このような需要に対処するため本研究では,深層学習を用いて文字列・音の類似性をモデル化することで,より高度なテキスト標準化を目指す.提案手法では,文字列の類似性を考慮することでpepoleとpeopleの様な表記ゆれに対応することができる.さらに,音の類似性を考慮することで,yesssとyes,disとthisの様な発音に起因した文字の置き換えに対応することが可能である.評価実験では,文字列・音の類似性を考慮した提案手法が最高精度を達成することを確認した.</p>
著者
村上 聡一朗 渡邉 亮彦 宮澤 彬 五島 圭一 柳瀬 利彦 高村 大也 宮尾 祐介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.2, pp.299-328, 2020-06-15 (Released:2020-09-15)
参考文献数
54

本稿では,日経平均株価の市況コメントを生成するタスクを例として,時系列数値データの多様な特徴を抽出してテキスト化する手法を提案する.日経平均株価の市況コメントでは価格の変動の特徴だけが表出されるわけではなく,価格の履歴を参照する表現,時系列データの変化を示す表現,テキストが書かれる時間帯に依存する表現が見られる.また,数値に言及する場合は,価格が直接言及されることもあれば,前日からの増減幅や それらを切り上げ・切り捨てした値などが用いられることもある.本研究では,エンコーダ・デコーダモデルをベースラインとし,上記のような多様な特徴を自動抽出してテキスト化するためのエンコード/デコード手法を探求する.まず,株価の短期的・長期的な変化を捉えるために,エンコーダへの入力として短期的および長期的な時系列株価データを与える.デコード時には,テキストが書かれる時間帯に依存する表現を生成するために,時間帯情報を導入する.また,デコーダが数値に言及する際,数値の演算操作を推定して計算することで株価の数値表現を生成する.実験では,自動評価および情報性・流暢性に関する人手評価を行い, 提案手法によって上記の特徴を捉えた質の高い株価の市況コメントの生成が可能になることを示した.
著者
高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.174-182, 2010 (Released:2010-01-06)
参考文献数
31
被引用文献数
1 4

e propose a novel multi-document generic summarization model based on the budgeted median problem, which is a facility location problem. The summarization method based on our model is an extractive method, which selects sentences from the given document cluster and generates a summary. Each sentence in the document cluster will be assigned to one of the selected sentences, where the former sentece is supposed to be represented by the latter. Our method selects sentences to generate a summary that yields a good sentence assignment and hence covers the whole content of the document cluster. An advantage of this method is that it can incorporate asymmetric relations between sentences such as textual entailment. Through experiments, we showed that the proposed method yields good summaries on the dataset of DUC'04.
著者
高村 大也 笹野 遼平
出版者
東京工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2014-04-01

要約技術の開発に必要となる大規模要約データを自動構築する技術、またそれを効果的に利用する技術を開発した。また、入力文書に対し、文分割、文圧縮、文融合などの演算を施した上で要約を生成する技術、およびウェブページの推薦システムにおいて、ユーザにカスタマイズしたスニペットを生成する技術を開発した。また、野球のイニング速報を自動的に生成する技術を開発した。さらに、ニューラルネットワークに基づく文要約手法において、出力長を制御する技術を開発した。また、日本語の文圧縮のための大量のデータを自動的に抽出する手法を開発し、実際にこの手法を用いて大規模データを構築し、文圧縮モデルの学習を行った。
著者
高村 大也 松本 裕治
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.SIG03(TOD17), pp.1-10, 2003-03-15

Latent Semantic Indexing(LSI)などの次元圧縮手法による構成的帰納学習法を,サポートベクターマシン(Support Vector Machine,SVM)と組み合わせて文書分類に応用した場合の振舞いを論じる.SVM の分類能力は,通常用いられる次元圧縮では向上させることが困難である.しかし,次元圧縮手法により変換された文書ベクトルを素性として元のベクトルに追加することにより,その向上が可能であることを示す.実験では,次元圧縮に用いる未知データの量が十分大きい場合に精度改善が見られた.
著者
菅野沙也 伊藤貴之 高村大也
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.4, pp.1-6, 2014-11-13

我々は文書に印象の合った音楽を生成・提供することで,文書の内容に直接言及することなくその印象を理解・伝達することが容易になり,文書を鑑賞・共有する楽しみを拡げられるのではと考えている.そこで本報告では,文書の印象や感情に基づいた楽曲生成の一手法を提案する.本手法では前処理として,日本語を構成する各単語に対する感性極性値を記録した辞書を作成する.またコード進行とリズム進行をユーザーに聞かせてその印象を数値入力させることで,コード進行やリズム進行とその印象との関係を学習させる.続いてユーザーが文書を入力すると,まず文書の形態素解析結果に対して感性極性辞書を参照することで文書の印象値を求める.続いて文書の印象値に近い印象をユーザーが有するコード進行とリズム進行を,文書の場面の前後関係も考慮しながら選出する.このようにして選出されたコード進行とリズム進行を合成することで楽曲を生成し,ユーザーごとに提供する.
著者
田村 晃裕 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.17-24, 2006-11-22
被引用文献数
1

係り受け解析を符号化・復号化問題として解く手法を提案する.従来は,2文節間の係りやすさ,つまり係り受け木でいう親子関係になるかを基に係り受けを解析している.この従来の考えに従うと,親子関係の情報を表した符号を用いた符号化・復号化問題を解くことになる.係り受け解析を符号化・復号化問題と捉えると,符号化・復号化問題における,誤りがある程度生じても訂正できるように,符号に冗長な情報を加え,使用する符号間の距離を大きくする手法を係り受け解析に援用できる.そこで,本研究では,親子関係の情報の他に,祖先子孫関係になるかという情報を冗長な情報として符号に加えることで精度の向上をはかった.実際に本手法で係り受け解析をし,高い精度が得られたことを報告する.We propose a novel method for Japanese dependency analysis. In deterministic approaches to this task, dependency trees are constructed by actions of attaching a bunsetsu chunk to one of the nodes in the trees. Therefore the task is reduced to deciding the node for the new bunsetsu chunk to be attached.We propose to encode each decision with a sequence of binary values, that is, a code. This representation of decisions enables the model to incorporate ancestor-descendant relations between nodes in addition to parent-child relations. We also propose to concatenate the code of parent-child relation and the code of ancestor-descendant relation, so that the added redundancy in codes helps errors be corrected. Experimental results show that the proposed method achieves higher accuracy in the task of Japanese dependency analysis.
著者
木原 裕二 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014-SLP-101, no.19, pp.1-6, 2014-05-15

ソーシャルメディアのユーザの中には複数のソーシャルメディアのアカウントを関連付けずに使用しているユーザがいる.しかし,特徴的な表現や話題などから,それらの複数のアカウントが同じユーザにより作成されたものであると第三者に推測されてしまう場合がある.本研究では,まず,Twitter とブログの著者の同一性推定システムを構築することにより,どのような特徴がこれらのアカウントが同じユーザにより作成されたものと判断される要因となるのかを明らかにし,そこから得られた知見をもとにした関連付け防止システムの構築を行う.
著者
森田 一 高村 大也 奥村 学
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.111, no.119, pp.89-93, 2011-06-30

本研究はblog等のWeb上のテキストから.製品等についての評価表現を対象語,属性語,評価語の三つ組として抽出することを目的としている。この三つ組抽出を,文に対する系列タギング問題の一種として解くことで,一語に限らない多様な表現の抽出を行う。評価表現では対象語とその属性語が評価語と強く関連しているため.対象・属性語と評価語の結びつきの強さを含めて学習を行う枠組みを提案する。このため,本研究では構造学習の枠組みを用いて文に対するラベル系列を学習する.文とラベルに対して素性ベクトルを定義し,文とラベルをモデルで評価したスコアを最大化するように,Viterbiアルゴリズムを元にしたアルゴリズムでラベルを探索する.学習にはオンライン学習アルゴリズムのPassive Aggressive Algorithmを用い,正しいラベル系列が探索空間中でスコアが高くなるよう,モデルを更新することで行う.Web文書に対して評価表現の三つ組がタグ付けされたコーパスを用いて,提案手法の実験を行った結果を元に,手法の問題点とその解決策についての考察を行う.
著者
高橋 和子 高村 大也 奥村 学
出版者
数理社会学会
雑誌
理論と方法 (ISSN:09131442)
巻号頁・発行日
vol.19, no.2, pp.177-195, 2004-09-30 (Released:2008-12-22)
参考文献数
31
被引用文献数
1

社会調査において基本的な属性である職業は、通常、調査票に選択肢として職業コードを提示せず、自由回答法を含む複数の質問により収集したものを分析者が総合的に判断しコードを付ける。これは職業コーディングとよばれ、データを統計処理するためには必須の作業である。しかし、判断の中心となるデータが自由回答であることや職業のカテゴリ数が多い(約200)ことなどから、自由回答の分類と同様に多大な労力と時間を要するという問題が存在する。また、コーディングの結果に一貫性が欠けやすいという問題がある点も同様である。これらの問題を解決するために、自然言語処理技術の適用により職業の定義を格フレームの形式によるルールとして記述し、自動的に職業コードを決定するシステムが開発された。ルールに基づくこのシステムは、ルールにマッチしない回答をうまく処理することができないという欠点をもつが、職業コーディングで用いられる知識のすべてをルールにするのは困難である。また、ルールセットやシソーラスの継続的なメンテナンスも手間がかかる。そこで、ルールを必要としない機械学習に注目し、特に文書分類の分野で最も分類性能が高いとされるサポートベクターマシン(SVM)を職業コーディングに適用した。JGSS(日本版General Social Surveys)データを用いた実験の結果、SVMによる方法はルールベース手法より正解率が高かった。本稿の目的は、職業コーディングの自動化に対して、ルールベース手法を適用する方法およびSVMを適用する方法を提案し、その有効性を示すことである。これら2つの方法は、職業データと類似する性質をもつ自由回答の分類にも拡張が可能である。
著者
久保田 敦 横野 光 高村 大也 奥村 学
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

本研究ではジャンル毎の特徴を用いた日本語テキストの文書校正手法を提案する。 提案手法では,既存手法で使用される文脈情報の特徴以外に,内容語に情報を付加 することで難易度や文体を考慮した校正を行う。 その結果,文脈情報のみでは解決できない訓練データに未出現の語に対する問題等に対して,付加した情報を用いて解決できることを示す。