著者
竹中 姫子 古宮 嘉那子 小谷 善行
出版者
情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.1, pp.1-6, 2011-03-21

Twitter ではハッシュタグという,自分の投稿 (ツイート) に則した内容のインデックスをつける機能が提供されている.本研究ではハッシュタグのついていないツイートにたいしてハッシュタグを推定することを目的とする.そこでハッシュタグのついたツイートを学習し,そしてあるツイートがどのハッシュタグに属するかの推定を行った.分類器としてベイジアンフィルターを使用し,それぞれのタグについて 2 値分類を行い,複数のハッシュタグの推定を行った.実験では 50 種類のハッシュタグのつきの約 4 万件のツイートを学習データとして使用した.ツイート文にベイジアンフィルターを適用する場合は既知語に限定して処理を行うことで良い結果が得られるとわかった.In this paper, we propose a method of discovering hashtags, which are indexes in Twitter. We estimate hashtags of tweets without hashtags using tweets with hashtags. Binary classifier was developed for every tweet so as to they have more than one tags, and Bayesian filtering was used to classify. In the experiment, about 40,000 tweets with 50 kinds of hashtags are classified. The result shows Baysian filtering with limiting known words is effective in estimating hashtags of tweets.
著者
竹中 姫子 古宮 嘉那子 小谷 善行
出版者
情報処理学会
雑誌
研究報告デジタルドキュメント(DD) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.1, pp.1-6, 2011-03-21

Twitter ではハッシュタグという,自分の投稿 (ツイート) に則した内容のインデックスをつける機能が提供されている.本研究ではハッシュタグのついていないツイートにたいしてハッシュタグを推定することを目的とする.そこでハッシュタグのついたツイートを学習し,そしてあるツイートがどのハッシュタグに属するかの推定を行った.分類器としてベイジアンフィルターを使用し,それぞれのタグについて 2 値分類を行い,複数のハッシュタグの推定を行った.実験では 50 種類のハッシュタグのつきの約 4 万件のツイートを学習データとして使用した.ツイート文にベイジアンフィルターを適用する場合は既知語に限定して処理を行うことで良い結果が得られるとわかった.In this paper, we propose a method of discovering hashtags, which are indexes in Twitter. We estimate hashtags of tweets without hashtags using tweets with hashtags. Binary classifier was developed for every tweet so as to they have more than one tags, and Bayesian filtering was used to classify. In the experiment, about 40,000 tweets with 50 kinds of hashtags are classified. The result shows Baysian filtering with limiting known words is effective in estimating hashtags of tweets.
著者
古宮 嘉那子 伊藤 裕佑 佐藤 直人 小谷 善行
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.161-182, 2013-06-14 (Released:2013-09-14)
参考文献数
17

本論文は,文書分類のための新手法として,Negation Naive Bayes (NNB) を提案する.NNB は,クラスの補集合を用いるという点では Complement Naive Bayes (CNB) と等しいが,Naive Bayes (NB) と同じ事後確率最大化の式から導出されるため, 事前確率を数学的に正しく考慮している点で異なっている.NNB の有効性を示すため,オークションの商品分類の実験とニュースグループの文書分類の実験を行った.ニュースグループの文書分類では,一文書あたりの単語数(トークン数)を減らした実験と,クラスごとの文書数を不均一にした実験を行い,NNB の性質を考察した.NB,CNB,サポートベクターマシン (SVM) と比較したところ,特に一文書当たりの単語数が減り,クラスごとの文書数が偏る場合において,NNB が他の Bayesian アプローチより勝る手法であること,また,時には SVM を有意に上回り,比較手法中で最も良い分類正解率を示す手法であることが分かった.
著者
新納 浩幸 浅原 正幸 古宮 嘉那子 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.705-720, 2017-12-15 (Released:2018-03-15)
参考文献数
13
被引用文献数
8

我々は国語研日本語ウェブコーパスと word2vec を用いて単語の分散表現を構築し,その分散表現のデータを nwjc2vec と名付けて公開している.本稿では nwjc2vec を紹介し,nwjc2vec の品質を評価するために行った2種類の評価実験の結果を報告する.第一の評価実験では,単語間類似度の評価として,単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する.第二の評価実験では,タスクに基づく評価として,nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言語モデルの構築を行う.どちらの評価実験においても,新聞記事7年分の記事データから構築した分散表現を用いた場合の結果と比較することで,nwjc2vec が高品質であることを示す.
著者
古宮嘉那子 但馬 康宏 小谷 善行
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.7, pp.2679-2691, 2008-07-15

敬語は,たくさんの要因によって使い分けられており,これまで,これらの使い分けを補助するシステムが開発されている.しかし,従来のシステムでは,言語知識をあらかじめ与える必要があり,また,入力情報に序列関係を含むなど,人間関係のとらえ方の知識を必要とするものであった.そのため,筆者らは敬語選択システム(HEDS)を作成し,決定木学習を用いた敬語に関する知識獲得の手法を提案する.HEDSは,人間関係についての複雑な判断を必要としない情報を入力とし,最も適切なタイプの敬語を選択するルールを決定木学習によって用例から自動的に作成するものである.そのため,本システムでは,使い分けに関する言語学の知識を必要とせず,実データから,自動的に敬語に関する言語知識獲得を行うことができる.敬語には,(1)尊敬語/謙譲語,(2)丁寧語の2つのタイプがある.HEDSはそれぞれのデータを用意することによって,両方に適用可能である.(1)尊敬語/謙譲語を決定するHEDSは,1つの動詞につき,敬語が尊敬語,謙譲語,敬語でない普通語の3つのうちから1つに選択し,(2)丁寧語については,動詞に丁寧語を付加するかどうかを決定する.A speaker must choose suitable honorific expressions in a sentence depending on many features. Some computer systems have developed that help people determine the suitable expressions. However, existing systems need to be previously provided knowledge of language and need knowledge about human relationships to use them. Hence we made a system honorific expression determining system (HEDS) and proposed a method of knowledge acquisition using decision tree learning. It generates automatically a set of rules to determine the most suitable type of honorific expression from examples, by decision tree learning. HEDS needs knowledge about neither human relationship nor linguistics about Japanese honorific expressions and it can acquire knowledge about Japanese honorific expressions from pragmatic data automatically. Japanese honorific expressions have two independent systems: (1) respect/modesty expressions and (2) polite expressions. HEDS can be applied to both of them if we gave it learning data for each. The HEDS for respect/modesty expressions determines what type of honorific expression a verb should be out of three types: a respect expression, a modesty expression and a non-honorific expression, and the HEDS for polite expressions determines whether or not a sentence includes a verb needs a polite expression for a set of features for the verb.
著者
我妻 敦 原田 将旗 森田 一 古宮 嘉那子 小谷 善行
雑誌
研究報告ゲーム情報学(GI)
巻号頁・発行日
vol.2014-GI-31, no.12, pp.1-3, 2014-03-10

麻雀において,捨てると相手に上がられてしまう牌を正しく推定し,捨てないことにより損しないことは重要である.本論文では現在局面での牌の情報の特徴により SVR を用いて,捨てないことを決めるための牌の危険度を求めるという手法を提案する.評価方法として,人間が選択した牌とシステムが推定した牌の一致率を調査した.結果は危険度が最大の牌についての一致率は平均で 13.4%,危険度が最小の牌についての一致率は平均で 43.3%となった.
著者
新納 浩幸 村田 真樹 白井 清昭 福本 文代 藤田 早苗 佐々木 稔 古宮 嘉那子 乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.319-362, 2015

語義曖昧性解消の誤り分析を行う場合,まずどのような原因からその誤りが生じているかを調べ,誤りの原因を分類しておくことが一般的である.この分類のために,分析対象データに対して分析者 7 人が独自に設定した誤り原因のタイプを付与したが,各自の分析結果はかなり異なり,それらを議論によって統合することは負荷の高い作業であった.そこでクラスタリングを利用してある程度機械的にそれらを統合することを試み,最終的に 9 種類の誤り原因として統合した.この 9 種類の中の主要な 3 つの誤り原因により,語義曖昧性解消の誤りの 9 割が生じていることが判明した.またタイプ分類間の類似度を定義することで,統合した誤り原因のタイプ分類が,各自の分析結果を代表していることを示した.また統合した誤り原因のタイプ分類と各自の誤り原因のタイプ分類を比較し,ここで得られた誤り原因のタイプ分類が標準的であることも示した.
著者
野口 拓央 古宮 嘉那子 並木 美太郎 小谷 善行
出版者
一般社団法人情報処理学会
雑誌
研究報告ゲーム情報学(GI) (ISSN:09196072)
巻号頁・発行日
vol.2014, no.9, pp.1-8, 2014-03-10

本稿では機械学習手法の 1 種である Support Vector Regression (SVR) を用いたコンピュータ将棋の Move Ordering (MO) を提案する.MO はコンピュータ将棋の探索を効率化のため可能手をなるべく良い手から順番に先頭から並べかえる手法である.MO では可能手を 1 手ごとに探索して評価関数を適用すると処理に時間が必要であるため効率化の余地が大きい.そこで本稿では可能手から特徴を抽出して SVR で手の優先度を求めて評価関数を用いずに実行できる MO を考案し、MO を高速化して探索を効率化する手法を提案した.本手法の MO をした後にプロが指した手の MO による平均順位を測定したところ既存手法に 2 手ほど及ばなかったが既存手法と近い結果を出した.また速度が速かったため SVR に評価関数を用いた探索の代替手段となりうる可能性が示唆された.しかし,本手法の性能を確認するために 200 回対局を行ったところ,86-111-3 という結果を得て有意に負け越してしまった.This paper proposes Move Ordering (MO) of the computer Shogi using Support Vector Regression (SVR), which is one sort of the watching learning technique. MO is the technique of arranging moves in the order of value of them to increase efficiency of search of computer Shogi. There is room for further improvement in efficiency of MO because it is time - consuming; the move search is performed and the evaluation function is applied one by one. So this paper proposes MO using SVR to speed up MO and enhances efficiency on search. It extracts features of possible moves and gets the priority of moves using SVR. The average rounds of the professional player's moves were checked to evaluate the method. It showed the MO using SVR can alternate move search and evaluation function in the future because the average \difference of ranks was only two and it is faster. However, the move search and evaluation function an outperformed MO using SVR significantly when 200 games were performed. The result was 86-111-3.
著者
竹中 姫子 古宮 嘉那子 小谷 善行
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2011-IFAT-102, no.1, pp.1-6, 2011-03-21

Twitter ではハッシュタグという,自分の投稿 (ツイート) に則した内容のインデックスをつける機能が提供されている.本研究ではハッシュタグのついていないツイートにたいしてハッシュタグを推定することを目的とする.そこでハッシュタグのついたツイートを学習し,そしてあるツイートがどのハッシュタグに属するかの推定を行った.分類器としてベイジアンフィルターを使用し,それぞれのタグについて 2 値分類を行い,複数のハッシュタグの推定を行った.実験では 50 種類のハッシュタグのつきの約 4 万件のツイートを学習データとして使用した.ツイート文にベイジアンフィルターを適用する場合は既知語に限定して処理を行うことで良い結果が得られるとわかった.
著者
原田 将旗 古宮 嘉那子 小谷 善行
出版者
一般社団法人情報処理学会
雑誌
研究報告ゲーム情報学(GI) (ISSN:09196072)
巻号頁・発行日
vol.2014, no.13, pp.1-4, 2014-03-10

麻雀において,引いてくる牌を仮定した後にランダムに牌を引いて捨てるシミュレーションでは,シミュレーション結果が自己の上がりに至りにくい.本論文では,手牌と今後引く可能性のある牌とをあわせた牌の集合から上がりを全探索する手法 Complete Hand Extraction(CHE) を提案する.CHE では探索で見つけた上がりに対し,手牌にあった各牌について,上がりパターンに必要のないものに評価を累積する.その評価が最大となった牌を着手する.CHE プレイヤとモンテカルロプレイヤ 2 プレイヤずつで対局を行わせた結果,CHE プレイヤが和了率 20.8%,24.4%,和了素点 6767,6483 となり,モンテカルロプレイヤの和了率 16.4%,21.0%,和了素点 6465,6194 を上回った性能を示した.On Mahjong, it is difficult to obtain complete hands from simulation results using simulation that draws and discards tiles randomly after assuming the tiles to be drawn. This paper proposes method Complete Hand Extraction (CHE), which fully searches complete hands from a hand and unseen tiles. After full search, CHE accumulates evaluation scores on tiles in a hand that is needless to generate the complete hand and selects the tile whose evaluation score is the maximum as a move. We performed experiment of playing Mahjong using two CHE players and two Monte Carlo players. The result show that CHE player whose winning rates are 20.8% and 24.4%, and average points are 6767 and 6483, is superior to Monte Carlo player, whose winning rates are 16.4% and 21.0%, and average points 6465 and 6194.
著者
我妻 敦 原田 将旗 森田 一 古宮 嘉那子 小谷 善行
出版者
一般社団法人情報処理学会
雑誌
研究報告ゲーム情報学(GI) (ISSN:09196072)
巻号頁・発行日
vol.2014, no.12, pp.1-3, 2014-03-10

麻雀において,捨てると相手に上がられてしまう牌を正しく推定し,捨てないことにより損しないことは重要である.本論文では現在局面での牌の情報の特徴により SVR を用いて,捨てないことを決めるための牌の危険度を求めるという手法を提案する.評価方法として,人間が選択した牌とシステムが推定した牌の一致率を調査した.結果は危険度が最大の牌についての一致率は平均で 13.4%,危険度が最小の牌についての一致率は平均で 43.3%となった.It is important in Mahjong, to estimate correctly tiles which may be the part of complete opponent's hand and to reduce the loss without discarding it. In this paper, we propose a method to find the value of risk in tile discarding by using SVR based on the features of the information of tile in the current position. As the evaluation method, we investigated the rate of same selection of tiles selected by humans and by the system. As the result of the experiment, the rate of same selection of tiles of largest risk was 13.4% on average, and the rate of same selection of tiles of smallest risk was 43.4% on average.