著者
廣中 詩織 吉田 光男 岡部 正幸 梅村 恭司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.32, no.1, pp.WII-M_1-11, 2017-01-06 (Released:2017-01-20)
参考文献数
24

The home locations of Twitter users can be estimated using a social network, which is generated by various relationships between users. There are many network-based location estimation methods with user relationships. However, the estimation accuracy of various methods and relationships is unclear. In this study, we estimate the users’home locations using four network-based location estimation methods on four types of social networks in Japan. We have obtained two results. (1) In the location estimation methods, the method that selects the most frequent location among the friends of the user shows the highest precision and recall. (2) In the four types of social networks, the relationship of follower has the highest precision and recall.
著者
森國 泰平 吉田 光男 岡部 正幸 梅村 恭司 Morikuni Taihei Yoshida Mitsuo Okabe Masayuki Umemura Kyouji
出版者
情報処理学会
雑誌
情報処理学会論文誌(トランザクション)データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.8, no.4, pp.16-26, 2015-12-28

ツイートに含まれる特徴と位置情報を対応させることで,実世界を観測するセンサとしてTwitterを活用することができる.しかし位置情報が付加されたツイートは少なく,Twitterをセンサとして活用するときの問題の1つとなる.そこで本研究では,ツイートの投稿位置を推定し,より多くのツイートに正確な位置情報を付与することを目的とする.この目的を達成するために,ツイート中のノイズとなる単語を除去するためのフィルタリング手法を提案する.また,単語の地理的分布を平滑化するためのスムージング手法も提案する.これらの提案手法が従来手法よりも有効に機能することを示し,その考察を行う.Twitter can be considered as a real-time sensor that responds to real-world events by combining the content and location information of tweets. However, a problem persists: tweets containing location information are too small. To overcome this problem, we estimate the location where a tweet was posted. Our main method involves using word filters called AF filter and TF-IAF filter that detect stop words. In addition, we propose a smoothing method called Distance smoothing for overcoming sparsity of words. We show that both our methods improve location estimation accuracy and discuss the features of the results.
著者
森國 泰平 吉田 光男 岡部 正幸 梅村 恭司
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.8, no.4, pp.16-26, 2015-12-28

ツイートに含まれる特徴と位置情報を対応させることで,実世界を観測するセンサとしてTwitterを活用することができる.しかし位置情報が付加されたツイートは少なく,Twitterをセンサとして活用するときの問題の1つとなる.そこで本研究では,ツイートの投稿位置を推定し,より多くのツイートに正確な位置情報を付与することを目的とする.この目的を達成するために,ツイート中のノイズとなる単語を除去するためのフィルタリング手法を提案する.また,単語の地理的分布を平滑化するためのスムージング手法も提案する.これらの提案手法が従来手法よりも有効に機能することを示し,その考察を行う.
著者
廣中 詩織 吉田 光男 梅村 恭司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.1, pp.E-J71_1-10, 2020-01-01 (Released:2020-01-01)
参考文献数
26

Users’ attributes, such as home location, are necessary for various applications, such as news recommendations and event detections. However, most real user attributes (e.g., home location) are not open to the public. Therefore, their attributes are estimated by relationships between users. A social graph constructed from relationships between users can help estimate home locations, but it is difficult to collect many relationships, such as followers’ relationships. We focus on users whose home locations are difficult to estimate, so that we can select users whose locations can be accurately estimated before collecting relationships. In this paper, we use their profiles which can be collected before collecting relationships. Then, we analyze difficult users with their profiles. As a result, we found that users whose home locations incorrectly estimated had a longer duration since the date their account was created, longer name, and longer description. In addition, the results indicated that the users whose home locations were incorrectly estimated differed from those whose home locations could not be estimated.
著者
奥本 隼 山根 恵和 吉田 光男 岡部 正幸 梅村 恭司
出版者
日本教育工学会
雑誌
日本教育工学会論文誌 (ISSN:13498290)
巻号頁・発行日
vol.41, no.2, pp.177-186, 2017-09-10 (Released:2017-09-29)
参考文献数
9

板書(黒板や白板)を用いた講義では,講師が記述や説明をするために板書の前を遮ることがある.このとき,遮られた板書内容が見えず,ノートに書き写しにくいと感じる経験は多くある.我々の提案するシステムでは,カメラで撮影した板書映像を処理し,板書の前を遮る講師をシルエットにして透過することで,遮られた板書内容と講師の動きの両者が読み取れる映像を提供できる.我々の方法の特徴は,この映像処理をリアルタイムに実現することと,映像を講義室内のサブモニタで表示することによって板書遮蔽問題を解決することである.遮られた板書内容を提示する方法として,本手法のシルエットを透過表示する方法や講師を完全に消去する方法が考えられる.我々は提示方法として,どの方法が好まれるか比較実験をおこない,シルエットを透過して表示する方法が好まれるという結果を有意に確認した.
著者
内山 慎太郎 吉田 光男 梅村 恭司
出版者
一般社団法人 日本教育工学会
雑誌
日本教育工学会論文誌 (ISSN:13498290)
巻号頁・発行日
pp.45092, (Released:2022-02-01)
参考文献数
26

教師から学習者に対して動画にアノテーションをつける機能「ステアリング・マーク」を,反転授業の事前学習動画視聴システムに実装し,その有用性を評価した.ステアリング・マークは,教師による丹念な設計という観点から着想を得て,学習者の個性に合わせた指導・支援を目的とし,学習者の立場に応じて動画の提示方法を変更する手段を提供する.印象評価実験によって,ステアリング・マークは学習者にとって受け入れられるものであることが示された.また,ステアリング・マークが提供する学習の個性化を支援する方策が学習者らにとって望ましいものであるとわかった.さらに,視聴行動ログの分析による有用性の検証から,ステアリング・マークが学習者の動画視聴行動に対して,自身の理解が足りていない場所の反復視聴を補助していることが示された.
著者
菊地 真人 川上 賢十 吉田 光男 梅村 恭司
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J102-D, no.4, pp.289-301, 2019-04-01

データを確率的に取り扱う問題において,統計的尺度の推定は手法の構成やデータ分析の基盤的役割を担う.本論文では統計的尺度の一つであるゆう度比を,離散的な標本空間から得た観測頻度をもとに推定する問題を扱う.素朴な推定方法は,ゆう度比の定義に従い,ゆう度比を構成する二つの確率分布を最ゆう推定して,その比を取ることである.しかし,低頻度からゆう度比を求めるとき,この方法は推定量を不当に高く見積もってしまう場合がある.そこで,ゆう度比の直接推定法uLSIFを応用し,ゆう度比を低めに(保守的に)推定する方法を提案する.提案手法は,最ゆう推定によって求めたゆう度比を正則化パラメータによって調整する枠組みである.実験では提案手法の振る舞いを明らかにし,その有効性を示した.更に,自然言語処理におけるブートストラップ法を利用した実験も行い,提案手法の実用性も示した.
著者
菊地 真人 山本 英子 吉田 光男 岡部 正幸 梅村 恭司
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌 D = The IEICE Transactions on Electronics (Japanese Edition) (ISSN:18810225)
巻号頁・発行日
vol.J100-D, no.4, pp.544-555, 2017-04-01

本論文では,観測頻度から条件付き確率を推定するという問題に取り組む.条件付き確率の推定は,データマイニングや実際の応用における基本的な操作であり,その推定方法によって手法の正確さが左右されることがある.一般に,確率推定では最ゆう推定値が用いられるが,低頻度に弱いという問題がある.この問題に対処するため,ベイズの枠組みがよく用いられる.ベイズの枠組みでは,データについての事前分布を推定し,事後分布の期待値を用いる.しかし,データをもとに事前分布を推定することは容易ではない.そこで,本論文では,事前分布として何らかの分布を仮定して事後分布の信頼区間を求め,その下限値を用いる手法を提案する.期待値は偏りのない推定値となる一方で,信頼区間の下限値は条件付き確率を保守的に見積もった推定値となる.実験によって,提案手法が低頻度に頑強であることを示す.更に,提案手法は事前分布として一様分布を用いた場合,ベイズの枠組みを用いた手法とほぼ同じ性能を獲得しうることを示す.
著者
廣中 詩織 吉田 光男 岡部 正幸 梅村 恭司
出版者
人工知能学会
雑誌
人工知能学会論文誌 = Transactions of the Japanese Society for Artificial Intelligence (ISSN:13460714)
巻号頁・発行日
vol.32, no.1, pp.WII-M_1-11, 2017

The home locations of Twitter users can be estimated using a social network, which is generated by various relationships between users. There are many network-based location estimation methods with user relationships. However, the estimation accuracy of various methods and relationships is unclear. In this study, we estimate the users’home locations using four network-based location estimation methods on four types of social networks in Japan. We have obtained two results. (1) In the location estimation methods, the method that selects the most frequent location among the friends of the user shows the highest precision and recall. (2) In the four types of social networks, the relationship of follower has the highest precision and recall.
著者
武田 善行 梅村 恭司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.112, pp.27-32, 2001-11-20
参考文献数
7
被引用文献数
2

反復度とは文書においてある部分文字列が1回以上出現するという条件でその部分文字列が2回以上出現する度合いである.本論文では英語において観測されているキーワードの反復出現が日本語においても観測できることを確かめた.英語同様に,キーワードの反復度はその頻度に対して無相関であった.一方,ランダムに切り出された文字列の反復度はばらついていた.この分析を日本語論文抄録と数年の日本語新聞記事で行い,反復度がキーワード境界の特定が可能な情報を持つことを示した.Adaptation is the degree in which a substring appears twice or more, when it appears once or more in a document. Adaptation of the keyword has been observed in English. Similarly, it is observed in Japanese and Chinese. We have observed that adaptation of a keyword tends to have no correlation with just like English. On the other hand, the estimated value varies in strings that are selected at random. We analyzed adaptation using newspaper article of several years and technical abstracts. We have tried to extract keywords using the difference of this distribution. We show that adaptation contains the information with which keyword boundaries are obtained.
著者
近藤 佑樹 萩行 正嗣 吉田 光男 梅村 恭司
出版者
Webインテリジェンスとインタラクション研究会
雑誌
Webインテリジェンスとインタラクション研究会 予稿集 第10回研究会 (ISSN:27582922)
巻号頁・発行日
pp.31-36, 2017 (Released:2022-11-07)
参考文献数
8

ソーシャルメディアの投稿を活用する際に,ユーザの居住地と投稿内容とを関連付けることにより,より有用な情報を得ることができる.しかし自身の居住地を登録しているユーザは少なく,ユーザの居住地を推定する研究が広く行われている.本研究では,アメダスによる日本全国の観測データを利用してTwitterユーザの居住地を推定する手法を提案する.本手法ではまず,ツイートの投稿テキストから,投稿ユーザがどのような天気の中で投稿したかを推定する.次に推定した天気および投稿日時を各地のアメダスによる観測データと照合する.最後にどの地域から集中的に投稿しているかを推定し,その地域をユーザの居住地とみなす.単語の地理的局所性を利用する従来の手法と比較し,良好な結果が得られた.
著者
高本 綺架 小原 佑斗 吉田 光男 梅村 恭司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.38, no.1, pp.A-M71_1-15, 2023-01-01 (Released:2023-01-01)
参考文献数
20
被引用文献数
2

Compression-based Dissimilarity Measure (CDM) is reported to work well in classifying strings without clues. However, CDM depends on the compression program, and its theoretical background is unclear. In this paper, we propose to replace CDM with the computation of information quantity. Since CDM only uses compressed size, our approach uses the value of information quantity of maximum probability partitioning of string instead of file size. We find this approach is more effective. Then, CDM and the proposed method were applied to publicly available time series data. In addition to the careful implementation of computation using suffix arrays, we also find this approach more efficient.
著者
高橋 克巳 梅村 恭司
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.8, pp.1906-1915, 1995-08-15

日本人名のかな表記にゆれとよばれる変形が存在し、日本語情報検索システムの問題となっている。本論文では人名のかな表記にゆれが存在してももれのない検索を可能とする近似文字列照合法を提案する。ゆれの問題に対処するためには表記を統一して検索を行うことが一般的であるが、現在かな表記を統一する墓準は明らかではなく、そのため統一すべきゆれが多種になった場合の対策も明らかになっていない。本文では日本人名約3 000万件を解析し、姓のゆれのデータを収集分析する。その結果、娃は9万種の姓のゆれ単位に分類できること、実データ上で58%の姓に何らかのゆれが存在すること、ゆれの原因は連濁などの接続部の変化が大部分を占めることを明らかにする。さらにこのゆれの関係に墓づいた正規化による照合を提案する。すなわち、実際にすべてのゆれを21 276組の文字列の等式関係で記述し、そこから自動的に15 841の正規化規則を作成して照合する方法を提案する。この正規化規則を使った照合法を人名の分布にしたがった検索に適用し、再現率と適合率の観点から評価を行った。その結果、93%の適合率を達成したうえで、完全一致検索では1検索あたり15%存在していたゆれによる検索もれを解消した。人名についてかな表記のゆれが荏在してももれのない検索が可能となった。
著者
藤原 大輔 高瀬 暁央 梅村 恭司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.145-149, 2007-07-25
参考文献数
6

文書の雛形をテンプレートと呼ぶが、あるテンプレート内で使用される単語をテンプレートの形を知ることなく抽出するという問題を扱う。単語の分布として良く知られているものに、Katz K mixture モデルがある。この Katz K mixture モデルは、単語が文書中で繰り返し出現する条件付確率は減衰係数によって決められると仮定している。本研究では、この Katz K mixture モデルに従わない固有名詞が持つ特徴とテンプレートの関係について分析し、その結果、モデルに合致しないものがテンプレート内で使用される単語の候補となり得ることが分かった。A template is a fixed format of certain documents. We deal here with the problem of extraction words used in templates without knowing form of the templates. The Katz K mixture model is well known as a distribution model of keywords. In this model, basic assumption is that the conditional probabilities of repeats for a given word are determined by a decay factor. In this study, we analyze relations of a template and proper nouns which do not obey the Katz K mixture model. As a result, we have found that the Katz model is useful to detect nouns that consitute templates.
著者
高瀬 暁央 梅村 恭司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.75-80, 2006-05-19
参考文献数
5

キーワードの分布として良く知られているものに、Katz K mixmreモデルがある。このKatz K mixtureモデルは、キーワードが文書中で繰り返し出現する条件付き確率は減少係数によって決められる、と仮定している。しかし、このKatzKmixtureモデルに合致しないキーワードが存在する。その一つが日本のプロ野球で使われているチーム名である。野球チーム名には地名や企業名などが含まれているが、野球チーム名として使われていない地名や企業名を調べた結果、野球チーム名だけが特異な特徴を持つことがわかった。本研究では、新聞記事中に出現する野球チーム名がKatz K mixtureモデルと合致せず、また特異な特徴を持っているという発見を報告する.キーワード Katzモデル 統計的言語処理 単語頻度 固有名詞 The Katz K Mixture model is well known model for keywords and proper nouns.This model assumes that there are constant decay factors for the conditional probability of repeats.We have found that there are some keywords that do not obey this assumption.They are the names of professional baseball teams,We have checked that other names,such as companies or places which obey Katzmodel,and we have found that the names of baseball teams alone have this special feature.This paper reports the detail eddistribution of these baseball names,comparing with other names,and showing the difference among them.Keyword The Katz K Mixture model,statistical natural language processing,term frequency,proper noun
著者
山本 英子 梅村 恭司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.2, pp.45-75, 2002-04-10 (Released:2011-03-01)
参考文献数
25
被引用文献数
2 6

本論文では, コーパスから事象間の一対多関係を推定する問題を考える. これまでにコーパスから事象間の関係を推定することが多く研究されている. 一般に, この問題に対する解決法の多くは, コーパスを構成する文書における事象の共起に基づき, 暗黙的に事象間の関係は一対一関係であることを想定している. しかし, 実際には, 事象間の関係は一対多関係である場合があり, この特徴のためにいくつかの工夫が必要である. 本論文では, コーパス中の一対多関係を推定するために補完類似度を利用することを提案する. この尺度は本来文字認識システムのために開発され, テンプレートの文字のパターンにオーバーラップしたパターンがある条件で有効であることが知られているが, これまでテキスト処理に利用されたことはなかった. この補完類似度の一対多関係を推定する能力を評価するために, 地名 (都道府県市郡名) を対象事象とした実験において, 平均相互情報量, 自己相互情報量, 非対称平均相互情報量, ∅相関係数, コサイン関数ダイス相関係数, 信頼度との性能比較を行う. 実験では, 三種類のコーパスを用いる. 一つ目は実際に地名問にある一対多関係から合成する人工的なデータ集合である. 二つ目も実際の関係から合成するが, 誤った関係を導く少量の要素も含むデータ集合である. 三つ目は現実の新聞記事コーパスから得られるデータ集合である. これらの評価実験において, 補完類似度がもっとも優れており, 補完類似度は一対多関係の推定問題に対して有効であることを示す.
著者
山本 英子 武田 善行 梅村 恭司 山本 幹雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.71, pp.9-15, 2000-07-28
被引用文献数
2

本論文では,情報検索に利用でき、かつ表記の揺れに寛容な類似度を提案する.表記の揺れに対応することができる編集距離という手法があるが,この手法では情報検索精度が弱いことが知られている.そこで,本論文では,情報検索の性能を持ち,かつ表記の揺れにも対応することができるダイナミックプログラミングを用いた類似度の計算法を提案し,その情報検索性能が単語に基づく手法とngramに基づく手法と比較した結果,効果的であり,かつ提案した手法が表記の揺れに寛容であることを報告する.In this paper, we propose a similarity measure suitable for information retrieval and tolerant for morphological variation. Edit distance is well-known similarity measure that can cope with variations. Unfortunately, edit distance is not suitable for information retrieval due to its performance. We have improved The behavior of edit distance by extending its definition. We have compared the proposed similarity measure with the popular similarity measures for information retrieval.
著者
渡辺 和文 山崎 憲一 三上 博英 梅村 恭司
雑誌
全国大会講演論文集
巻号頁・発行日
vol.39, pp.1732-1733, 1989-10-16

ELISは、Lisp専用のアーキテクチャを持ったプロセッサであり、インタプリタの性能が高いことが大きな特徴である。この高いLisp処理能力を優れたユーザインタフェースと融合させることにより、ELISの利用分野を新たに開拓、広められる可能性がある。筆者らは、ユーザインタフェースに定評のあるApple社のMacintoshII(以下Mac IIと呼ぶ)を選び、これにELISを接続した(これをMacELISと呼ぶ)。本報告では、Mac IIへの接続ハードウェアについて述べる。
著者
山崎 憲一 三上 博英 梅村 恭司 渡邊 和文
雑誌
全国大会講演論文集
巻号頁・発行日
vol.39, pp.1734-1735, 1989-10-16

エキスパートシステムや知識処理システムにおいては、高速でかつ強力な記号処理機能と共にユーザインタフェースが重要である。そこで優れたユーザインタフェースをもつ米Apple社のMacintosh II(以下Mac)と、高速な記号処理機能を持ったLispマシンELISを結合したシステムMacELISを開発した。MacELISはELIS自身のプログラミング環境のユーザインタフェースを向上させること、および優れたユーザインタフェース構築のための環境を提供することを目的として設計され、次のような特徴を持つ。・ELISからMacのユーザインタフェースを使用できる。・Macに接続可能なデバイス(スキャナ、MIDコントローラ、光ディスク等)をELISから使用しマルチメディアに対応することができる。・デスクトップ型程度にまでコンパクトにできる。このようにMacELISではMacのユーザインタフェース機能を用いて、X-Windowに代表されるネットワークを介したウィンドウシステム以上の環境を提供できる。さらにMacELIS(1)はMacELIS IIとして現在開発中のシステムのプロトタイプでもあり、ハードウェア、ソフトウェアのフィージビリティ確認の役割をも持つ。
著者
阿部 洋丈 梅村 恭司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.35, pp.99-106, 2008-04-24

広域分散システムにおいて,多数のノードが単一の原因によって同時に障害に見舞われるケースがある.そのようなケースは相関障害(correlated failure)と呼ばれている.本論文では,大きなデータを分割して複数のノードに分散配置する場合に,それぞれの配置が相関障害に対してどのような耐性を持っているかを評価する方法について論じる.各ノードが保持する複製数が高々2の場合は,複製配置を置換群の元として解釈することで,その元の持つ互いに素な巡回置換の分割によって耐性を評価することができる.この結果より,分散システムによく見られるランダムな配置やシーケンシャルな配置よりも耐性の高い配置があり得ることを示す.There are cases where a single cause brings simultaneous failures on many nodes in a widearea distributed system. Such cases are called correlated failures. In this paper, we describe our ongoing work for developing a method that can evaluate impact that a data placement used in a distributed storage system against tolerance to correlated failures. In cases that the number of data fragments that each node can hold is at most 2, a data placement can be interpreted as a member of a permutation group. We developed a method to calculate the tolerance of a data placement based on the structure of coprime circular permutations in the equivalent permutation of the placement. Using the method, we show that there can be better placements than random placement or sequential placement, which are commonly used in existing wide-area distributed systems.