著者
東 藍 新保仁 松本 裕治 Azuma Ai Shimbo Masashi Matsumoto Yuji
雑誌
データマイニングと統計数理研究会(第 12 回)

When we apply machine learning or data mining technique to sequential data, it is often required to take a summation over all the possible sequences. We cannot calculate such a summation directly from its definition in practice. Although the ordinary forward-backward algorithm provides an efficient way to do it, it is applicable to quite limited types of summations. In this paper, we propose general algebraic frameworks for generalization of the forward-backward algorithm. We show some examples falling within this framework and their importance.
著者
伊藤敬彦 堀部 史郎 新保仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.51, pp.181-188, 2003-05-22
被引用文献数
2

ある文献が他のどの文献を参照しているか、という文献の参照情報は、その文献の参考文献一覧の各一文(参考文献文)が指し示している文献を、文献データベース(著者、題目、掲載誌等からなる文献を表す文献データ集合)中から同定することで獲得できる。この同定を、参考文献文と文献データの単なる文字列の完全一致判定で行なうことはできない。参考文献文に表記の多様性や誤りが存在するためである。本稿では参照情報の自動獲得手法を提案する。始めに、単一のベクトル空間とその上での類似度を用いて粗く候補を絞る。次に、参考文献と文候補が同一の文献であるかを多数の尺度に基づく類似度を特徴量として判定する。複数の尺度それぞれの重みを人手でつけることは現実的ではないため本稿ではサポートベクターマシーンを用い、各尺度の最適な重みを自動で算出した結果、F値0.992が得られた。Citation indices are invaluable for the retrieval of related papers. With the increase in the volume of scientific literature, a demand is growing for methods to automatically construct such indices. However, a naive method such as using exact string matches makes errors because of the various ways references can be formatted. In this paper, we propose a new citation indexing method that uses many features to evaluate similarity between references and bibligoraphic data. Unlike the previous work which typically uses only a few features to compute similarity, our method computes a weighted sum of more than 1200 feature values, each of which reflects one of the diverse similarity measures. An F-measure of 0.992 was obtained when Support Vector Machines were used to compute optimal weights to each feature.
著者
坂田 浩亮 新保仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.113-119, 2007-09-26
被引用文献数
1

言語教育において,学習者の言語習得度を知ることは教師にとって重要なことであるまた,言語学習者の言語習得度を客観的に量る手段があれば 学習者は教師がいなくても自分の言語習得度を評価できるため,学習効率の向上につながると考えられる.本発表では 言語学習者の作文と習得度別コーパスとの類似度に基づいて 学習者の言語習得度を推定する手法を提案する.NICT JLEコーパスを用いて行った提案手法の評価実験と,その結果について紹介する.We propose methods for automatically evaluating second language learners' proficiency levels. These methods not only help teachers evaluate students' proficiency levels, but also accelerate students' learning, since they can evaluate their proficiency levels whenever they like without consulting their teachers. The proposed methods compute students' proficiency levels on the basis of the similarity between their free compositions and the corpus of compositions divided into skill levels.