著者
柴田 雅博 冨浦 洋一 西口 友美
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.507-519, 2009 (Released:2009-09-04)
参考文献数
19
被引用文献数
5 7

We propose an open-ended dialog system that generates a proper sentence to a user's utterance using abundant documents on the World Wide Web as sources. Existing knowledge-based dialog systems give meaningful information to a user, but they are unsuitable for open-ended input. The system Eliza can handle open-ended input, but it gives no meaningful information. Our system lies between the above two dialog systems; it converses on various topics and gives meaningful information related to the user's utterances. The system selects an appropriate sentence as a response from documents gathered through the Web, on the basis of surface cohesion and shallow semantic coherence. The surface cohesion follows centering theory and the semantic coherence is calculated on the basis of the conditional distribution and inverse document frequency of content words (nouns, verbs, and adjectives.) We developed a trial system to converse about movies and experimentally found that the proposed method generated 66% appropriate responses.
著者
三村 均 柴田 雅博 秋葉 健一
出版者
東北大学
雑誌
東北大學選鑛製錬研究所彙報 (ISSN:0040876X)
巻号頁・発行日
vol.44, no.2, pp.182-190, 1989-03-25

The chemical stability of pollucite (CsAlSi_2O_6) has been studied under hydrothermal conditions in relation to the leachability of cesium. At room temperature, the leachability of cesium from pollucite in the neutral pH region was very low. Under hydrothermal conditions (100 and 200℃) in sodium or potassium chloride solution, cesium leached out due to an ion exchange reaction forming new phases such as analcime (NaAlSi_2O_6) and leucite (KAlSi_2O_6) through an isomorphous substitution mechanism. In the presence of calcium or magnesium chloride, the pollucite phase recrystallised with the formation of anorthite (CaAl_2Si_2O_8) and clinochlore (Mg_5Al_2Si_3O_<10>(OH)_8) at the surface of the original pollucite and with the cesium leaching into solution. (Received November 7,1988)hydrothermal stabilitypolluciteleachabilitycesiumion exchangeanalcimeleuciteisomorphous substitutionrecrystallizationanorthiteclinochlore.
著者
冨浦 洋一 青木 さやか 柴田 雅博 行野 顕正
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.16, no.1, pp.25-46, 2009-01-10
被引用文献数
1 1

本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 <I>n</I>-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.<I>n</I> を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 <I>n</I>-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.
著者
冨浦 洋一 青木 さやか 柴田 雅博 行野 顕正
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.1, pp.1_25-1_46, 2009 (Released:2011-09-14)
参考文献数
17
被引用文献数
1

本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 n-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.n を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 n-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.
著者
行野 顕正 田中 省作 冨浦洋一 柴田 雅博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.365-374, 2007-01-15
被引用文献数
1 2

スラッシュ・リーディングとは,意味のかたまりごとにスラッシュで区切られた英文を読むことにより,読解力の向上を目指す学習法である.多くのスラッシュ付き英文を読むことで,学習効果が上がると考えられるが,現在のところ十分な文書数のある学習教材が存在しないという問題がある.本稿では,統計的アプローチを用いて任意の英文にスラッシュを自動的に挿入する手法を提案する.英文中のスラッシュの位置を定める主な要因は,英文の部分的な構文構造・セグメント長のバランス・一部の単語であるという仮定に基づき,パラメトリックな確率モデルおよびSVM を構築する.既存の教材を学習データとしてモデルを学習することで,その教材のスラッシュ挿入規則を模倣したスラッシュ付き英文を作ることができる.3 つの既存教材を対象とした実験では,提案手法が,様々な教材におけるスラッシュ挿入規則を,従来手法よりも高い適合率・再現率で模倣できるという結果が示されている.In Slash Reading, learners read English sentences separated into segments (sense groups) with slashes to improve their reading skills. The more texts for Slash Reading a learner read, the more effect of learning could be expected. However, there are not enough materials for Slash Reading. This paper proposes methods for transforming automatically a plain sentence into a slashed sentence based on statistical approaches. A parametric model and a SVM model are built on the assumption that the factors to decide where to insert slashes into a sentence are a portion of the syntactic structure of the sentence, the lengths of the segments and words around the slashes. The models are learned from an existing material for Slash Reading. The systems based on these models, therefore, can transform automatically a plain sentence into a slashed sentence by imitating positions of slashes in the material. The results of the experiments using existing materials for Slash Reading indicate that the proposed methods imitate positions of slashes of the materials with the higher precision and recall than the previous methods.
著者
水田 貴章 柴田 雅博 冨浦洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.113, pp.91-98, 2008-11-19

コーパスベースで言語知識を獲得する場合には,その言語の大規模なコーパスが必要となる.Web 上には多種の言語で書かれた膨大な数の文書が存在するため,そこから文書を収集することによって様々な言語の大規模コーパスの構築が可能である.このとき,言語ごとのコーパスを構築するためには,まず,収集文書がどの言語で書かれているかを識別する必要がある.本論文では,仮説検定を導入した言語識別手法を提案する.この手法により,長い byte 列を用いた場合でも統計的な揺らぎの影響が小さい言語識別が可能となる.実験の結果,従来手法では識別が難しかった小さなサイズの文書に対しても高い精度で言語識別を行えることが確認できた.To get language knowledge based on a corpus, we need a large number of documents written in the language. In the web, there are a huge number of documents written in various languages, and we can construct corpora of various languages easily by gathering each language's documents from the web.The first step to construct corpora in this way is to identify the language of each gathered document.In this paper, we propose a language identification method using statistical hypothesis testing. The method is robust against the statistical fluctuation even when we use long and low-frequency symbol sequences as language features. Through experiments, the proposed method identified languages of short documents accurately, which the previous methods could not.