著者
長尾 眞 森 信介
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.61, pp.1-8, 1993-07-09
被引用文献数
38

シャノンによる情報理論の確立により,自然言語をマルコフ過程としてとらえ,言語のもつ性質を明らかにしようという立場が提案された.この立場は,あるn文字の組合せがどのような頻度で生じるか(グラム)を調べることにその中心があったが,計算機の性能やテキストデータの不足などにより、大蜆模なテキストに対して、あるいは大きなnに対して言語統計を取ることが行われなかった.我々は,今日の計算機を用いるとこれが実現できると考え,大規模なテキストの任意のnについてのnグラムを簡単にとる方法を考案し,200万文字から3000万文字の中規模の日本語テキストデータに対し,nグラム統計をワークステーションを使って比較的短時間でとることに成功した.その結果,種々のnに対するnグラム統計を比較して調べることによって言葉として有意義なものが取り出せるということが明らかになった.同時にさらに大きいテキストを用いることの必要性と、可能性が明らかになった.In the process of establishing the information theory, C. E. Shannon proposed the Markov process as a good model to characterize a natural language. The core of this idea is to examine the frequency of a string composed of n characters (n-grams), but this statistical analysis of large text data and for a large n has never been carried out because of the low capability of computer and the shortage of text data. Taking advantage of the recent powerful computers to execute it, we developped a new algorithm of n-grams of large text data for arbitrary n and calculated successfully, within relatively short time, n-grams of some middle size Japanese text data containing between two and thirty million characters. From this experiment it became clear that the automatic extraction or determination of words is possible by mutually comparing the n-gram statistics for different values of n.
著者
亀甲 博貴 森 信介 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2014論文集
巻号頁・発行日
vol.2014, pp.202-209, 2014-10-31

本稿では将棋の解説文中に現れる自然言語による指し手表現と実際の将棋の局面との対応付け手法を提案する.手法の説明に先立ち解説木と候補木の概念を導入する.最初にルールベースの手法により,解説文中に現れる合法手から構成される候補木を列挙する.列挙された候補木の中から,コンピュータ将棋プログラムの評価値を用いて解説木を選択する.本稿では提案手法を用いて解説木を生成し,その誤りについて解析した.また得られた解説木を解説文生成手法に適用し,解説文生成を行った.実験の結果,多くの局面において指し手表現と局面状態を対応付けた解説木の獲得に成功し,またそのうち約8割は正しい解説木の獲得に成功していた.また得られた解説木を解説文生成に適用し,複数の有益な解説文の生成に成功した.
著者
亀甲 博貴 森 信介 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.28-35, 2016-10-28

本稿では将棋の解説文において示すべき指し手の推定手法を提案する.人間が付与した解説文中に現れる指し手符号と実際のゲームの状態空間との対応付けを行うことによって得られた,解説木という概念によって示された人間による解説文中に現れる指し手を教師として,解説すべき指し手の予測モデルを学習する.また,これによって得られた予測モデルと探索結果を組み合わせることで解説されるべき指し手の予測を行う.指し手の予測モデルは精度の大幅な向上は実現できなかったが,解説文中に現れる指し手は棋譜中の指し手とは異なる性質を持っており,提案手法によってその性質を獲得しうることを示した.またこの予測モデルと探索結果を組み合わせることで一部の解説木の生成が可能であることを示した.
著者
亀甲 博貴 浦 晃 三輪 誠 鶴岡 慶雅 森 信介 近山 隆
雑誌
ゲームプログラミングワークショップ2013論文集
巻号頁・発行日
pp.36-43, 2013-11-01

将棋の対局を観戦する上でコンピュータ将棋プログラムの形勢判断は有益な情報である.自然言語による局面の解説をプログラムが行えるようになれば,より有益な情報を提供できると考えられる.本稿では将棋の解説文を生成するモデルを提案し,その根幹である局面からの特徴語生成について調査した.学習の対象とする文を,意味でクラス分けする分類器を学習しその予測を用いることで限定した.しかし特徴語生成はF 値0.38 と,期待されるほどの精度では行えなかったものの,解説文の生成においては,特定の局面については正しい文を生成できることが分かった.
著者
平山 直樹 吉野 幸一郎 糸山 克寿 森 信介 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.55, no.7, pp.1681-1694, 2014-07-15

本論文では,様々な方言の混合に対応する音声認識システムを構築する.まず,単一方言音声認識の言語モデルを,大規模共通語言語コーパスから擬似生成した方言言語コーパスで学習する.擬似生成には,共通語-方言対訳コーパスからWFST(重み付き有限状態トランスデューサ)によって学習されたルールを用いる.次に,構築された各方言言語モデルを混合し,発話ごとに最適な混合比を推定しながら認識を行う.これは,実際に話される方言が純粋な単一方言ではなく,人の移動やテレビ,ラジオなどの放送の影響を受けた様々な方言の混合であると考えられるからである.この推定には,音声認識用言語モデルにおける対数尤度の値を用いる.実験により,方言音声認識用言語モデルを用いて方言音声の認識精度が向上することを確認した.また,対数尤度と音声認識精度に強い相関があること,対数尤度を最大化する混合比を発話ごとに選択することで,固定混合比の場合と比較して音声認識精度が向上することを確認した.
著者
森 信介 中田 陽介 Neubig Graham 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.4, pp.367-381, 2011 (Released:2011-12-28)
参考文献数
15
被引用文献数
3 6

本論文では,形態素解析の問題を単語分割と品詞推定に分解し,それぞれの処理で点予測を用いる手法を提案する.点予測とは,分類器の素性として,周囲の単語境界や品詞等の推定値を利用せずに,周囲の文字列の情報のみを利用する方法である.点予測を用いることで,柔軟に言語資源を利用することができる.特に分野適応において,低い人的コストで,高い分野適応性を実現できる.提案手法の評価として,言語資源が豊富な一般分野において,既存手法である条件付き確率場と形態素 n-gram モデルとの解析精度の比較を行い,同程度の精度を得た.さらに,提案手法の分野適応性を評価するための評価実験を行い,高い分野適応性を示す結果を得た.
著者
橋本 敦史 井上 中順 牛久 祥孝 濱屋 政志 松原 崇充 森 信介 VON・DRIGALSKI FELIX
出版者
オムロンサイニックエックス株式会社
雑誌
基盤研究(A)
巻号頁・発行日
2021-04-05

生産年齢人口が減少する中,ロボットの産業活用は喫緊の課題である.ロボットによる作業代替を低コストで実現する方法として言語指示の活用が注目されている.しかし,「言語指示→ロボット制御」の従来型演算モデルは特定の作業に特化したものとなってしまっている.本研究では,多様な作業を対象とした汎用的な演算モデルを提案・検証する.言語・映像資源が豊富な調理を対象とし,サラダなどの比較的簡単な料理を言語指示に従って調理するロボットを最終年度までに実現することでコンセプト実証を目指す.
著者
大森 信介
出版者
公益社団法人 日本リハビリテーション医学会
雑誌
The Japanese Journal of Rehabilitation Medicine (ISSN:18813526)
巻号頁・発行日
vol.53, no.10, pp.762-764, 2016-10-18 (Released:2016-11-17)
参考文献数
10
被引用文献数
3

手関節は橈骨手根関節,手根中央関節,遠位橈尺関節の複合運動により,掌背屈,橈尺屈,回内外運動が可能な関節である.手関節の効果的なリハビリテーションを行うためには,手関節の機能解剖を理解することが重要である.しかし,手関節の3次元バイオメカニクスを含めた機能解剖についてはいまだ解明されていない部分も多く,議論も多い.本稿では,まず手関節の正常機能解剖について述べ,次に手関節外傷として頻度の高い橈骨遠位端骨折,DISI変形に代表される手根不安定症における3次元手関節バイオメカニクスについて述べる.
著者
坪井 祐太 森 信介 鹿島 久嗣 小田 裕樹 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.6, pp.1622-1635, 2009-06-15
被引用文献数
4

本研究では文の一部にのみ単語分割情報を付与する部分的アノテーションに注目する.重要な部分や作業負荷の少ない部分にのみアノテーションをすることにより,新しい分野に対応するための学習データを効率的に作成できる.この部分的アノテーションを使用して条件付き確率場(CRF)を学習する方法を提案する.CRFは単語分割および自然言語処理の様々な問題でその有効性が示されている手法であるが,その学習には文全体へのアノテーションが必要であった.提案法は周辺尤度を目的関数にすることで部分的アノテーションを用いたCRFのパラメータ推定を可能にした.日本語単語分割器の分野適応実験において部分的アノテーションによって効果的に性能を向上させることが可能であったことを報告する.In this paper, we address word-boundary annotations which are done only on part of sentences. By limiting our focus on crucial part of sentences, we can effectively create a training data for each new target domain by conducting such partial annotations. We propose a training algorithm for Conditional Random Fields (CRFs) using partial annotations. It is known that CRFs are wellsuited to word segmentation tasks and many other sequence labeling problems in NLP. However, conventional CRF learning algorithms require fully annotated sentences. The objective function of the proposed method is a marginal likelihood function, so that the CRF model incorporates such partial annotations. Through experiments, we show our method effectively utilizes partial annotations on a domain adaptation task of Japanese word segmentation.
著者
森 信介 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69, pp.7-12, 1995-07-20
被引用文献数
14

自然言語処理において、辞書は単語の文法的機能や意味の情報源として必要不可欠であり、辞書に登録されていない単語を減少させるため、辞書の語彙を増強する努力がなされている。新語や専門用語は絶えず増え続けているため、辞書作成の作業は多大な労力を要するのみならず、各解析段階での未知語との遭遇は避けらず、大きな問題の一つとなっている。この問題を解決するため、本論文では、nグラム統計を用いて、コーパスからの単語の抽出とその単語が属する品詞の推定を同時に行なう方法を提案する。この方法は、同一品詞に属する単語の前後に位置する文字列の分布は類似するという仮定に基づく。実験の結果、本手法が未知語の品詞推定や辞書構築に有効であることが確認された。Dictionaries are indispensable for NLP as a source of information of grammatical functions or meanings of words. Much endeavor is being made to reinforce their vocabulary. Given continuous increase of new words or technical terms, building a dictionary takes vast effort and unknown words are inevitable at any step of analysis and this causes a grand problem. To solve this problem, we propose a method to extract words from a corpus and estimate part-of-speeches (POSs) which they belong to simultaneously using n-gram statistics, based on the supposition that distributions of strings preceding or following words belonging to the same POS are similar. Experiments have shown that this method is effective to infer the POS of unknown words and build a dictionary.
著者
森 信介 土屋 雅稔 山地 治 長尾 真
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48, pp.93-99, 1998-05-28

本論文では、確率的モデルによる仮名漢字変換を提案する。これは、従来の規則とその重みに基づく仮名漢字変換と異なり、入力に対応する最も確率の高い仮名漢字混じり文を出力とする。この方法の有効性を確かめるため、片仮名列と仮名漢字混じり文を有するコーバスを用いた変換実験を行ない、変換精度を測定した。変換精度は、第一変換候補と正解の最長共通部分列の文字数に基づく再現率と適合率である。この結果、我々の提案する手法による再現率は95.07%であり、適合率は93.94%であった。これは、市販の仮名漢字変換器の一つであるWnn6の同じテストコーパスに対する再現率(91.12%)と適合率(91.17%)を有意に上回っており、確率的モデルによる仮名漢字変換の有効性を示す結果となった。In this paper, we present a kanji-kanji converter by a stochastic model. Given an input this method returns the most probable kana-kanji character sequence. For its evaluation, we converted kana sequences of a corpus containing kana-kanji sequences. The criterion we used is the ratio of the length of longest common subsequece. The recall and precision of our method are 95.07% and 93.94% respectively. This result is much better than that of Wnn6 (recall: 91.12%; precision: 91.17%).
著者
友利 涼 二宮 崇 森 信介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.655-668, 2017-12-15 (Released:2018-03-15)
参考文献数
22

本稿では,将棋の解説文に対する固有表現を題材として,テキスト情報に加えて実世界情報を参照する固有表現認識を提案する.この題材での実世界情報は,固有表現認識の対象となる解説文が言及している将棋の局面である.局面は,盤面上の駒の配置と持ち駒であり,すべての可能な盤面状態がこれによって記述できる.提案手法では,まず各局面の情報をディープニューラルネットワークの学習方法の 1 つである stacked auto-encoder を用いて事前学習を行う.次に,事前学習の結果をテキスト情報と組み合わせて固有表現認識モデルを学習する.提案手法を評価するために,条件付き確率場による方法等との比較実験を行った.実験の結果,提案手法は他の手法よりも高い精度を示し,実世界情報を用いることにより固有表現認識の精度向上が可能であることが示された.
著者
吉野 幸一郎 森 信介 河原 達也
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.29, no.1, pp.53-59, 2014-01-05 (Released:2014-01-07)
参考文献数
28

A novel text selection approach for training a language model (LM) with Web texts is proposed for automatic speech recognition (ASR) of spoken dialogue systems. Compared to the conventional approach based on perplexity criterion, the proposed approach introduces a semantic-level relevance measure with the back-end knowledge base used in the dialogue system. We focus on the predicate-argument (P-A) structure characteristic to the domain in order to filter semantically relevant sentences in the domain. Moreover, combination with the perplexity measure is investigated. Experimental evaluations in two different domains demonstrate the effectiveness and generality of the proposed approach. The combination method realizes significant improvement not only in ASR accuracy but also in semantic-level accuracy.
著者
小田 裕樹 森 信介 北 研二
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.93-108, 1999-10-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
1 2

日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である. 本論文では, 日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法を提案する. 文字クラスモデルでは, 推定すべきパラメータ数が文字モデルより少ないという大きな利点があり, 文字モデルより頑健な推定を可能とする. したがって, 文字クラスモデルを単語分割へ適用した場合, 文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる. 文字クラスタリングの基準はモデルの推定に用いるコーパスとは別に用意したコーパスのエントロピーであり, 探索方法は貧欲アルゴリズムに基づいている. このため, 局所的にではあるが最適な文字のクラス分類がクラスの数をあらかじめ決めることなく得られる. ATR対話データベースを用いて評価実験を行った結果, 文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く, 特に, 文字クラスを予測単位とする可変長n-gramクラスモデルではオープンテストにおいて再現率96.38%, 適合率96.23%の高精度を達成した.
著者
森 信介 長尾 眞
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.27(1995-NL-112), pp.37-44, 1996-03-14

入力文を単語に分割し品詞を付加する形態素解析は、日本語処理における基本的な処理である。英語の品詞タグ付けと異なりコーパスに基づく形態素解析の試みはあまり行なわれていない。本論文では、コーパスに基づく形態素解析の新しい手法を提案する。我々の提案は次のように要約される。)各形態素の語彙化、)附属語列の登録、)マルコフモデルの重ね合わせ。これらのアイデアは形態素解析に特有ではなく、他のコーパスに基づく手法に応用できる。以上のアイデアに基づく形態素解析器を作成し、EDRコーパスに対して実験を行なった結果、非常に高い精度を得た。
著者
森 信介 土屋 雅稔 山地 治 長尾 真
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48(1998-NL-125), pp.93-99, 1998-05-28

本論文では、確率的モデルによる仮名漢字変換を提案する。これは、従来の規則とその重みに基づく仮名漢字変換と異なり、入力に対応する最も確率の高い仮名漢字混じり文を出力とする。この方法の有効性を確かめるため、片仮名列と仮名漢字混じり文を有するコーバスを用いた変換実験を行ない、変換精度を測定した。変換精度は、第一変換候補と正解の最長共通部分列の文字数に基づく再現率と適合率である。この結果、我々の提案する手法による再現率は95.07%であり、適合率は93.94%であった。これは、市販の仮名漢字変換器の一つであるWnn6の同じテストコーパスに対する再現率(91.12%)と適合率(91.17%)を有意に上回っており、確率的モデルによる仮名漢字変換の有効性を示す結果となった。
著者
山肩 洋子 森 信介
雑誌
情報処理
巻号頁・発行日
vol.57, no.4, pp.374-382, 2016-03-15

レシピは一般の主婦を中心として最も活発に生産・利用されている消費者生産型メディア(CGM:Consumer Generated Media)の1つである.世界最多のレシピ掲載数を誇るクックパッドには2014年6月現在176万件のレシピが投稿され,30代女性の87%がクックパッドを利用しているという調査結果がある.日本ではほかにも楽天レシピが有名だが,国外でも米国のAllrecipes,ドイツのChefkoch.de,フランスのmarmiton,ロシアのPovarenok.ru,ブラジルのTudo Gostosoなど,多くの国が自国の食のためのユーザ投稿型レシピサイトをもち,一般ユーザによって活発に利用されている.これに伴い,レシピ処理の研究も急激な盛り上がりを見せている.本論文では,ユーザ投稿型レシピをより効果的に利用するため,世界で行われているさまざまな研究を紹介する.また,レシピテキストに対する自然言語処理について概説する.