著者
新納 浩幸 浅原 正幸 古宮 嘉那子 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.705-720, 2017-12-15 (Released:2018-03-15)
参考文献数
13
被引用文献数
8

我々は国語研日本語ウェブコーパスと word2vec を用いて単語の分散表現を構築し,その分散表現のデータを nwjc2vec と名付けて公開している.本稿では nwjc2vec を紹介し,nwjc2vec の品質を評価するために行った2種類の評価実験の結果を報告する.第一の評価実験では,単語間類似度の評価として,単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する.第二の評価実験では,タスクに基づく評価として,nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言語モデルの構築を行う.どちらの評価実験においても,新聞記事7年分の記事データから構築した分散表現を用いた場合の結果と比較することで,nwjc2vec が高品質であることを示す.
著者
新納 浩幸
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.41, no.4, pp.1046-1053, 2000-04-15
被引用文献数
1

本論文では日本語文章中に生じる同音異義語の誤りを検出する手法を提案する.基本的にはYarowskyの提案した決定リストを利用する.さらに表記されている単語の情報({?bf 表記情報}と呼ぶ)をdefaultの証拠として導入することで,誤り検出のF値を向上させる.同音異義語の誤りを検出するには,同音異義語問題を解けばよい.そして同音異義語問題は語義選択問題と等価であるために,語義選択問題に対する種々の統計手法を利用して解くことができる.ただし同音異義語問題は語義選択問題とは明確に異なった面も持っている.それはほとんどの場合正解となる判別結果がすでに表記として現れていることである.同音異義語問題では表記されている単語を選択すれば判別の正解率が非常に高くなる.しかし,表記されている単語をつねに選択すれば誤り検出をまったく行わず,誤り検出システムとしての意味をなさない.同音異義語問題の手法の評価は判別の正解率ではなく,誤り検出の正解率と再現率を考慮したF値で行うべきである.本論文では,F値を向上させるように,表記情報を利用する.具体的には統計手法として決定リストを利用する.そして表記情報をdefaultの証拠として決定リスト内に導入する.この表記情報の予測力の値は,訓練コーパスにおいてF値を最大にする値から得る.In this paper, we propose a method of detectingJapanese homophone errors in Japanese texts.Our method is based on a decision list proposed by Yarowsky.We improve the original decision list by using written words as the default evidence.The improved decision list can raise the F-measure of error detection.In order to detect homophone errors,we only have to solve the homophone problem for the homophone word.The homophone problem is equivalent tothe word sense disambiguation problem.Consequently, we can solve the homophone problemby using various statistical methods proposed for the word sense disambiguation problem.However, the homophone problemhas a distinct difference from the word sense disambiguation problem.In the homophone problem, almost all of the answers are given correctly.Therefore, the choice of the written word results in high precision.However, the method to always choose the written wordis useless for error detection becauseit doesn't detect errors at all.The method for the homophone problemshould be evaluated by the F-measure tocombine the precision and the recall.In this paper, we use the written word in order to raise the F-measure of error detection.To put it concretely,we use the written word as the default evidence ofthe decision list.The identifying strength of the written word is obtained by calculating the strength that gives the maximum F-measurein the training corpus.
著者
新納 浩幸 白 静 曹 鋭 馬 雯
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回全国大会(2020)
巻号頁・発行日
pp.1E3GS902, 2020 (Released:2020-06-19)

本論文では BERT の領域依存の問題を指摘し、Fine-Tuning を利用することで領域に特化した事前学習モデルを構築する。具体的には既存 BERT モデルのパラメータを DistilBERT のパラメータの初期値とし、領域毎のコーパスを利用して DistilBERT モデルの学習を行う。これによって領域に特化した DistilBERT モデルの構築が効率的に行える。実験では、領域毎に空所単語の推定問題を作成し、問題の領域に特化して構築したモデルと既存 BERT モデルを比較することで、構築したモデルの有益性を示す。
著者
田中 裕隆 新納 浩幸
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回全国大会(2020)
巻号頁・発行日
pp.3Rin455, 2020 (Released:2020-06-19)

物体検出は、教師あり学習によって解決できる画像認識のタスクの一つである。物体検出の教師データにはBounding Boxとクラスラベルがある。これらの教師データの作成は一般的に人手で行われるためコストが高い。本研究は、教師データに用いる正確なBounding Boxの作成を目的とする。人手による正確なBounding Boxの作成は高コストであるが、正確性を要求しないBounding Boxであれば、人手であっても比較的低コストに作成できる。そこで、物体に対して余裕のある低コストなBounding Boxから、正確なBounding Boxを作成する手法を提案する。提案手法では、人手で作成したBounding Boxを用いて、その内側の領域に対するセマンティックセグメンテーションによって得られた推定領域全体を、正確なBounding Boxとした。この手法によって、物体に対して余裕のあるBounding Boxから、より正確なBounding Boxを作成することができた。
著者
田中 裕隆 曹 鋭 白 静 馬 ブン 新納 浩幸
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-243, no.8, pp.1-6, 2019-11-27

近年,BERT のような事前学習モデルを利用することで,自然言語処理システムの性能が大きく向上している.BERT は,Transformer の Multi-head Attention を用いることで文脈に応じた単語の埋め込み表現列を得ることのできるモデルである.文書分類のタスクの場合,文書を BERT に入力し,その出力から文書の特徴ベクトルを構築する方法によって処理できる.しかし,BERTに入力できるシーケンスの長さには上限がある.この制限によって,長い文書を扱う場合,標準的な手法では文書分類に必要な情報を十分に得られないと考えられる.そこで,BERT から長い文書内の全ての単語に対応する埋め込み表現を得て,そこから文書の特徴ベクトルを作成する手法を提案する.
著者
新納 浩幸 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.5, pp.707-726, 2013-12-13 (Released:2014-03-13)
参考文献数
29
被引用文献数
3 4

本論文では語義曖昧性解消 (Word Sense Disambiguation, WSD) の領域適応に対する手法を提案する.WSD の領域適応の問題は,2 つの問題に要約できる.1 つは領域間で語義の分布が異なる問題,もう 1 つは領域の変化によりデータスパースネスが生じる問題である.本論文では上記の点を論じ,前者の問題の対策として学習手法に k 近傍法を補助的に用いること,後者の問題の対策としてトピックモデルを用いることを提案する.具体的にはターゲット領域から構築できるトピックモデルによって,ソース領域の訓練データとターゲット領域のテストデータにトピック素性を追加する.拡張された素性ベクトルから SVM を用いて語義識別を行うが,識別の信頼性が低いものには k 近傍法の識別結果を用いる.BCCWJ コーパスの 2 つの領域 PB(書籍)と OC(Yahoo! 知恵袋)から共に頻度が 50 以上の多義語 17 単語を対象にして,WSD の領域適応の実験を行い,提案手法の有効性を示す.別種の領域間における本手法の有効性の確認,領域の一般性を考慮したトピックモデルを WSD に利用する方法,および WSD の領域適応に有効なアンサンブル手法を考案することを今後の課題とする.
著者
新納 浩幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.4, pp.329-330, 2018-09-15 (Released:2018-12-15)
著者
新納 浩幸 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.5, pp.1011-1035, 2014-09-16 (Released:2014-12-16)
参考文献数
28
被引用文献数
1

本論文では語義曖昧性解消(Word Sense Disambiguation,WSD)の教師なし領域適応の問題に対して,共変量シフト下の学習を試みる.共変量シフト下の学習では確率密度比 w(x) = PT(x)/PS(x) を重みとした重み付き学習を行うが,WSD の場合,推定される確率密度比の値が小さくなる傾向がある.ここでは PT(x) と PS(x) をそれぞれ求めて,その比を取ることで w(x) を推定するが,PS(x) を求める際に,ターゲット領域のコーパスとソース領域のコーパスを合わせたコーパスを,新たにソース領域のコーパス S と見なすことで,先の問題に対処する.BCCWJ の 3 つの領域 OC (Yahoo! 知恵袋),PB(書籍)及び PN(新聞)を選び,SemEval-2 の日本語 WSD タスクのデータを利用して,多義語 16 種類を対象に,WSD の領域適応の実験を行った.w(x) を推定する手法として,PT(x) と PS(x) を求めずに,w(x) を直接推定する uLSIF も試みた.また確率密度比を上方修正するために「p 乗する」「相対確率密度比を取る」という手法も組み合わせて試みた.それらの実験の結果,提案手法の有効性が示された.
著者
新納 浩幸 村田 真樹 白井 清昭 福本 文代 藤田 早苗 佐々木 稔 古宮 嘉那子 乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.319-362, 2015

語義曖昧性解消の誤り分析を行う場合,まずどのような原因からその誤りが生じているかを調べ,誤りの原因を分類しておくことが一般的である.この分類のために,分析対象データに対して分析者 7 人が独自に設定した誤り原因のタイプを付与したが,各自の分析結果はかなり異なり,それらを議論によって統合することは負荷の高い作業であった.そこでクラスタリングを利用してある程度機械的にそれらを統合することを試み,最終的に 9 種類の誤り原因として統合した.この 9 種類の中の主要な 3 つの誤り原因により,語義曖昧性解消の誤りの 9 割が生じていることが判明した.またタイプ分類間の類似度を定義することで,統合した誤り原因のタイプ分類が,各自の分析結果を代表していることを示した.また統合した誤り原因のタイプ分類と各自の誤り原因のタイプ分類を比較し,ここで得られた誤り原因のタイプ分類が標準的であることも示した.
著者
前川 喜久雄 山崎 誠 松本 裕治 傳 康晴 田野村 忠温 砂川 有里子 田中 牧郎 荻野 綱男 奥村 学 斎藤 博昭 柴崎 秀子 新納 浩幸 仁科 喜久子 宇津呂 武仁 関 洋平 小原 京子 木戸 冬子
出版者
大学共同利用機関法人人間文化研究機構国立国語研究所
雑誌
特定領域研究
巻号頁・発行日
2006

当初の予定どおりに、5000万語規模の現代日本語書籍均衡コーパスを構築して2011年に公開した。同時に構築途上のコーパスを利用しながら、コーパス日本語学の確立にむけた研究を多方面で推進し、若手研究所の育成にも努めた。現在、約200名規模の研究コミュニティーが成立しており、本領域終了後も定期的にワークショップを開催するなど活発に活動を続けている。
著者
新納 浩幸 井佐原 均
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.1, pp.32-40, 1995-01-15
被引用文献数
35

本論文では簡易な字面処理によって、助詞に相当する定型表現(助詞的定型表現)をコーパスから自動抽出する手法について述べる。ここで抽出する表現は、例えば「に関して」や「に基づく」のように、助詞的な働きをする定型的な表現である。これらの定型表現は処理上、一単語として扱うのが妥当であり、予め収集しておく必要がある。定型表現を自動抽出する従来の手法の多くは対象言語が英語である。しかし日本語の場合、英語と異なり、単語間の共起の強さを計るには、基本的に文を単語に分割するための形態素解析が必要である。しかも形態素解析には、暖味性、未知語などの問題がついてまわり、単語間の共起の強さを計るのは英語ほど容易ではない・完全な字面処理からのアプローチとしては、「ある文字列が1つのユニットになっていればその文字列の前後には様々な種類の文宇が現れる」というアイデアをもとに、大規模コーパスから得られたNグラムによって定型表現を取り出す手法がある。本手法は墓本的にこの考え方を利用する。ただし、助詞約定型表現の持ついくつかのヒューリスティックスと句読魚情報を活用し、完全なNグラムを作ることを避け、そのサブセットである疑似Nグラムと呼ぷある種の文宇列の頻度情報だけを利用する。結果として、簡易な字面処理だけによって、定型表現の抽出が可能となっている。このため、本手法は、実験の拡大、再現が容易であるという利点も持つ。
著者
新納 浩幸 井佐原 均
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.35, no.11, pp.2258-2264, 1994-11-15
被引用文献数
6

本諭文ではコーパスから関係表現を自動抽出する手法について述べる。関係表現とは「に関して」に代表される、助詞相当の働きを持ち、語の挿入や交換が一般に行えない慣用表現の一種である。関係表現は一般に一語として処理するのが有効であるが、その表現を収集することは容易ではない。なぜなら通常の表現と関係表現との違いは不明確であり、つきつめれば、その判定はシステム製作者の主観的な判断によって行われているからである。本論文ではコーパスから関係表現を自動抽出することで、網羅的、かつ統一的な関係表現の収集を目指した。持に本論文では、助詞十動詞十付属語(助詞、助動詞)の形を持つ関係表現を抽出することを試みた。本諭文は上記の関係表現のもつ2つの特徴に注目する。1つは関係表現中の動詞は、接続的な利用が多く本動詞として利用されることが少ないこと、もう1つは、その動詞に前置する助詞との共起が強いため、動詞に前置する助詞は特異な出現頻度をとるという特徴である。この特徴を利用してまず関係表現中の動詞になりえるものをコーパス中のその語の使われ方の頻度から選出する。次に選出した動詞に前置する助詞をコーパスから収集し、助詞の出現分布を調べることで関係表現を抽出する。
著者
新納 浩幸 井佐原 均
出版者
社団法人人工知能学会
雑誌
人工知能学会誌 (ISSN:09128085)
巻号頁・発行日
vol.10, no.3, pp.429-435, 1995-05-01
被引用文献数
2

In this paper, we describe a method to automatically extract Japanese auxiliary phrases from a corpus. The auxiliary phrase is a kind of idiomatic expression corresponding to auxiliary verb or postpositional particle. Typical examples are "にかんして" and "なければならない". Generally it is advantageous to handle the auxiliary phrase as one word. Therefore, building a dictionary, we need bring together auxiliary phrases like standard words. However, it is difficult to pick up auxiliary phrases. Because it is unclear to distinguish them from normal phrases. Thoroughly investigating the difference, it is defined by subjectivity of system developer. Therefore, it needs vast time to select auxiliary phrases, and there must be considerable doubt that phrases collected comprise all necessary phrases, and have uniformity. To overcome this problem, we present this method. The point of our method is to utilize the following heuristics that a auxiliary phrase has : (H1) The auxiliary phrase is consist of HIRAGANA characters. Even if KANJI character is found in it, its length is 1. (H2) Characters in front and behind of the auxiliary phrase are a certain confined characters. (H3) Each word composed the auxiliary phrase are strongly connected. Firstly, we pick up all phrases whose length is N from the corpus, however, the phrase is consist of HIRAGANA characters and KANJI characters whose length are 1. For all N(≥4), we carry out above operation. In view of (H1), all auxiliary phrases must exist in the set of phrases acquired by these operations. Then, using (H2) and (H3), we remove not auxiliary phrases from this set. Last, we remove duplicate phrases by investigating whether there is a longer phrase included the phrase. As the result, we can acquire phrases to aim in this paper. This method has a merit to easily carry out under poor environment. We made experiment on this method with ASAHI newspaper articles for one month (about 9 Mbyte). We report this result, too.
著者
新納 浩幸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.86, pp.29-36, 2001-09-10
被引用文献数
3

自然言語処理では個々の問題を分類問題として定式化し,帰納学習の手法を利用して,その問題を解決するというアプローチが大きな成功をおさめている.しかしこのアプローチには帰納学習で必要とされる訓練データを用意しなければならないという大きな問題がある.この問題に対して,近年,少量のラベル付き訓練データから得られる分類規則の精度を,大量のラベルなし訓練データによって高めてゆくseed 型の学習が散見される.ここではその中心的な手法であるCo-training を語義判別規則に適用することを試みる.ただしCo-training では独立な組の素性集合を設定する必要がある.現実的にはこの独立性の条件が厳しいため,得られる規則の精度が頭打ちになってゆく.本論文ではこの問題を回避するために,追加事例の選択に素性間の共起性を考慮することでCo-training の手法を改良する.実験では3 つの語義選択問題について本手法を適用した.結果,通常のCo-training を適用する以上の精度の向上が見られた.In natural language processing,it is exective to convert problems to classi ?cation problems,and to solve them by an inductive learning method.However,this strategy needs labeled training data which is fairly expensive to obtain.To overcome this problem,some learning methods using unlabeled training data have been proposed.Co-training is representative in such methods.In this paper,we apply the co-training method to a word sense disambiguation problem.However,co-training needs two features which satisfy the conditional independence assumption.This assumption is too rigid.We have no choice but to use incomplete two features,and then the accuracy of learned rules reaches the ceiling.In this paper,we check co-occurrence between two features to avoid such phenomena when we add unlabeled instances to training data.We applied our method to word sense disambiguation problems for three words.Our method improved the precision of the original co-training.
著者
佐々木 稔 新納 浩幸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.109-114, 2007-07-25

ディレクトリ型の検索サービスはあらかじめ Web ページが項目別にまとめられているので、初心者でも簡単に WWW (World Wide Web) 検索をすることができる。このようなサービスを運営する側は Web ディレクトリへのサイト登録や分類、管理といった作業を人手により行っているため、膨大な Web ページを処理することが困難となる。そのため、我々は人手で行っている Web ディレクトリの管理作業を自動化するシステムの構築を目指している。これまで、サイトの内容語を扱わず、ホームページに記述された meta タグの name 属性値である keyword と description をキーワードとして階層のトップレベルで分類を行い、その結果として分類精度が 82% となり、本文を利用した場合の 55% を大幅に上回る分類性能を得ることができた。本稿では、これまでトップレベルで行っていた分類を拡張し、ディレクトリ階層全体を対象として Web サイトを分類する手法について述べる。階層構造全体を対象とすることで、より現実的で、実用的な Web ディレクトリの構築を行うことが可能となる。階層的な分類においても keyword、description 属性値をキーワードとして利用することの有効性を確かめるために、未分類のデータを利用して実験を行った結果、meta タグのみをキーワードとして利用したシステムは平均 62.7% の分類精度を得ることができた。比較として、meta タグを使わずに HTML 文書の本文を利用した場合の分類結果を求めると 42.3% であった。これより、階層的な分類においても HTML 文書の本文を利用するより meta タグのみを利用した方が有効であることが分かった。また、平均精度が 60% を超えていることから、半自動での Web ディレクトリの構築が可能であると考えられる。A web directory is a directory on the World Wide Web. For example, Yahoo! Directory and Dmoz are well known web directories. Some categories have a lot of web site links across an extensive range of topics. So we browse the categories below to find helpful resources and information. The web directories are created and maintained by human volunteers who are experts in particular categories. So many submissions of registering URLs are delayed due to not selecting the most specific category for them. In our research, we construct a system of automatic classification into a web directory which is maintained by human. In former experiments, the keywords and the description value of the meta tag in HTML documents are very efficient for Web site classification and the effects of the common words cause misclassification of Web sites. In this paper, we describe a classification system for hierarchical web directory structure. Using the whole directory hierarchy, we consider that the system enables to construct a practical and useful web directory. To evaluate the efficiency of this system based on the values of meta tag, we make an experiment on classifying web sites into the Dmoz directory using the web site registered in the Yahoo! directory. As the results of these experiments, the average precision using meta tag is about 62.7% and that using text of HTML document is about 42.3%. The precision using meta tag is higher than using text and we find the efficiency of the meta tag in the hierarchical classification as well as the classification to flat categories.
著者
佐々木 稔 新納 浩幸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.145-152, 2003-03-06
被引用文献数
3

本稿では,文書要約の支援を目的としたシソーラスの自動構築を行うために,大規模な単語集合に対するクラスタリング手法の提案を行う.これまでの単語クラスタリングに関する研究は,索引語・文書行列を利用してさまざまな要素間類似度やアルゴリズムを用いてクラスタリングが行われている.この索引語・文書行列を利用した場合,索引語の分布はどのような文書内容で出現するかを統計的に示したもので,文書内における語と語の間にある意味的なつながりはそれほど強くない.そのため,結果として出力されるクラスタにはある話題に共通する単語が集まりやすくなると考えられる.意味的につながりを持つクラスタを構築するために,共起関係を持つ単語の組を抽出し,ある単語に対して意味的につながりやすい単語を統計的に表現し,それをクラスタリングすることで意味的な共通性を持つクラスタの自動構築を目指す.In this paper, we propose a new clustering algorithm for large scale document size to construct the thesaurus automatically in aid of summarization. The existing word-clustering systems use various similarity and clustering algorithm based on the context of the information retrieval. In case of the clustering using term-document matrix, the distribution of the index word represents the frequency of the word appearance in a certain contents of a document. Therefore, semantic relation between these words in the document is not so strong. As a result, the words which appear frequently in the contents tend to be gathered for one cluster. To construct a cluster set in which semantic relation between these words is contained, we show a word clustering using a pair of words with cooccurrence relation automatically. We further show that our clustering is effective for word sense disambiguation in comparison with using term-document matrix.