著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.133-150, 2020-03-15 (Released:2020-06-15)
参考文献数
16

本論文では『分類語彙表増補改訂版データベース』に対する単語親密度推定手法について述べる.分類語彙表に収録されている 96,557 項目に対する評定情報を Yahoo! クラウドソーシングを用いて収集した.1項目あたり最低 16 人(異なり 3,392 人)の研究協力者に,内省に基づいて「知っている」「書く」「読む」「話す」「聞く」の評定情報付与を依頼した.研究協力者の評定情報から単語親密度をベイジアン線形混合モデルにより推定した.また,推定された単語親密度と分類語彙表の語義情報との関連性について調査した.
著者
浅原 正幸 金山 博 宮尾 祐介 田中 貴秋 大村 舞 村脇 有吾 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.1, pp.3-36, 2019-03-15 (Released:2019-06-15)
参考文献数
40
被引用文献数
2 3

Universal Dependencies (UD) は,共通のアノテーション方式で多言語の構文構造コーパスを言語横断的に開発するプロジェクトである. 2018 年 6 月現在,約 60 の言語で 100 以上のコーパスが開発・公開されており,多言語構文解析器の開発,言語横断的な構文モデルの学習,言語間の類型論的比較などさまざまな研究で利用されている. 本稿では UD の日本語適応について述べる.日本語コーパスを開発する際の問題点として品詞情報・格のラベル・句と節の区別について議論する.また,依存構造木では表現が難しい,並列構造の問題についても議論する.最後に現在までに開発した UD 準拠の日本語コーパスの現状を報告する.
著者
浅原 正幸
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
オペレーションズ・リサーチ : 経営の科学 = [O]perations research as a management science [r]esearch (ISSN:00303674)
巻号頁・発行日
vol.52, no.11, pp.689-694, 2007-11-01
参考文献数
14

自然言語処理の分野は系列に対するラベル付与(系列ラベリング)問題として解かれるタスクが多くある.例えば,品詞ラベル付け問題は,入力を単語列とし,各単語に品詞を付与する系列ラベリング問題の1つである.このような背景から,教師あり学隙による系列ラベリング技術が多く提案されてきた.本稿では,自然言語処理の分野でどのように系列ラベリング技術が利用されているかを概観するとともに,近年考案された系列全体において最適化を行う構造マッピング法に基づく系列ラベリング手法を紹介する.
著者
東 藍 浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.67-74, 2006-05-19
被引用文献数
5

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証したThis paper proposes a new method forJapanese morphological analysis with unknown word (i,e out-of vocabularyword)processing The Japanese morphological analysis is based on conditional random fields(CRF)on a word trells.In the word trellis,the analyzer expands not only knownwords(i・ein-vocabularyword)but also substrings in a sentence as word candidates Kudo(Kudo 2004)discussed an issue that maximum entropy Markov model(MEMM)has label as well as length bias problems in known word processing and CRFs have potential to cope with them.We discuss the same issue in unknown word processing.Evaluation experiments on large-scale corpora show the effectiveness and impact on the proposed method.
著者
浅原 正幸 小野 創 宮本 エジソン 正
出版者
日本言語学会
雑誌
言語研究 (ISSN:00243914)
巻号頁・発行日
vol.156, pp.67-96, 2019 (Released:2020-04-14)
参考文献数
65

Kennedy et al.(2003)は,英語・フランス語の新聞社説を呈示サンプルとした母語話者の読み時間データをDundee Eye-Tracking Corpusとして構築し,公開している。一方,日本語で同様なデータは整備されていない。日本語においてはわかち書きの問題があり,心理言語実験においてどのように文を呈示するかがあまり共有されておらず,呈示方法間の実証的な比較が求められている。我々は『現代日本語書き言葉均衡コーパス』(Maekawa et al. 2014)の一部に対して視線走査法と自己ペース読文法を用いた読み時間付与を行った。24人の日本語母語話者を実験協力者とし,2手法に対して,文節単位の半角空白ありと半角空白なしの2種類のデータを収集した。その結果,半角空白ありの方が読み時間が短くなる現象を確認した。また,係り受けアノテーションとの重ね合わせの結果,係り受けの数が多い文節ほど読み時間が短くなる現象を確認した。
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.4, pp.351-365, 2011 (Released:2011-12-28)
参考文献数
20

本稿では係り受け構造情報のタグ付けの一貫性について考える.係り受け構造には,統語的制約により一意に決まる構造と選択選好性によるタグ付け作業者に委ねる構造がある.多くの場合,統語的制約を優先してタグ付けられるが,選択選好性に影響され誤ってタグ付ける例が多々ある.このような事例について誤り傾向の差分を評価するために,ゲームを用いた新しい心理言語実験手法を提案する.埋め込み構造によるガーデンパス文を用いて 13 人の被験者で実験を行ったほか,6 種類の係り受け解析器を用いて解析誤り傾向の比較を行った.さらに最も誤った種類の文に対し,選択選好性がどのように影響したかについて報告する.
著者
浅原 正幸 河原 一哉 大場 寧子 前川 喜久雄
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.299-305, 2018-02-15

国立国語研究所は言語研究に資する258億語規模のウェブコーパス『国語研ウェブコーパス』を構築した.コーパスの構築は,ページ収集・言語解析・保存・検索系の構築の4種類の部分工程からなる.本稿では,『国語研ウェブコーパス』を概説するとともに,その検索系である『梵天』の機能について紹介する.この検索系は100億語規模のテキストコーパスを文字列だけでなく,形態素列・係り受け部分木に基づく問合せが可能である.
著者
浅原 正幸 加藤 祥
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.5, pp.463-499, 2016-12-15 (Released:2017-03-15)
参考文献数
26
被引用文献数
1

文書間類似度は,内容の類似度と表現の類似度の二つの側面を持っている.自動要約や機械翻訳ではシステム出力の内容評価を行うために参照要約(翻訳)との類似度を評価する尺度が提案されている.一方,表現を対照比較するための手段として,形態素(列)を特徴量とする空間上の計量が用いられる.本稿では,さまざまな文書間類似度について,距離・類似度・カーネル・順序尺度・相関係数の観点から,計量間の関係や同値性を論じた.さらに内容の同一性保持を目標として構築したコーパスを用いて,内容の差異と表現の差異それぞれに対する各計量のふるまいを調査し,文書間類似度に基づく自動評価の不安定さを明らかにした.
著者
新納 浩幸 浅原 正幸 古宮 嘉那子 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.705-720, 2017-12-15 (Released:2018-03-15)
参考文献数
13
被引用文献数
8

我々は国語研日本語ウェブコーパスと word2vec を用いて単語の分散表現を構築し,その分散表現のデータを nwjc2vec と名付けて公開している.本稿では nwjc2vec を紹介し,nwjc2vec の品質を評価するために行った2種類の評価実験の結果を報告する.第一の評価実験では,単語間類似度の評価として,単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する.第二の評価実験では,タスクに基づく評価として,nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言語モデルの構築を行う.どちらの評価実験においても,新聞記事7年分の記事データから構築した分散表現を用いた場合の結果と比較することで,nwjc2vec が高品質であることを示す.
著者
吉川 克正 浅原 正幸 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.251-271, 2013-06-14 (Released:2013-09-14)
参考文献数
23
被引用文献数
4 6

本稿ではマルコフロジックを利用した日本語述語項構造解析について述べる.日本語述語項構造解析に関する従来研究の多くは,格毎に独立した解析器を用意し,他の述語項関係との依存関係を無視したまま解析を行っていた.これに対し,本研究では同一文内にある全ての述語項候補を同時に考慮して解析する手法を提案する.この手法は複数の述語項関係の間にある依存関係を考慮した上で,文内における全ての述語項関係の候補から,最適な状態を見つけ出すことができる.さらに,本研究では,述語の項として妥当でないものを削除するための新たな論理的制約を考案し,ゼロ照応も含めて正しい項を効果的に見つけ出すことができるように工夫した.NAIST テキストコーパスにおける実験で,本研究の提案手法は,大規模データを利用せずに,従来手法と同等の結果を達成した.
著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.137, pp.39-46, 2000-06-01
参考文献数
9
被引用文献数
1

我々は日本語形態素解析器『茶筌』のための学習ツールを開発している。現在『茶筌』では階層構造をもった品詞体系を採用し、タグの種類は約500にもなっている。このため、通常の品詞tri-gramモデルの作成は困難で、品詞bi-gramモデルでも適当な量のタグづけコーパスを得ることは難しい。通常、このような細かいタグを取り扱うために、複数のタグを同値類へとグループ化することによってタグの数を減らすことが行われる。我々はこれを拡張し、マルコフモデルの条件付き確率計算について各件でタグの同値類を変更するようにした。さらに、例外的な現象によるデータスパースネスに対処するため、単語レベルまで品詞として見るモデルと、選択的tri-gramモデルを導入した。また、単語レベルまで品詞として見る場合には、単語-品詞間スムージングを導入した。『茶筌』にこれらのモデルを適用し、各拡張の評価を行った。
著者
小西 光 浅原 正幸 前川 喜久雄
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.201-221, 2013-06-14 (Released:2013-09-14)
参考文献数
18
被引用文献数
2 1

時間情報表現は,テキスト中に記述される事象の生起時刻を推定するための重要な手がかりである.時間情報表現を含む数値表現の抽出は,固有表現抽出の部分問題として解かれてきた.英語においては,評価型国際会議が開かれ,時間情報表現のテキストからの切り出しだけではなく,曖昧性解消・正規化のための様々な手法が提案されている.さらに,時間情報と事象とを関連づけるアノテーション(タグづけ)基準 TimeML の定義や新聞記事にアノテーションを行ったコーパス TimeBank の整備が進んでいる.一方,日本語においては時間情報処理に必要なアノテーション基準の定義及びコーパスの整備が進んでいない.本稿では,TimeML の時間情報表現を表す 〈TIMEX3〉 タグに基づいた時間情報のアノテーション基準を日本語向けに再定義し,『現代日本語書き言葉均衡コーパス』(BCCWJ) コアデータの一部にアノテーションを行った.問題点を検討し,今後事象の生起時刻を推定するために必要な課題を考察する.
著者
加藤 祥 菊地 礼 浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.4, pp.853-887, 2020-12-15 (Released:2021-03-15)
参考文献数
41

日本語の比喩表現の実態把握を目的として,『現代日本語書き言葉均衡コーパス』に基づく指標比喩データベースを構築した.『比喩表現の理論と分類』に掲載されている 359 種類の比喩指標要素を手掛かりとし,『分類語彙表』に基づいて類義用例を確認しながら指標比喩表現候補を展開し,コアデータ6レジスタ(Yahoo! 知恵袋・白書・Yahoo! ブログ・書籍・雑誌・新聞)1,290,060 語から人手で 822 件抽出した.抽出した比喩用例には,喩辞・被喩辞の情報と,その分類語彙表番号を付与したほか,擬人化・擬物化・擬生化・具象化などの種別情報も付与した.さらに提喩・換喩・文脈比喩・慣用表現などの情報も付与した.上記作業は言語学者によったが,非専門家が比喩表現をどのように捉えるかを評価するために,比喩性・新奇性・わかりやすさ・擬人化・具体化(具象化)の 5 つの観点について,1事例あたり 22–77 人分(平均 33 人分)の評定値を付与した.レジスタ毎の相対度数や評定値の分布により,現代日本語の指標比喩表現の使用傾向を確認した.
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.3, pp.635-652, 2019-09-15 (Released:2019-12-15)
参考文献数
30

ヒトの文処理のモデル化として Hale によりサプライザルが提案されている.サプライザルは文処理の負荷に対する情報量基準に基づいた指標で,当該単語の文脈中の負の対数確率が文処理の困難さをモデル化するとしている.日本語において眼球運動測定を用いて文処理の負荷をモデル化する際に,統語における基本単位である文節単位の読み時間を集計する.一方,単語の文脈中の生起確率は形態素や単語といった単位で評価し,この齟齬が直接的なサプライザルのモデル化を難しくしていた.本論文では,この問題を解決するために単語埋め込みを用いる.skip-gram の単語埋め込みの加法構成性に基づき,文節構成語のベクトルから文節のベクトルを構成し,隣接文節間のベクトルのコサイン類似度を用いて,文脈中の隣接尤度をモデル化できることを確認した.さらに,skip-gram の単語埋め込みに基づいて構成した文節のベクトルのノルムが,日本語の読み時間のモデル化に寄与することを発見した.
著者
前川 喜久雄 浅原 正幸 小木曽 智信 小磯 花絵 木部 暢子 迫田 久美子 Kikuo MAEKAWA Masayuki ASAHARA Toshinobu OGISO Hanae KOISO Nobuko KIBE Kumiko SAKODA
出版者
国立国語研究所
雑誌
言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop
巻号頁・発行日
no.1, pp.170-179, 2017

会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター国立国語研究所コーパス開発センターでは,従来個別に開発・提供されてきた各種日本語コーパスの検索環境を統合し,複数のコーパスを横断的に検索可能な包括的検索環境を整備する計画を進めている。既に公開済みのコーパス群だけでなく,第3期中期計画期間に種々の研究プロジェクトで開発ないし拡張を予定しているコーパス群の一部も検索対象に含める。本発表では,検索対象となる予定のコーパスを紹介した後に包括的検索環境の実現に向けてどのような問題があるかを検討し,解決の方向性を探る。
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.301-327, 2019-06-15 (Released:2019-09-15)
参考文献数
32

本論文では,リーダビリティ評価を目的として,日本語テキストの読み時間と節境界分類の対照分析を行う.日本語母語話者の読み時間データ BCCWJ-EyeTrack と節境界情報アノテーションを『現代日本語書き言葉均衡コーパス』上で重ね合わせ,ベイジアン線形混合モデルを用いて節末で,どのように読み時間が変わるかについて検討した.結果,英語などの先行研究で言われている節末で読み時間が長くなるという wrap-up effect とは反対の結果が得られた.他の結果として,節間の述語項関係が読み時間の短縮に寄与することがわかった.
著者
東 藍 浅原 正幸 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.53(2006-NL-173), pp.67-74, 2006-05-19

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証した
著者
浅原 正幸 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.5, pp.1442-1450, 2004-05-15

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組合せによる.形態素解析出力結果をそのままチャンカの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn 次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカにより決定的に固有表現となる語の語境界を推定する.CRL 固有表現データを用いて評価実験(交差検定5-fold )を行った結果,F 値0.87 という高精度の結果が得られた.