著者
田中 牧郎 山元 啓史
出版者
日本語学会
雑誌
日本語の研究 (ISSN:13495119)
巻号頁・発行日
vol.10, no.1, pp.16-31, 2014-01-01

『今昔物語集』と『宇治拾遺物語』の同文説話6話に対して、形態素解析を施し、パラレルコーパスを作成して、『今昔物語集』から『宇治拾遺物語』、『宇治拾遺物語』から『今昔物語集』の双方向で語の対応付けを行った。相互に対応付けられたデータから、異なる語が対応する比率の高い語彙を抽出することで、硬い文体的価値を持つ語彙と、軟らかい文体的価値を持つ語彙とが特定された。抽出された双方の語彙について、同文説話全体(83話)の語の対応状況を分析したところ、同語が対応するか異語が対応するかの違いが、語の意味・用法によって決まる傾向があることや、その傾向が、文体的価値の硬軟の段階差に応じて層をなすように変わっていくことが解明できた。また、異語対応の場合に、他方の説話集で対応する語が特定の語に定まる場合があり、これは文体的な対立関係にある類義語と考えられた。
著者
山元 啓史
出版者
東京工業大学
雑誌
基盤研究(C)
巻号頁・発行日
2010-04-01

代表者は2007年に和歌用の形態素解析ツールを開発した。その解析対象は八代集に限定されていた。本研究では八代集の解析済みデータを用い、連接規則をコンピュータ処理で獲得し、それにより二十一代集の解析を実行し、品詞タグづけを行うことを目的とする。KyTea(京都大学KyTeaプロジェクト)とそれに付属する点推定連接規則学習システムにより、ノートブック程度のマシンであっても数十秒で学習モデルの生成ができた。これを用いて、二十一代集の単位切りを行ったところ、ほぼ96%の高い割合で解析ができた。未知語の入力と未知語周辺の連接規則の学習はまだ必要であるが、二十一代集の単位分割を行う辞書は完成した。
著者
虎尾 憲史 山元 啓史
出版者
筑波大学留学生センター
雑誌
筑波大学留学生センタ-日本語教育論集 (ISSN:13481363)
巻号頁・発行日
no.15, pp.47-61, 2000

虎尾・山元(1999 )での分析に続き,データベース化した日本語教科書の初級15 種22 冊,中級15 種16 冊の本文部分に出現する漢字の分析を行った。今回は各教科書の含有異漢字について,15 種全てに共出現するものから1 種のみに出現するものまでの,それぞれの個数と各教科書内での割合の分析結果に現われた,各教科書の特性の異同による大まかなグルーピングを試みた。そして,各教科書の日本語能力試験対象漢字の含有率も分析し,3 級以下を初級漢字,2 級以上を中級漢字とした場合の,それぞれの含有比率の異同によるグルーピングも試みた。その結果,先の大まかなグルーピングとほぼ同様の結果となり,データベース分析による各教科書の含有異漢字の種類や重複,個数,出現の様子等の情報に基づく,教科書分類の可能性と各教科書の位置づけを明らかにすることができた。Following our analysis in Torao/ Yamamoto (1999 ), we have made an analysis of the kanji in the database of the main text part of 15 kinds of 22 basic Japanese language textbooks and 16 intermediate ones. we analyzed the kanji of each textbook and calculated the number and percentage of kanji, ranging from those appearing in only one kind of textbook to those appearing in all 15 kinds of textboks. These data also premit a rough grouping of textbooks. We have also analyzed the degree to which each textbook contains the kanji tested in the Japanese Language Proficiency Test (JLPT) . We first devided the JLPT kanji into level 4 and 3 kanji (basic level kanji) and level 2 and 1 kanji (intermediate to advanced level kanji) . We then regrouped the textbooks according to the ratio of these two levels of JLPT kani. The grouping of textbooks was more or less same using both methods, and shows the possibility of grouping and positioning textbooks based on their kanji as derived from the database analysis.
著者
虎尾 憲史 山元 啓史
出版者
日本語教育方法研究会
雑誌
日本語教育方法研究会誌 (ISSN:18813968)
巻号頁・発行日
vol.6, no.1, pp.14-15, 1999

For effective language education, analysis of the content, order, and amount of material contained in the teaching materials is very important. Having a detailed and quantitative grasp of these, and going on to work out an educational sequence that is based on these data is not only vital for the beginning teacher, but also useful for the more experienced one. In our research, we have made a database of textbooks, and are creating a matrix of teaching items by analyzing their content quantitatively by order, quantity, amount, and how items of each level relate to each other. We then attempt to specify where a learner of Japanese stands at present, and what he should be taught next. In the present paper, we take up the basic thinking of our research, and an analysis of the kanji.
著者
高橋 恵利子 畑佐 由紀子 山元 啓史 前川 眞一 畑佐 一味
雑誌
じんもんこん2015論文集
巻号頁・発行日
vol.2015, pp.59-64, 2015-12-12

本研究は日本語学習者の発音の自動評価システムの開発を目的としている.そのための基礎調査と して,中国人日本語学習者の音声データと,それに対する母語話者の一対比較評価データから,課題 文及び評価方法の妥当性について検討した. 評価者の属性に関わらず母語話者の評価はほぼ一致して いたことから,一対比較による評価方法を用いれば,評価者の属性に関わらず,妥当な評価値が得ら れる可能性が指摘できる.今後,さらに評価対象とする音声データを増やして今回の結果を検証する 必要がある.また,一対比較による膨大な評価作業における評価者の負担を軽減するため,一般母語 話者を対象としたクラウドソーシングを採用することの意義と課題について言及する.
著者
高橋 恵利子 畑佐 由紀子 山元 啓史 前川 眞一 畑佐 一味
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-107, no.5, pp.1-4, 2015-08-02

本研究の目的は,外国人日本語学習者の発音能力を簡易に診断するシステムを開発することである.その目的を達成するためにはさまざまな問題があるが,本稿では音声データの収集形式の問題と評価者の問題を取り上げる.音声データの収集方法としては,短文を読み上げ,それを録音する方法 (読み上げ課題) と,同じ短文をあらかじめ録音したものを聞いて発音したものを録音する方法 (リピート課題) の 2 つを検討する.録音の評価者は,全員日本語母語話者 (日本語教師,日本語教育未経験者) とし,これらの条件で,6 名 (母語話者 2 名,ほぼネイティブ水準の発音技能を持つ者 2 名,顕著な外国人訛りを持つ者 2 名) の音声提供者の録音資料を用い,一対比較法による評価実験を行った.実験の結果,データの収集方法については,いずれの方法によっても 0.86 以上の相関係数が得られたが,リピート課題 (0.86 以上) よりも読み上げ課題 (0.92 以上) の方が,若干高かった.これにより,今後のシステム設計計画では,一般の母語話者を評価者とし,あらかじめ音声材料を準備する必要のない読み上げ課題によるデータ収集方式を採用することにした.
著者
山崎 誠 柏野 和佳子 田嶋 毓堂 山元 啓史 内山 清子 砂岡 和子 薛 根洙 韓 有錫
出版者
大学共同利用機関法人人間文化研究機構国立国語研究所
雑誌
基盤研究(C)
巻号頁・発行日
2012-04-01

日本語研究におけるシソーラスのより一層の活用を図るため、人文系日本語研究者の間でもっとも普及している『分類語彙表増補改訂版』に研究に有益な情報を付与する作業を行った。多義語として複数の分類項目に出現している見出し語27171語について、一定の基準に基づいて「代表義」を1つ決定し、その情報を付与した。作業結果は、2015年7月を目指してウェブ上で公開する予定である。これにより、意味解析上の精度が向上し、異なる分析結果の間の適切な比較が可能になることが期待される。また、旧版の分類語彙表との異動の比較を行い、結果の一部を「語彙研究」12号に発表した。
著者
ホドシチェク ボル 山元 啓史
雑誌
じんもんこん2013論文集
巻号頁・発行日
vol.2013, no.4, pp.21-26, 2013-12-05

本研究は、現代日本語コーパスにおける中間語彙層の役割に焦点を当てその応用について示すものである。ここでいう中間語彙層とは、個々の単語の情報量を計算し、その情報量の序列において中間に位置する語彙である。一般的には、序列として使用頻度が用いられているが、本研究では各単語が持つ情報量の分布を用いる。頻度の高い語は機能語が多く、文の構造や語の係り受けを明示するが、内容としての情報量は少ない。一方、頻度の低い語は、トピック・内容をよく表した語か、珍しい語、固有名詞などである。頻度の低い語を利用すると領域毎に特化された情報が顕著になるあまり、共有語彙が少なくなり、文書間の比較や時系列の変動が分析しにくくなる。中間語彙は上記の2つの問題点について相互比較、時系列比較を可能にする語彙集合である。本稿ではその抽出の手法と応用例について述べる。
著者
仁科 喜久子 室田 眞男 山元 啓史 村岡 貴子
出版者
東京工業大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2010

外国人留学生が日本の大学で論文など作成するに当たりWeb上で利用できる文書作成支援システム「なつめ」の完成を最終目標とし、日本語教育、言語学、自然言語処理、教育工学の専門家による共同研究により以下の成果を得た。(1)理工系留学生の作文支援のために必要な日本語の言語構造の特色を分析し、特に共起検索をシステムに導入した。(2)学習者誤用分析のための学習者コーパスを構築し、「なたね」として公表した。(3)誤用コーパスを利用し、自動添削システム「ナツメグ」の機能を追加した。