著者
柏野 和佳子 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1133-1161, 2014-12-15 (Released:2015-03-15)
参考文献数
33

従来の紙版の国語辞典はコンパクトにまとめることが優先され,用例の記述は厳選され,必要最小限にとどめられていた.しかし,電子化編集が容易になり,電子化された国語辞典データや種々のコーパスが活用できるようになった今,豊富な用例を増補した電子化版国語辞典の構築が可能になった.そうした電子化版国語辞典は,人にも計算機にも有用性の高いものと期待される.著者らはその用例記述の際に見出し語のもつ文体的特徴を明記する方法を提案し,より利用価値の高い,電子化版の「コーパスベース国語辞典」の構築を目指している.文体的特徴の記述は,語の理解を助け,文章作成時にはその語を用いる判断の指標になり得るため,作文指導や日本語教育,日本語生成処理といった観点からの期待も高い.本論文では,古さを帯びながらも現代語として用いられる「古風な語」を取り上げる.これに注目する理由は,三点ある.一点目は,現代語の中で用いられる「古風な語」は少なくないにも関わらず,「古語」にまぎれ辞書記述に取り上げ損なってしまう危険性のあるものであること.二点目は,その「古風な語」には,文語の活用形をもつなど,その文法的な扱いに注意の必要なものがあること.三点目は,「古さ」という文体的特徴を的確かつ,効果的に用いることができるよう,十分な用法説明が必要な語であるということ,である.そこで,本論文では,これら三点に留意して「古風な語」の用法をその使用実態に即して分析し,その辞書記述を提案する.はじめに,現行国語辞典5種における「古風な語」の扱いを概観する.次に,「古風な語」の使用実態を『現代日本語書き言葉均衡コーパス』に収録される図書館サブコーパスを用いて分析し,「古風な語」の使用を,(1) 古典の引用,(2) 明治期から戦前まで,(3) 時代・歴史小説,(4) 現代文脈,に4分類する.そして,その 4 分類に基づく「コーパスベース国語辞典」の辞書記述方法を提案する.このような辞書記述は例えば,作文指導や日本語教育,日本語生成処理の際の語選択の参考になるものと期待される.
著者
石田 哲也 関 洋平 欅 惇志 柏野 和佳子 神門 典子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.586-631, 2023 (Released:2023-06-15)
参考文献数
34
被引用文献数
1

行政の政策や接客業のサービスの質を向上させるためには,市民によるフィードバックの収集/分析と同時に都市の特徴を明らかにするための他の都市との比較が重要となる.しかし,都市によって政策やサービスは異なり,市民の抱える意見も異なるため,機械学習により複数の都市に適応した市民意見の分析を実現することは難しい.本論文では,都市を横断して市民意見を抽出する手法を提案する.実験では,横浜市民,札幌市民,仙台市民のつぶやきを対象として,特定の都市のつぶやきでファインチューニングしたモデルを,評価対象の都市の比較的少量のつぶやきを用いて再度ファインチューニングする手法の有効性を確認した.この際,評価対象の都市の訓練データは,異なる都市のつぶやきで訓練したモデルによる予測の確信度が高いものを選定することが有効であることを明らかにした.
著者
柏野 和佳子 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1133-1161, 2014

従来の紙版の国語辞典はコンパクトにまとめることが優先され,用例の記述は厳選され,必要最小限にとどめられていた.しかし,電子化編集が容易になり,電子化された国語辞典データや種々のコーパスが活用できるようになった今,豊富な用例を増補した電子化版国語辞典の構築が可能になった.そうした電子化版国語辞典は,人にも計算機にも有用性の高いものと期待される.著者らはその用例記述の際に見出し語のもつ文体的特徴を明記する方法を提案し,より利用価値の高い,電子化版の「コーパスベース国語辞典」の構築を目指している.文体的特徴の記述は,語の理解を助け,文章作成時にはその語を用いる判断の指標になり得るため,作文指導や日本語教育,日本語生成処理といった観点からの期待も高い.本論文では,古さを帯びながらも現代語として用いられる「古風な語」を取り上げる.これに注目する理由は,三点ある.一点目は,現代語の中で用いられる「古風な語」は少なくないにも関わらず,「古語」にまぎれ辞書記述に取り上げ損なってしまう危険性のあるものであること.二点目は,その「古風な語」には,文語の活用形をもつなど,その文法的な扱いに注意の必要なものがあること.三点目は,「古さ」という文体的特徴を的確かつ,効果的に用いることができるよう,十分な用法説明が必要な語であるということ,である.そこで,本論文では,これら三点に留意して「古風な語」の用法をその使用実態に即して分析し,その辞書記述を提案する.はじめに,現行国語辞典5種における「古風な語」の扱いを概観する.次に,「古風な語」の使用実態を『現代日本語書き言葉均衡コーパス』に収録される図書館サブコーパスを用いて分析し,「古風な語」の使用を,(1) 古典の引用,(2) 明治期から戦前まで,(3) 時代・歴史小説,(4) 現代文脈,に4分類する.そして,その 4 分類に基づく「コーパスベース国語辞典」の辞書記述方法を提案する.このような辞書記述は例えば,作文指導や日本語教育,日本語生成処理の際の語選択の参考になるものと期待される.
著者
加藤 祥 柏野 和佳子 立花 幸子 丸山 岳彦
出版者
国立国語研究所
雑誌
国立国語研究所論集 = NINJAL research papers (ISSN:2186134X)
巻号頁・発行日
no.8, pp.85-108, 2014-11

国立国語研究所 コーパス開発センター プロジェクト研究員国立国語研究所 言語資源研究系国立国語研究所 コーパス開発センター 技術補佐員国立国語研究所 言語資源研究系書籍テキストに見られる「語りかける」という文体の特徴を報告する。調査対象には,『現代日本語書き言葉均衡コーパス』(BCCWJ)に収録されている図書館サブコーパスを使用した。コーパスを用いた文体分析を行うにあたっては,語や文脈的な語の結びつきなどの頻度情報のほか,コーパスに付与された書誌情報やアノテーターによる作業コメントなどを用いた。「語りかける」という文体は,エッセイやブログなどのくだけたテキストにのみ出現しやすく,直接的に読み手へ呼びかけや問いかけを行うなどの表現を有すると考えられてきた。しかし,書籍においては,いわゆるハウツー本をはじめとするような教示的な態度を示すテキストに出現しやすい傾向があり,必ずしも直感的に「語りかける」ととらえられる表現が多く含まれるばかりではないことがわかった。本稿は,テキストが「語りかける」と読み手が判断した際に,文脈に依存した表現や,テキストに向かう読み手の前提的態度などが影響していたことを示す。
著者
柏野 和佳子 木田 真理 丸山 直子 佐渡島 紗織
出版者
大学共同利用機関法人人間文化研究機構国立国語研究所
雑誌
基盤研究(C)
巻号頁・発行日
2014-04-01

「書き言葉的」な語で記述すべき学術的文章(レポート,論文等)に「話し言葉的」な語が混じるという問題を解決するために,「書き言葉的」「話し言葉的」といった注釈のある語を作文技術に関する文献等から1,900語抽出した。これらには接続表現・副詞が多く,それに文末表現が続く。そのうち5件以上の異なる文献で言及のあった154語を対象に,学術的文章への使用可否に関して,品詞・意味別,主観的判断による使用の目安別(a:避けるべき,b:避けた方が望ましい,c:使用に注意が必要,d:使用可)に分類した。
著者
柏野 和佳子 山口 昌也 桐生 りか 田中 牧郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.4, pp.97-116, 2005-08-26 (Released:2011-03-01)
参考文献数
11

本研究は, 大規模な経年調査による語彙調査を行い, 外来語の使用状況を定量的に明らかにするものである.語の使用状況をとらえるために使用度数を調査する語彙調査はたいへん有効である.これまでに各種の語彙調査が行われてきたが, 多くは調査時の使用状況の把握を目的にしていたため, 対象年を1年以内に限定するものがほとんどであった.しかしながら, 語の使用状況の把握には, 時間的推移という視点もまた重要である.電子テキスト化された大量の各種の新聞記事データベースが研究に利用できるようになって以来, これを用いて時間的推移を大規模に分析する研究が行われている.ただし, 文字や語彙の全体的な変動を分析したものであり, 個々の語の使用推移に着目して各語の使用状況をとらえようとする分析はまだなかった.そこで, 我々は, 外来語を対象に, 新聞記事データベースを用いて, 語の使用推移, すなわち出現率の推移に着目して語の使用状況をとらえる研究を行った.対象語には, 国立国語研究所「外来語」委員会が第1回と第2回の言い換え提案の対象に選定し, その使用状況の調査が求められていた外来語, 109語を用いた.
著者
山崎 誠 柏野 和佳子 田嶋 毓堂 山元 啓史 内山 清子 砂岡 和子 薛 根洙 韓 有錫
出版者
大学共同利用機関法人人間文化研究機構国立国語研究所
雑誌
基盤研究(C)
巻号頁・発行日
2012-04-01

日本語研究におけるシソーラスのより一層の活用を図るため、人文系日本語研究者の間でもっとも普及している『分類語彙表増補改訂版』に研究に有益な情報を付与する作業を行った。多義語として複数の分類項目に出現している見出し語27171語について、一定の基準に基づいて「代表義」を1つ決定し、その情報を付与した。作業結果は、2015年7月を目指してウェブ上で公開する予定である。これにより、意味解析上の精度が向上し、異なる分析結果の間の適切な比較が可能になることが期待される。また、旧版の分類語彙表との異動の比較を行い、結果の一部を「語彙研究」12号に発表した。
著者
柏野 和佳子 丸山 直子 木田 真理
出版者
大学共同利用機関法人人間文化研究機構国立国語研究所
雑誌
基盤研究(C)
巻号頁・発行日
2011

本研究は,その重要性にも関わらず,従来の国語辞典において記述が不十分だった位相情報を取り上げる。はじめに,国語辞典・英語辞典に注記されている位相情報を調査した。次に,位相情報のうち,「古風な語」に着目し,各種国語辞典の記述の比較調査,『現代日本語書き言葉均衡コーパス』における使用実態の調査と用例分類,辞書記述方法の作成を行った。また,日本語学習者や,母語話者である大学生が作文において誤りやすい位相情報の調査・分析を行った。話し言葉的な語がレポート類の作成時に誤って用いてしまう例を抽出した。そして,誤用を訂正する情報がコーパス分析から得られる実例を示した。
著者
柏野 和佳子 中野 洋 石井 正彦
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.9, no.4, pp.12-28,49, 2000
参考文献数
22

日本語の代表的シソーラスである国立国語研究所『分類語彙表』について, 情報処理研究とターミノロジーの観点から, その特徴を論じる。はじめに, 『分類語彙表』の体系について解説と分析とを行い, 『分類語彙表』を情報処理に利用する場合の利点を明らかにする(柏野・中野)。次いで, ターミノロジーの立場から, 『分類語彙表』における専門語の収載状況を調査し, 専門語を含むシソーラスとしての利用可能性を検討するための基礎的な資料を提示する(石井)。
著者
柏野 和佳子
出版者
国立国語研究所
雑誌
国語研プロジェクトレビュー (ISSN:21850119)
巻号頁・発行日
vol.4, no.1, pp.43-53, 2013-06

文体研究などへのコーパスの有効活用を図るため,コーパスの書籍サンプルを文体によって特徴づけることを目的に,書籍サンプルの分類指標の設計と付与を行った。対象はBCCWJ図書館サブコーパス収録の全10,551サンプルである。テキスト構造が単純(例:章節構造)なもの(全体の84%)については,内容・表現の文体的特徴により,専門度,客観度,硬度,くだけ度,および語りかけ性度,という5観点による分類指標を定め,主観的評定によって評価値を付与した。また,テキスト構造・紙面形式などの点で上記分類になじまないもの(全体の16%)を見出し,その特徴を表す別の指標を設定した。これらを通じて,図書館サブコーパスに収録される全サンプルの多種多様な形式の類型ごとの分布や,各類型のNDC ごとの頻度が明らかになった。