著者
小田 悠介 札場 寛之 ニュービッグ グラム サクティ サクリアニ 戸田 智基 中村 哲
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-219, no.12, pp.1-9, 2014-12-09

プログラミング初学者にとって,与えられたソースコードがどのような処理内容なのかを把握するのは容易ではない.そこでソースコード読解支援のために,与えられたソースコードから処理内容を示すコメントを自動的に生成し,ソースコードと共に提示することで読解を促すシステムが考えられる.本研究ではコメント生成のために Tree-to-String 統計翻訳の枠組みを使用し,プログラミング言語の構文木とコメントに対して翻訳器を学習することで,ソースコードから統計的にコメントを生成するシステムを提案する.
著者
内海 慶 塚原 裕史 持橋 大地
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2015, no.3, pp.1-8, 2015-01-12

本論文では,教師なし学習による品詞を含めた形態素解析手法を提案する.従来の教師なし形態素解析手法では分かち書きのみを対象としており,品詞の推定は扱われてこなかった.本稿では,品詞遷移確率と単語の生起確率の事前分布に階層 Pitman-Yor 過程を用いた隠れセミマルコフモデルに基づく形態素解析手法を提案し,分かち書きとその潜在的な品詞を同時に学習する.これにより,単語分割自体の精度も向上することを日本語,中国語,およびタイ語での実験により確認した.
著者
舟木 類佳 黒田 久泰
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.8, pp.1-6, 2014-01-30

コンピューター関連書籍を学習する者にとって書籍がやさしいか,難しいかといった指標は重要である.そこで本研究では難易度による書籍の推薦システムの開発を行った.難易度の比較は類似度が高い書籍間で行われると考え,本研究ではまず,潜在的ディリクレ配分法及びコサイン類似度によって目次及び書名の類似度を求めた.その後,予め難易度付与を行った一部の書籍に対して特徴量を定義し Support Vector Machine により難易度を予測した.この予測値を用いて難易度を推測し,類似度が高い書籍同士の難易度比較を行った.そして,Ruby on Rails を用いて書籍の検索アプリケーションを開発した.Indicator whether a book is difficult or easy is important for the people who learn IT books. Therefore, in this research, we developed book recommendation system by book difficulty. First, considering difficulty is compared between similar books and one another, we evaluated similarity of list of contents and book title by Latent Dirichlet Allocation and cosine similarity. Afterward, we evaluated predicated value by Support Vector Machine with some books we added difficulty in advance. With this predicated value, we calculated difficulty and compared difficulty in similar books with one another. In addition, we developed book search application with Ruby on Rails.
著者
林部 祐太 小町 守 松本 裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.10, pp.1-8, 2011-05-09

文脈情報と格構造の類似度を用いた日本語文間述語項構造解析手法を提案する.センタリング理論に基づく局所文脈情報と述語と項候補の共起頻度といった意味的情報という大まかには2つの情報を用いて従来の文間述語項構造解析は行われてきた.ところが,いずれの手法を用いても,「Xを逮捕した」という文をもとに「自首した」のガ格項がXであると判定することはできなかった.そこで本論文では,格構造の類似度と述語項構造解析の履歴を用いることで,文章全体の文脈情報(大域文脈情報)から文間述語項構造解析を行うことを提案する.We improve Japanese inter-sentential predicate argument structure analysis with contextual information and similarity between case structures. Two types of clues have been often used in previous work. One is local contextual information based on centering theory, and the other is semantic information such as co-occurrences between a predicate and an argument candidate. However, those approaches fail to identify the nominative argument in the sentence "He turned himself in to police", even if the document has a sentence like "The police arrested him." Thus, we propose a new method using global contextual information and similarity between case structures in order to exploit global contextual information over a document.
著者
井手 厚 東 藍 松本 裕治
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.7, pp.1-6, 2010-05-20

Web 上の文章には,意図的に誤変換された漢字などを含む,多くの表記ゆれ表現が存在しており,Web フィルタリングを行う上では表記ゆれに対応したシステムを構築することが有効である.本論文では表記ゆれ表現を同定する方法として,KAKASI による漢字かな変換機能と MeCab の分かち書き機能という 2 つの技術を利用した手法について提案する.意図的に誤変換された表記を抽出するために,KAKASI を用いた読み候補の作成を行い,その読み候補が妥当かどうかについての判断を MeCab を利用して行う.本手法の効果を実験によって確認した.Web documents tend to include a number of spelling variations. Especially, in Japanese pages, some variations are intentionally used to hide improper words or expressions. This paper proposes to cope with this problem in two steps: expansion of possible pronunciation by KAKASI and morphological analysis by MeCab. Alter an exhaustive expansion of pronunciation of Kanji characters by KAKASI, and matching with the dictionary of improper expressions, Japanese morphological analyzer MeCab analyses the original sentence assuming the matched expressions existed in its system dictionary. We verify the effectiveness of our idea through experiments using sentences extracted from a real BBS.
著者
宮崎 太郎 加藤 直人 金子 浩之 井上 誠喜 梅田 修一 清水 俊宏 比留間 伸行 長嶋 祐二
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-207, no.7, pp.1-6, 2012-07-19

本稿では,固有名詞を手話に自動翻訳する手法について述べる.我々が翻訳の対象としているニュースや気象情報には,地名や人名などの固有名詞が頻出するが,その手話への自動翻訳の研究はこれまで行われてこなかった.固有名詞の翻訳は従来,外国語の場合ではその読みに基づいて変換するtransliterationとして研究されてきた.しかしながら,手話では固有名詞の翻訳は読みに基づくことは少なく,「漢字手話」が使われることが多い.本稿では,「漢字手話」に基づいて日本語の地名や人名を手話に変換する手法について述べる.また,提案手法を用いた主観評価実験を行い,提案手法の有効性を確認した.
著者
岡崎直観 乾健太郎
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.8, pp.1-5, 2014-06-26

単語の意味ベクトルを大規模コーパスから学習するためのツールとして,Mikolov らの手法 [14] を実装した word2vec が注目を浴びている.本論文は,word2vec を複数のプロセッサで並列で動作させた時に学習速度が低下する原因を説明し,これを改善するアルゴリズムを提案する.提案手法は学習で得られる単語ベクトルの質を落とすこと無く,複数のプロセッサを効率よく利用できることを実験的に示す.
著者
岸本 貴之 高橋 治久 堀田 一弘
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.27-32, 2009-01-15

本稿では,日本語形態素解析の精度を,条件付確率場 (CRF) による係り受け解析を用いて,改善する方法を提案する.従来の確率モデルによる形態素解析は,一般的に,1 個または 2 個前までの単語の品詞情報の相関関係によって,最適な候補を絞り込むというやり方を行っていた.しかし,それだけでは解析できない事例が存在しており,もっと広い範囲での単語の相関や,構文関係などを考慮に入れたモデルを考える必要がある.本稿では,形態素解析結果の候補に対し,係り受け解析を行い,その尤度を最大にする形態素解析結果により係り受け解析を選択する方法が,精度改善に有効であることを,従来法との比較実験により示す.This paper presents a method of improving Japanese morphological analysis via Conditional Random Fields (CRFs) using the dependency analysis. Many existing probabilistic methods select a correct tokens by the correlation analysis between adjoining words and their part-of-speech. However, some instances cannot be correctly analyzed only with the correlation between adjoining words. In order to improve the accuracy, it would be needed to take into account correlation of words in wider range as well as syntactical features. We show that maximizing the likelihood of the dependency analysis for candidates of correct tokens improves the accuracy by computer experiments.
著者
山本 悠二 増山 繁
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.7, pp.1-8, 2010-09-09

日本語係り受け解析の手法は大きく分けて,1. 決定的な解析方法と,2. 係り先候補の確信度に基づく解析方法がある.前者は係り先候補間の比較が行えないことから,特に長距離依存の係り先を同定するときに誤りを生じやすいという傾向がある.また,後者は係り先候補集合のすべての要素を探索するため,計算時間の点で問題がある.提案手法では,係り先候補の確信度に基づく解析方法での解析時間を減らすために,決定的な解析が容易な文節について先に係り先を定めた後に,相対的な比較による係り先の同定する方法を示す.京都テキストコーパス 4.0 を用いて提案手法を評価したところ,係り先候補の確信度に基づく解析方法の 1 つである相対モデルと比較してほぼ同等の解析性能を持ち,かつ,実行時間が 2.4 倍程度高速であることが確認された.Japanese dependency parsers fall into two main methods, 1) deterministic parsing and 2) parsing based on dependency certainties among modifee candidates. The former methods tend to make errors especially for identifying long-distance dependencies because these methods do not opt the candidate by comparing candidates. On the other hand, the latter methods have difficulty with their parsing speed due to searching the most preferable candidate from all modifee candidates. The proposed method identifies easily-analyzable dependencies by deterministic parsing and identifies the rest dependencies by parsing based on dependency certainties among modifee candidates later. Experiments using the Kyoto Text Corpus show that the proposed method runs 2.4 times faster than the relative-model parser while the dependency accuracy of the proposed method is nearly comparable with the relative-model's.
著者
松本 裕治 浅原 正幸 岩立 将和 森田 敏生
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.18, pp.1-6, 2010-11-11
被引用文献数
1

科研費領域研究研究 「日本語コーパス」 の一環として開発してきたコーパス管理ツール 「茶器」 の機能と現状について報告する.茶器は,形態素解析 (品詞情報),係り受け解析のアノテーション (注釈) が付与されたコーパスを格納し,様々な検索,検索結果や統計情報の表示,注釈誤りの修正などの機能をもつツールであり,注釈付きコーパスの格納,検索,作成,修正のための環境を提供する.主な機能は,文字列,形態素列,文節係り受け構造などを指定したコーパスの検索と,検索結果の KWIC 表示と係り受け木の表示,種々の統計情報の表示,注釈付けエラーの修正などである.現在は,茶筌/ MeCab による形態素解析,南瓜による係り受け解析結果をデータベースに取り込む機能を提供するが,特に言語には依存せず,任意の言語の品詞/依存構造注釈付きコーパスを扱うことができる.This paper introduces a annotated corpus management system ChaKi that has been developed under the auspices of the Japanese Corpus Project (Grantin-Aid for Scientific Research in Priority Areas). The system handles morphologican and dependency structure annotated corpora and facilitates various functions such as storing, retrieving, creating and error-correcting annotated corpora. String, word and dependency structure based corpus retrievals are possible, and the results are shown as KWIC format or as dependency trees. While the current system transfers corpora with the ChaSen/MeCab or CaboCha output format into databases, it is language independent and can be applied flexibly to any POS/dependency structure annotated corpora.
著者
熊澤 侑美 後藤 智範
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.16, pp.1-7, 2014-06-26

研究開発の活性化に伴って,新しい概念・モデル・理論を表わす新しい用語が出現する.外国語由来の語は,すぐには漢字標記の訳語が現れないため,カタカナ,場合によってはアルファベット表記がそのまま日本語の文書で使用される.近年,この傾向は非常に顕著であり,結果として複数の字種で表記される用語が著しく増加する傾向にある。本研究は NL-214 での報告内容を引き継ぎ,特許抄録に出現した多字種複合語を対象に,字種の観点から,字種並びの特性を明らかにすることを意図するものである.本報告により,字種変化パターンと用語数、先頭字種毎のパターンと用語について顕著な特性があることを明らかにした.さらに,多字種語の構成単語と字種単位との関係についても考察した.Lots of Compound terms used in Japanese technical literatures are written with multi character types. A lot of these terms are consisted of 2 from 5 single words which are expressed with using kanji, katakana, and also alphabets respectively. These terms are increasing as new ideas appear in science, or new technologies are invented in R&D. Our research intends to analyze to the sequence of multi character types of compound terms appeared in Japanese patent documents. Specifically, about 12 thousands compound terms extracted from patent abstracts were analyzed from character type sequence of view. It was clear in this research that some specific character type sequence patterns appear many kinds of compound terms. Furthermore, the relation between each component word and character string with single character type in a compound term were considered.
著者
粟村誉 荒牧英治 河原大輔 柴田知秀 黒橋禎夫
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.14, pp.1-8, 2014-06-26

近年,膨大な量の文書が Web 上に溢れるようになるにつれ,それらから有用な情報を抽出する技術が重要になってきた.特に,Twitter などのソーシャルネットワークサービス (SNS) は地域固有の情報を含むことが多いため,文書内の地名表現がどこの地名,地域を指しているかを同定することが必要となる.これまで,このような地名曖昧性解消の問題は,語義曖昧性解消の手法を利用して,語彙情報に基づいて解かれることが多く,地名特有の手がかりが使われていない.本研究では,(1) 空間的近接性と (2) 時間的一貫性の 2 つの手がかりを用いて,地名曖昧性解消の精度向上を目指す.空間的近接性は,投稿内の地名同士は距離が近いことが多いという傾向,時間的一貫性は,一連の投稿に現れる地名はそれぞれ関連性があるという傾向をとらえるために導入する.位置情報付きツイートを用いた実験によって,2つの手がかりの有効性を確認した.
著者
水本智也 松本裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.4, pp.1-5, 2014-05-15

第 2 言語を学習する人が増え,コンピュータによる第 2 言語学習支援に関する研究が盛んに行なわれている.その中でも特に英語の文法誤り訂正の研究が行なわれており,文法誤り訂正の性能を競う世界規模の Shared Task が 4 年連続で開催される.学習者の犯す誤りは様々なタイプがあり,全ての誤りタイプを訂正するために,統計的機械翻訳を用いた誤り訂正が提案されている.本稿では,統計的機械翻訳による誤り訂正結果の n-best の中に,1-best の場合よりもよい訂正が含まれていることに注目する.実際の出力結果を分析することで,リランキングによる性能向上が可能であるかを議論する.
著者
山口 文彦
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.20, pp.1-5, 2010-05-20

イースター島で独自に発達した文字体系と言われる Rongorongo は未解読である.イースター島には,また古謡が多く残されており,Jorge Hotus Salinas によって,その音韻が Latin 文字を用いて記録されている.Rongorongo が歌を記録したものであると仮定すると,Rongorongo 中の記号の出現順序と,歌の音韻の出現順序には関連があるもの思われる.本論文は,Rongorongo と古謡の対応を見つけようとした試みの報告である.それぞれを符号化して,対応の有無を全探索した.結果として,いくつかの Rongorongo の行と古謡の歌詞について,符号と音韻の出現順序に対応が見られたRongorongo is sequence of symbols remained in Easter Island, is considered that may be scripts, and have not yet been deciphered. Many ancient chants are remained in Easter Island, and their phoneme are recorded in Latin alphabet by Jorge Hotus Salinas. Assume that rongorongo is record of chant, the order of symbols in rongorongo and the order of phoneme in chant will be related. This paper is the report of the trial to find the correspondence between rongorongo and ancient chants. Symbols in rongorongo is coded and the correspondence is searched. As a result, the order of codes in some lines of rongorongo and the order of phoneme in some chants are corresponding.
著者
内海慶 塚原裕史
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.10, pp.1-9, 2013-09-05

本論文では,教師なし・半教師あり学習による形態素解析手法の提案を行う.従来の教師なし形態素解析手法では分かち書きのみを対象としており,品詞推定は扱っていなかった.我々は,この問題に対処するため,潜在クラスを導入した Semi-Markov CRF と NPYLM の協調学習を行った.新聞データ及びブログ記事を用いた実験によって,提案手法の有効性を評価した.
著者
佐藤 理史 加納 隼人 西村 翔平 駒谷 和範
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-212, no.5, pp.1-9, 2013-07-11

大学入試センター試験 『国語』 の現代文で出題される,いわゆる 「傍線部問題」 を解く方法を定式化し,実装した.実装した方法は,「評論」 の 「傍線部問題」 の半数を正しく解くことができた.
著者
本多 弘幸
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.1-6, 2009-11-09

2009 年 5 月より我が国で施行された裁判員制度では,法律知識のない一般市民が裁判員として裁判に直接参加する.しかし,裁判員はあくまでも一般市民であるので,裁判官や弁護士など法律の専門家の意見に左右され,自身の意見を持てないことや,一時的な感情に流され正常に判断できないことなどが報告されている.そこで本研究では,裁判員に概念ベースを用いた検索システムを利用し法律の基礎知識として,過去の裁判の判例を閲覧,学習を提案する.そして従来の概念ベースのチューニング手法が判例による概念ベースに有効かどうかを確かめた.In Japan, the citizen judge system started at May 2009. Under the new system, ordinary citizens participate in criminal trials as judges. So, they are necessary to study legal knowledge. This is because; they don't have enough the knowledge to participate in criminal court. This paper suggests using concept base retrieval system for citizen judges. In initial condition, the system has poor performance to retrieval. And the system is tuned to improve retrieval performance. In this paper, the concept base system is constructed from judicial precedents. And, three tunings of concept base are confirmed in this paper by statistical evaluate processing.
著者
林 克彦 塚田 元 須藤 克仁 Kevin Duh 山本 誠一
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2010-NL-196, no.1, pp.1-7, 2010-05-20

階層句機械翻訳では言語間の大局的な単語並び換わりを同期文脈自由文法によって表現することができるが,日英のような文法の大きく異なる言語間の翻訳ではその単語並び換わりを評価するためのモデルが充分であるとは言えない.本稿では階層句機械翻訳におけるこの問題を解決するために単語並び換えモデルを特徴量に導入することを提案する.提案手法では同期文脈自由文法の各ルールに並び換えされた原言語の文字列を追加することで,探索中の単語並び換えモデルの計算を効率良く行っている.日英旅行会話データを用いた実験では従来手法に比べ,提案手法の方がより適切な単語並びの翻訳結果を選択することができ,より高い翻訳精度を達成することができた.
著者
笠原 誠司 小町 守 永田 昌明 松本 裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.4, pp.1-6, 2011-09-09

本稿では日本語学習 SNS において,ローマ字で書かれた学習者の文を仮名に変換することで,添削者が訂正を容易に行えるよう支援する方法について述べる.我々のシステムは外国語の単語を検出し,日本語の単語のみを変換する.また単語のスペルに誤りが含まれていても変換することができる.学習者の作文に対し実験を行い既存の日本語入力システムよりも 10% 高い単語変換精度を達成した.誤り解析を行うことにより,母音同士を混同しやすい,母語の発音の影響を受けた書き方をしてしまう,といった学習者の誤りの傾向を明らかにした.We present an approach to help Japanese editors on language learning SNS correct learners' sentences written in roman characters by converting them into kana. Our system detects foreign words and converts only Japanese words even if it contains spelling errors. Experimental results show that our system achieves about 10 points higher conversion accuracy than one of traditional input methods. Error analysis reveals tendency of errors made by learners. For example, learners tend to be confused by vowels and make errors caused by nature of their native language.