著者
白土 保 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.114, pp.115-120, 1996-11-18

待遇表現の計算モデルが提案されている.このモデルでは,それぞれの待遇表現及び語尾に対し,各表現が持つ話し手と聞き手の待遇関係に応じた丁寧さを表す待遇値が一定の確率分布をとり,その確率分布は一次元の正規分布である,と仮定されている.そしてこの仮定に基づき,待遇表現に語尾を付加した際の待遇値の変化量が,付加の際得られる情報量に基づいて定義されている.いくつかの待遇表現,及びそれぞれの待遇表現に語尾を付加した表現の待遇値を心理実験によって求めたところ,語尾の付加による待遇値の変化は提案されたモデルによって予測された傾向に従い,モデルの妥当性が支持された.A computational model for polite expression is presented. In the proposed model, politeness magnitudes corresponding to expressions and ending words are assumed to be distributed in normal distribution. Modification of politeness magnitude on an ending word adding to a polite expression is defined by the amount of information. The result of the psychological experiment support the validity of the model.
著者
黒田 航 井佐原 均
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.105, no.204, pp.47-54, 2005-07-16
被引用文献数
4

現行の多くの概念分類体系には不備がある.その一つが意味型の概念と意味役割の概念の区別の不在である.意味型は自然類をコードするが, 意味役割はそうではない.意味役割は典型的には(利用者にとっての)機能類をコードする.非自然類が疑似的に自然類として分類されると, 分類に欠損や歪みが生じる.例えば日本語語彙大系では「番犬」と「番人」の共通性[番をする者]が表現されていない.この種の表現力の不足を補うための枠組みを, 私たちは意味役割の一般理論の観点から素描する.
著者
浜辺 良二 内元 清貴 河原 達也 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.143-148, 2006-12-21

講演のような話し言葉の書き起こしや音声認識結果を、講演録などのアーカイブとして二次利用する場合、文章として適した形態にする必要がある。本研究では、話し言葉の中で発言の引用が行われている箇所に引用符を自動付与する手法を提案する。機械学習により、まず引用構造をとる節を自動認定し、それらに引用符が必要かどうかを判定する。引用構造の認定では、表層表現や音響的特徴に加え、係り受け情報を利用することで認定精度の改善を図る。引用符付与の判定においては、学習の際に新聞記事コーパスから得られる情報をあわせて利用する。『日本語話し言葉コーパス(CSJ)』に対して、引用符付与の基準を定めた上で本手法の実験的評価を行なった。Transcriptions and speech recognition results of public speaking include many expressions peculiar to spoken language. Thus, it is necessary to transform them into document style for practical use of them. We focus on detecting quotations and enclosing them in quotation marks as written text. Quotations are detected with SVM-based text chunking method that considers information on morphemes, acoustic features, and dependency structures. Then, it is determined whether or not they need to be enclosed in quotation marks by machine learning method using the corpora of spoontaneous speech and newspapers. We defined how to classify quotations and evaluated our method on the Corpus of Spontaneous Japanese (CSJ).
著者
井佐原 均 池田 尚志 石崎 俊
雑誌
全国大会講演論文集
巻号頁・発行日
vol.38, pp.279-280, 1989-03-15

日本語の文は、英語などに比べて、修飾句の順序に関する構文的制約が少ない。従って、日本語文からの格関係の抽出においては、修飾句に含まれる助詞の情報や文脈情報などさまざまな情報を用いて、格関係を決定していくことになる。そのような情報のなかで、助詞の情報(場合によっては、助詞が用いられていないという情報)は最も取扱いやすい情報であるが、助詞の情報とその係る用言の性質とだけでは、この修飾句が用言に対してどのような情報を担っているかを判定するには十分ではない。 本稿では、まず助詞「から」が持つ情報を分類する。次に各分類の判定基準について述べる。なお、データとしては、1985年11月2日から1988年3月8日までの朝日新聞に現われた経済活動に関する459の新間記事に含まれていた416の「から」を用いている。
著者
滝澤 修 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.110, pp.13-20, 1995-11-17
被引用文献数
1

自然言語における修辞的表現の一種である「同語反復表現」を計算機で検出する一手法を提案する.同語反復表現とは,「彼は彼,私は私だ」や「建物という建物が倒壊した」のように,一文中で同じ語(反復語)が繰り返され,かつ表層的な処理では意味解析できない表現のことである.本稿で提案する手法は,形態素解析によって品詞の同定を行い,反復語とその周辺の単語の品詞の並びに関するテンプレートを学習データから予め人手で作成しておき,そのテンプレートとのマッチングによって,対象とする文から同語反復表現を検出するものである.新聞記事データを用いた予備的な実験では,本手法によって,80.6%の呼出率で検出できることが示された.This report proposes a method for mechanically detecting tautological expressions in the Japanese language. Tautological expressions are defined here as "rhetorics in which same words are appeared at two positions in one sentence", e.g., "A promise is a promise". In the proposed method, tautological expressions are detected by matching with templates; each template is a chain of POS (part of speech) of repeated words and the neighbouring words. The templates are created manually beforehand. Preliminary experiments using a newspaper corpus show the appropriateness of the proposed method.
著者
小作 浩美 内山 将夫 井佐原 均 河野 恭之 木戸出 正継
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.19, no.4, pp.225-233, 2004 (Released:2004-05-07)
参考文献数
15
被引用文献数
3 4

We have been developed a support system to interactively search certain articles of users' interest on the World Wide Web (WWW) without their hesitating over query choices. Especially we have been implementing an effective application system to enable tourists to easily find special event information of their interest and to enjoy their own tours. This system also enables developers of each system to provide them with the means of easily constructing an initial database and automatically updating it. As events are generally held cyclically, we have assumed events or keywords related to the events will appear in each term. If we can extract keywords that appear cyclically in a corpus including date information, we can obtain event keywords easily. The system can extract event information using the event keywords as queries for WWW information retrieval systems, and update the database automatically. In this paper, we introduce our support system with a focus on a concept to extract event keywords and event information through the appearance of keywords periodically. We found our approach effective by some experiments.
著者
和泉 絵美 井佐原 均
出版者
IWLeL 2004 Program Committee
雑誌
IWLeL 2004 : an interactive workshop on language e-learning
巻号頁・発行日
pp.63-71, 2005-03-31

In foreign language education, it is important for teachers to know their students’ acquisition order of major linguistic items in the target language. This enables them to teach these items more effectively in language classrooms. A hypothesis established in the 1970s based on studies aimed at revealing the natural sequence in second language acquisition is that major grammatical morphemes are acquired in a common order by learners across different backgrounds, such as their L1, ages, or learning environments (hypothesis 1). However, in the 1980s, studies on the acquisition order of Japanese learners of English led to a contradictory hypothesis that differences in learners’ backgrounds can cause differences in their acquisition orders (hypothesis 2). These studies revealed that the acquisition order of Japanese learners differs from the sequence supporting hypothesis 1. In this paper, we tried to see which of these two contradictory hypotheses could be supported by the acquisition order extracted from our NICT JLE (Japanese Learner English) Corpus. In this corpus, learners’ grammatical and lexical errors have been annotated manually with 47 types of error tags useful for investigating the acquisition order. The results of the analysis showed no significant correlation between the sequence supporting hypothesis 1 and that extracted from our corpus. On the other hand, there was a significant correlation between our sequence and that supporting hypothesis 2. The most significant difference between our sequence and that supporting hypothesis 1 is that ours indicates Japanese learners acquire articles and plural -s in a later stage. This might arise from L1 transfer because Japanese language does not have any relevant markers for articles and plural -s.
著者
内田 ユリ子 石崎 俊 井佐原 均
雑誌
全国大会講演論文集
巻号頁・発行日
vol.38, pp.245-246, 1989-03-15
被引用文献数
1

テキストは、その構成部品がある原理に従って配列されたものであるが、その配列原理の如何について広く受け入れられるような解答は存在していない。テキストを構成する部品の単位には、語、句、節、文、更にパラグラフや、章、巻なども考えられる。ここでは、これら全てを総称して、セグメントとよぶことにする。テキストにはそれを構成するセグメントの間の統語的関係(結束性、cohesive)と共に、内容的な連関性(首尾一貫性、coherence)が存在する。結束性が統語的な言語上の手段--例えば、代名詞による指示、接続詞や接続副詞による結び付け、類義語や類義表現による言い替えなど--によるのに対して首尾一貫性は、主として、書き手と読み手の言語外の知識や手段--例えば、現実世界に関する知識、書き手・読み手の仮定や推論など--による談話やテキストの内容のまとまりを指す。複数パラグラフよりなるテキストの場合は、1つのパラグラフ内部にはもとより、パラグラフ同士の間にも内容的な連関性が存在する。首尾一貫性は、テキスト全体に及ぶものであるが、結束性についても局所的なものばかりでなく、パラグラフを超えて働く統語制約(例えば、再参照による冠詞theの生成など)も考えられる。従来の研究では、テキストの構成要素の間の内容的連関性に関しては、主として文や節を対象として議論されてきたが、本稿では、複数パラグラフよりなるテキストのパラグラフ間の構造的連関性にも適用できる理論として、テキストの意味表現構造と首尾一貫性の関係、および読み手の持つ情報の新旧と首尾一貫性との関係に付いて述べる。また、首尾一貫性のあるテキストの実例を示し、それのパラグラフ構成とテキストの背後にある情報構造との関係について検討し、テキスト生成との関連も述べる。
著者
山下 直美 坂本 知子 野村 早恵子 石田 亨 林 良彦 小倉 健太郎 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.4, pp.1276-1286, 2006-04-15
被引用文献数
11

機械翻訳を介したコミュニケーションを通じて相互理解を実現するためには,翻訳精度の向上とともに相互作用性の向上が重要である.我々は機械翻訳に対するユーザの適応行動の1 つである原文の書き換えに注目した.本論文では,ユーザが母国語だけを用いて原文の書き換え作業を行う方法として折り返し翻訳を検討し,折り返し翻訳を用いてユーザが書き換え作業をする際の作業量を減らす支援方法を考案する.本研究でユーザの折り返し翻訳作業に関する実験を実施,分析した結果,以下の知見を得た.1) 母国語に関する知識が豊富なユーザほど機械翻訳に容易に適応でき書き換え作業量が少なかった.2) ユーザに事前に「良い翻訳結果を得るためのルール集合」の教示を行うと,母国語に関する知識が豊富でないユーザも機械翻訳に容易に適応できるようになり,書き換え作業量が大幅に減った.3) ただし,原文をどのように変更すべきかを明示しない「操作自由型ルール」に対する教示効果は薄く,これらのルール獲得にかかる書き換え作業量は大きく減少しなかった.原文をどのように変更すべきかを明示した「操作指示型ルール」に対する教示効果は高く,これらのルール獲得にかかる書き換え作業量は大きく減少した.4) ルールの教示は,母国語に関する知識が中位のユーザに最も効果的であった.Translation refinement is often observed when users communicate via machine translation systems. In this study, we analyzed user's translation refinement process through a controlled experiment. In the experiment, users translated sentences using a Japanese-English-Japanese turn-back translation. From the analysis, we discovered the following results: 1) The more knowledge users had about the source language, the better users could refine the original text, 2) Rule instruction was very effective in user's adaptation. Users who were reminded of the rules refined the original text ahead of other users, 3) Instructing operational rules were effective in helping user's adapation, while conditional rules were not as much effective. 4) Rule instruction was most effective to those who had midium knowledge in their source languages.
著者
新納 浩幸 井佐原 均
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.1, pp.32-40, 1995-01-15
被引用文献数
35

本論文では簡易な字面処理によって、助詞に相当する定型表現(助詞的定型表現)をコーパスから自動抽出する手法について述べる。ここで抽出する表現は、例えば「に関して」や「に基づく」のように、助詞的な働きをする定型的な表現である。これらの定型表現は処理上、一単語として扱うのが妥当であり、予め収集しておく必要がある。定型表現を自動抽出する従来の手法の多くは対象言語が英語である。しかし日本語の場合、英語と異なり、単語間の共起の強さを計るには、基本的に文を単語に分割するための形態素解析が必要である。しかも形態素解析には、暖味性、未知語などの問題がついてまわり、単語間の共起の強さを計るのは英語ほど容易ではない・完全な字面処理からのアプローチとしては、「ある文字列が1つのユニットになっていればその文字列の前後には様々な種類の文宇が現れる」というアイデアをもとに、大規模コーパスから得られたNグラムによって定型表現を取り出す手法がある。本手法は墓本的にこの考え方を利用する。ただし、助詞約定型表現の持ついくつかのヒューリスティックスと句読魚情報を活用し、完全なNグラムを作ることを避け、そのサブセットである疑似Nグラムと呼ぷある種の文宇列の頻度情報だけを利用する。結果として、簡易な字面処理だけによって、定型表現の抽出が可能となっている。このため、本手法は、実験の拡大、再現が容易であるという利点も持つ。
著者
新納 浩幸 井佐原 均
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.35, no.11, pp.2258-2264, 1994-11-15
被引用文献数
6

本諭文ではコーパスから関係表現を自動抽出する手法について述べる。関係表現とは「に関して」に代表される、助詞相当の働きを持ち、語の挿入や交換が一般に行えない慣用表現の一種である。関係表現は一般に一語として処理するのが有効であるが、その表現を収集することは容易ではない。なぜなら通常の表現と関係表現との違いは不明確であり、つきつめれば、その判定はシステム製作者の主観的な判断によって行われているからである。本論文ではコーパスから関係表現を自動抽出することで、網羅的、かつ統一的な関係表現の収集を目指した。持に本論文では、助詞十動詞十付属語(助詞、助動詞)の形を持つ関係表現を抽出することを試みた。本諭文は上記の関係表現のもつ2つの特徴に注目する。1つは関係表現中の動詞は、接続的な利用が多く本動詞として利用されることが少ないこと、もう1つは、その動詞に前置する助詞との共起が強いため、動詞に前置する助詞は特異な出現頻度をとるという特徴である。この特徴を利用してまず関係表現中の動詞になりえるものをコーパス中のその語の使われ方の頻度から選出する。次に選出した動詞に前置する助詞をコーパスから収集し、助詞の出現分布を調べることで関係表現を抽出する。
著者
内山 将夫 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.43, no.9, pp.1-14, 2002-09-15

近似文字列照合による全文検索では,入力パターンと一定以下の編集距離にある部分テキストすべてをテキストから検索する.近似文字列照合による全文検索は,テキストを接尾辞トライにより索引付けし,それを利用して検索することにより実現できる.しかし,接尾辞トライの占める空間領域は大きいため,接尾辞配列を索引として利用することもある.接尾辞配列を索引として利用する場合には,従来研究では,接尾辞トライ上での探索を接尾辞配列上での2分探索により模擬している.それに対して,本稿では,2分探索ではなく,補助的な配列を用いることにより,高速に,接尾辞トライ上での探索を模擬することができる手法を提案した.さらに,2分探索による方法を利用した場合と提案手法を利用した場合とにおける検索速度を実験的に測定し,提案手法の方が検索速度が速いことを示した.Given a text and an input pattern, the goal of full-text approximate string matching is to search for all parts of the text that match the pattern. Full-text approximate string matching can be performed using a suffix trie as an index of the text. A suffix trie, however, is relatively large. So, a suffix array, which is a compact representation of a suffix trie, is often used to simulate searches on a suffix trie. A binary search algorithm is used to search the array. A method is described in this paper that uses an auxiliary array to simulate searches on a suffix trie. The method does not use a binary search algorithm so that it can perform a faster simulation. Experiments showed that the proposed method is faster than one using a binary search algorithm.
著者
新納 浩幸 井佐原 均
出版者
社団法人人工知能学会
雑誌
人工知能学会誌 (ISSN:09128085)
巻号頁・発行日
vol.10, no.3, pp.429-435, 1995-05-01
被引用文献数
2

In this paper, we describe a method to automatically extract Japanese auxiliary phrases from a corpus. The auxiliary phrase is a kind of idiomatic expression corresponding to auxiliary verb or postpositional particle. Typical examples are "にかんして" and "なければならない". Generally it is advantageous to handle the auxiliary phrase as one word. Therefore, building a dictionary, we need bring together auxiliary phrases like standard words. However, it is difficult to pick up auxiliary phrases. Because it is unclear to distinguish them from normal phrases. Thoroughly investigating the difference, it is defined by subjectivity of system developer. Therefore, it needs vast time to select auxiliary phrases, and there must be considerable doubt that phrases collected comprise all necessary phrases, and have uniformity. To overcome this problem, we present this method. The point of our method is to utilize the following heuristics that a auxiliary phrase has : (H1) The auxiliary phrase is consist of HIRAGANA characters. Even if KANJI character is found in it, its length is 1. (H2) Characters in front and behind of the auxiliary phrase are a certain confined characters. (H3) Each word composed the auxiliary phrase are strongly connected. Firstly, we pick up all phrases whose length is N from the corpus, however, the phrase is consist of HIRAGANA characters and KANJI characters whose length are 1. For all N(≥4), we carry out above operation. In view of (H1), all auxiliary phrases must exist in the set of phrases acquired by these operations. Then, using (H2) and (H3), we remove not auxiliary phrases from this set. Last, we remove duplicate phrases by investigating whether there is a longer phrase included the phrase. As the result, we can acquire phrases to aim in this paper. This method has a merit to easily carry out under poor environment. We made experiment on this method with ASAHI newspaper articles for one month (about 9 Mbyte). We report this result, too.
著者
山本 英子 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.61-66, 2006-11-22
参考文献数
7

本稿では,上位語下位語や同義語 反義語といった分類的関連を持つ単語集合ではなく,連想関係や因果関係といった主題的関連を持つ単語集合をテキスト集合から抽出することを試みる.後者の単語集合が持つ関連は,前者と違って,シソーラスのような知識ではなく,辞書に載っていない知識である.本研究では,そのような知識が発想支援に利用できるのではないかと考え,得られた関連語集合を用いて実際にWeb検索をすることにより,提案手法によって得られた関連語集合が発想支援に適用できることを示す.In this paper, we tried to extract sets of related word with thematic relations such as associated relation and causal relation, which are not taxonomical relations such as hypernym-hyponym relation and synonym, acronym. The relations between words composing the latter related word set can be regarded as knowledge which is not thesaurus-like knowledge and which there is not in the dictionaries. We think such related word sets can be used to support creativity. Then, we estimate the availability for creativity support that the related word sets we extracted can be had, through verification of their availability to Web retrieval.
著者
村田 真樹 馬 青 内元 清貴 井佐原 均
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.100, no.698, pp.25-32, 2001-03-16

テンス・アスペクト・モダリティは,翻訳が難しい問題として知られている.従来はテンス・アスペクト・モダ゛リティの表現は人手で作成した規則によって扱われていたが,近年用例ベース(k近傍法)の方法などのコーパスベースに基づくアプローチでも処理されるようになってきた.本研究では,このテンス・アスペクト・モダリティの翻訳の実験を,k近傍法も含めて様々な機械学習手法を用いて行なった.その結果,サポートベクトルマシンに基づく方法が最も高い精度を得た.また,用例ベースを用いた先行研究では解析に用いる情報は文末の一致文字列のみであったが,この情報に加え,一文全体の形態素情報も解析に用いることにしたところ,精度が上昇するという結果を得た.このことにより,テンス・アスペクト・モダリティの翻訳には文末情報だけでなく一文全体の形態素情報も有用であることがわかる.
著者
村田 真樹 神崎 享子 内元 清貴 馬青 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.22, pp.89-96, 1999-03-04
被引用文献数
2

本論文では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する.また,この単語を意味でソートするという考え方を示すと同時に,この考え方と辞書,階層シソーラスとの関係,さらには多観点シソーラスについても論じる.そこでは単語を複数の属性で表現するという考え方も示し,今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている.また,単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.It is often useful to sort words by their meanings like when using a thesaurus. In this paper, we introduce a method of arranging words semantically and show how to implement this method by using various types of dictionaries and thesauruses. We also examine an ideal dictionary that could be used for future natural language processing. Finally, we describe three main ways to use this method.