著者
中川 裕志 湯本 紘彰 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-45, 2003-01-10 (Released:2011-03-01)
参考文献数
22
被引用文献数
12 18

本論文では, 専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する. 本論文では名詞 (単名詞と複合名詞) を対象として専門用語抽出について検討する. 基本的アイデアは, 単名詞のバイグラムから得られる単名詞の統計量を利用するという点である. より具体的に言えば, ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる. この頻度を利用した数種類の複合名詞スコア付け法を提案する. NTCIR1 TMRECテストコレクションによって提案方法を実験的に評価した. この結果, スコアの上位の1, 400用語候補以内, ならびに, 12,000用語候補以上においては, 単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
湯本 紘彰 森 辰則 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.86, pp.111-118, 2001-09-10
被引用文献数
8

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する。本論文では名詞(単名詞と複合名詞)を対象として専門用語抽出について検討する。基本的アイデアは、単名詞のバイグラムから得られる単名詞の統計量を利用するという点である。より具体的に言えば、ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる。この頻度を利用した数種類の複合名詞スコア付け法を提案する。NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した。この結果、スコアの上位の1 400用語候補以内においては 単名詞バイグラムの統計に基づく提案手法が優れていた。In this paper, we propose a new idea of automatically recognizing domain specific terms from monolingual corpus. The majority of domain specific terms are compound nouns that we aim at extracting. Our idea is based on single-noun statistic calculated with single-noun bigrams. Namely we focus on how many nouns adjoin the noun in question to form compound nouns. In adition, we combine thismeasure and frequency of each compound nouns and single-nouns, whichwe call FLR method. We experimentally evaluate these methodson NTCIR1 TMREC test collection. As the results, when we take intoaccount up to 1,400 highest term candidates, FLR method performsbest.
著者
山田 剛一 森 辰則 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:03875806)
巻号頁・発行日
vol.39, no.8, pp.2431-2439, 1998-08-15
参考文献数
12
被引用文献数
2

情報検索においては, 検索対象の規模が拡大するにつれ, 検索精度の向上がより強く求められてきている.そこで本論文では, 複合語をまとまりとして扱う手法と, 単語の共起情報を用いる手法を統合することにより, 探索システムの精度向上を図ることを提案する.複合語は全体で1つの概念を表現しており, まとまりとして扱うことが望ましいが, 複合語どうしマッチさせる場合には部分的なマッチングを考慮する必要が生じる.このマッチングを行い文書をスコア付けする手法を考案した.さらに, 単語が複合語を構成せず共起する場合もスコアに反映させるため, 共起情報を利用する手法と組み合わせ, 評価実験を行ったところ, 単語の重みに基づく手法, およびそれに共起情報を加える手法のいずれよりも良い探索精度が得られることが確認できた.
著者
大矢 康介 阪本 浩太郎 渋木 英潔 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.31-63, 2020-03-15 (Released:2020-06-15)
参考文献数
23

本稿では,世界史に関する大学入試論述問題に対して自動要約手法に基づき解答を自動生成する際の知識源の一つとして世界史用語集に注目し,見出し語と語釈部に分かれている文書データから解答となる文章を作成するために,語釈文における見出し語に照応するゼロ代名詞とその表層格を推定する手法を提案する.本稿の扱うタスクは,先行詞候補が見出し語に限られている一方でそれに照応するゼロ代名詞を複数の候補から一つ選ぶという点,および先行詞である見出し語が文中に存在しないため,照応解析において有効な手掛かりとなる先行詞の文脈情報が全く使えないという点で,従来のゼロ代名詞照応解析とは異なる.世界史用語集を対象とした評価実験を行った結果,KNP を用いた既存のゼロ照応解析を使用した手法に比べ,提案手法が有効であることが確認された.さらに,出現頻度の低い表層格で埋め込まれる場合の精度低下が観察されたため,通常の文から擬似訓練事例を生成する手法を検討した.同事例を使用した結果,ヲ格,ニ格の推定の F 値を改善できることが確認された.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-46, 2003-01

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.4, pp.3-32, 2002-07-10 (Released:2011-03-01)
参考文献数
26
被引用文献数
5 5

本稿では, 情報検索の結果として得られた文書集合中の各々の文書を要約する一手法を提案する. この場合の要約の質は, 検索質問一要約文書間の関連性判定が, 検索質問一原文書の間の関連性判定に一致する度合で評価されるので, 検索を考慮した要約が必要となる. 検索質問により語の重みにバイアスを与え, 語の重要度を求める従来手法とは異なり, 我々の方法では, 検索された文書間の表層的類似性を適切に説明する語に高い重みを付与する. 具体的には, 検索文書集合に階層的クラスタリングを適用することにより, 文書間の類似性構造を抽出するとともに, 各クラスタにおける各語の出現確率から, その構造を説明するのに寄与する単語により高い重みを与える. 我々は, その重みづけに情報利得比を用いることを提案する. そして, この語の重み付けに基づき重要文抽出方式による検索文書要約システムを実装した. このシステムを評価型情報検索ワークショップであるNTCIR2におけるText Summarization Challengeの情報検索タスクにより評価した結果, 関連性判定において検索質問バイアス付きTF方式, リード文方式によるベースライン手法ならびに, 他参加システムよりも, 良好な結果を示した.
著者
森 辰則 瀧野 弘幸 中川 裕志
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.4, pp.3-18, 1995-10

我々は,接続助詞「ので」による順接の複文と接続助詞「のに」による逆接の複文を対象とする理解システムを計算機上に構築することを目的とする.この際には,ゼロ代名詞の照応の解析が重要な問題となるが,文献(中川1994; Nakagawa and Nishizawa1994) にあるように,本論文で扱う形式の複文では動機保持者という語用論的役割を新たに定義し用いることにより,従属節と主節それぞれで設定される意味役割や語用論的役割の間の関係を制約として記述することができる.そこで,日本語の複文に対する形態素解析や構文解析の結果を素性構造で記述し,この結果に対して制約論理プログラミングの手法を用いることにより意味および語用論的役割間の制約を解消し,ゼロ代名詞照応などを分析する理解システムを計算機上に構築した.
著者
筒井 貴士 我満 拓弥 大城 卓 菅原 晃平 永井 隆広 渋木 英潔 木村 泰知 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.125-155, 2014
被引用文献数
1

近年,国会や地方議会などの会議録が Web 上に公開されている.会議録は,首長や議員の議論が書き起こされた話し言葉のデータであり,長い年月の議論が記録された通時的なデータであることから,政治学,経済学,言語学,情報工学等の様々な分野において研究の対象とされている.国会会議録を利用した研究は会議録の整備が進んでいることから,多くの分野で行われている.その一方で,地方議会会議録を利用した研究については,各分野で研究が行われているものの,自治体によりWeb上で公開されている形式が異なることが多いため,収集作業や整形作業に労力がかかっている.また,各研究者が重複するデータの電子化作業を個別に行っているといった非効率な状況も招いている.このような背景から,我々は多くの研究者が利用することを目的として,地方議会会議録を収集し,地方議会会議録コーパスを構築した.本稿では,我々が構築した地方議会会議録コーパスについて論ずる.同コーパスは,Web上で公開されている全国の地方議会会議録を対象として,「いつ」「どの会議で」「どの議員が」「何を発言したのか」などの各種情報を付与し,検索可能な形式で収録した.また,我々は会議録における発言を基に利用者と政治的に近い考えをもつ議員を判断して提示するシステムを最終的な目的としており,その開発に向けて,分析,評価用のデータ作成のために会議録中の議員の政治的課題に対する賛否とその積極性に関する注釈付けをコーパスの一部に対して行った.本稿では,注釈付けを行った結果についても報告する.
著者
佐野 直美 槙 健志 森 辰則 中川 裕志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.44, pp.213-214, 1992-02-24

比喩表現は本質的に文脈依存が強い現象であるので、談話において比喩表現を的確に理解するには、その表現だけから解釈を引き出すのでは理解が不十分だったり、かえって理解を因難にしてしまう場合がある。このため、テキストを全体として捉え、文脈を考慮に入れた上で比喩解釈を行う必要がある。談話に一貫性を持たせる、すなわち結束性を充足させるように比喩を理解することは談話の正しい解釈を得るために必要であるだけでなく、比喩を正確に、また容易に理解する上でも不可欠である。本稿では、結束性を充足する解釈を得る手段の一つとしての比喩を考えるが、その重要な手がかりを与えるものとして、言語的制約の解析を次に9月11日の読売新聞のコラムからの抜粋を用いて行う。「ブロンディ」から「沈黙の艦隊」に至る40数年の問に、日本人の対米観が大きく揺れ動いたことは間違いない。なぜ、こうした振幅が起こるのだろうか。アメリカ史の猿谷要・東京女子大教授は「60年安保など、"夫婦げんか"はあったけれど、終戦から73年のオイルショックのころまでは、日米の蜜月(みつげつ)時代だった」と見る。これらの制転を充足する比喩理解についてはにおいて議論する。
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-46, 2003-01

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
石下 円香 佐藤 充 森 辰則
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.4, pp.339-350, 2009 (Released:2009-05-22)
参考文献数
15
被引用文献数
2

In this paper, we propose a method of non-factoid Web question-answering that can uniformly deal with any class of Japanese non-factoid question by using a large number of example Q&A pairs. Instead of preparing classes of questions beforehand, the method retrieves already asked question examples similar to a submitted question from a set of Q&A pairs. Then, instead of preparing clue expressions for the writing style of answers according to each question class beforehand, it dynamically extracts clue expressions from the answer examples corresponding to the retrieved question examples. This clue expression information is combined with topical content information from the question to extract appropriate answer candidates. The score of an answer candidate is measured by the density of submitted question's keywords, words associated with the question and the clue expressions. Note that we utilize the set of Q&A pairs, not to find answers from them, but to obtain clue expressions about the writing style of their answers. The information source for question answering is the Web documents retrieved by using an API of a Web search engine. Experimental results showed that the clue expressions obtained from the set of examples improved the accuracy of answer candidate extraction.
著者
中野 正寛 渋木 英潔 宮崎 林太郎 石下 円香 森 辰則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.107-114, 2008-09-17
被引用文献数
3

本稿では情報信憑性の判断に役立つ要約について扱う.プロードバンド化の進展やブログの普及に伴って爆発的に増加する情報の中には利用者に不利益をもたらす情報も含まれており,情報の信憑性判断を支援する技術の実現は重要な課題である.我々は情報信憑性の判断に役立つ要約の自動生成に向けて,複数の作業者の人手により情報信憑性判断のための要約を作成する実験を行った.そして,得られた要約文章の安定性や複数作業者間の一致度を分析し,情報信憑性の判断に役立つ要約を作成する際に人間が重要視する情報を調査した.実験結果では,要約対象として収集した文書から要約に必要な記述を抜き出すまでの何段階かの絞り込みで中程度の一致が期待できる事がわかった.事後の作業者へのアンケート調査によれば,要約として適当な長さと考えたのは 1 000 から 3 000 文字程度であり,作業者がまとまっていることである.また,情報信憑性の判断に役立つ要約の自動生成に向けて,作業者が作成した要約を参照要約とし,それに対応する原文からの文の抜粋に関するデータを整備した.In this paper, we investigated processes of text summarization that supports the judgment of the information credibility. The realization of technology that supports the judgment of the information credibility is one of important issues, because information harmful to users creeps into the huge amount of available information in the era of information explosion. Aiming at automated summarization, we conducted experiments in which multiple subjects manually created text summaries from the viewpoint of the judgment of the information credibility. We studied the stability of the summarization and the degree of agreement in the results of extraction of important information. We also investigated the information that subjects supposed to be important in the process of the creation of summaries, by using questioners after the experiments. The experimental results show that moderate agreement can be expected in the result of extraction of important information. The length of summaries was between about 1,000 and 3,000 characters. According to the questioners, the documents that were well-organized and information about information holders were supposed to be important. Aiming at the automated summarization, we also prepared the information of the extracted sentences that correspond to the created summaries.
著者
藤畑 勝之 志賀 正裕 森 辰則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.86, pp.119-125, 2001-09-10
被引用文献数
1

本稿では,質問応答に用いる数量表現の取り扱いについて考察する.数値表現はそれ自身は単独では意味をなさず,どの事物のどの属性に関しての値であるかが判明して初めて有用な情報になり得る.そのため,それぞれの数値表現に関して,数値が対応する事物とどのような係り受け構造で結び付くかを考慮する必要がある.そこで,数量表現の出現する文脈について考察し,数値情報の構造を考慮した係り受けの制約と優先規則に基づく抽出規則を提案する.さらに新聞記事を対象とする実験により,本規則が数値情報を含む文書中から数値およびそれに付随する情報を抽出するうえで精度の向上に役立つことを示す.In this paper, we study the treatment of numerical expressions in question-answering systems. Numerical expressions themselves do not convey enough information, because they are only some attribute values. In combination with the objects and the attribute names, numerical expressions convey useful information. Therefore, we propose a set of extraction rules for numerical expressions, which extract numerical expressions along with the supplementary expressions. The set of rules consists of the constraints and preference rules of dependencies among numerical expressions and the supplementary expressions. An experiment of extraction we conducted with news paper articles shows that our rules are useful for improving the accuracy of extraction.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-45, 2003-01-10
被引用文献数
40

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.In this paper, we propose a new idea of automatically recognizing domain specific terms from monolingual corpus. The majority of domain specific terms are compound nouns that we aim at extracting. Our idea is based on single-noun statistics calculated with single-noun bigrams. Namely we focus on how many nouns adjoin the noun in question to form compound nouns. In addition, we combine this measure and frequency of each compound nouns and single-nouns, which we call FLR method. We experimentally evaluate these methods on NTCIR1 TMREC test collection. As the results, when we take into account less than 1,400 or more than 12,000 highest term candidates, FLR method performs best.
著者
湯本 紘彰 森 辰則 中川 裕志
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.86(2001-NL-145), pp.111-118, 2001-09-10

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する。本論文では名詞(単名詞と複合名詞)を対象として専門用語抽出について検討する。基本的アイデアは、単名詞のバイグラムから得られる単名詞の統計量を利用するという点である。より具体的に言えば、ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる。この頻度を利用した数種類の複合名詞スコア付け法を提案する。NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した。この結果、スコアの上位の1 400用語候補以内においては 単名詞バイグラムの統計に基づく提案手法が優れていた。
著者
木村 泰知 渋木 英潔 高丸 圭一 乙武 北斗 小林 哲郎 森 辰則
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.26, no.5, pp.580-593, 2011 (Released:2011-07-20)
参考文献数
14
被引用文献数
3

This paper presents an automatic question generation method for a local councilor search system. Our purpose is to provide residents with information about local council activities in an easy-to-understand manner. Our designed system creates a decision tree with leaves that correspond to local councilors in order to clarify the differences in the activities of local councilors using local council minutes as the source. Moreover, our system generates questions for selecting the next branch at each condition in the decision tree. We confirmed experimentally that these questions are appropriate for the selection of branches in the decision tree.
著者
宮崎 林太郎 塚原 裕常 西村 純 前田 直人 森 辰則 小林 寛之 石川 雄介 田中 裕也 翁 松齢
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.26, no.2, pp.376-386, 2011 (Released:2011-02-08)
参考文献数
8

In order to achieve faceted search in net auction system, several researchers have dealt with the automated extraction of attributes and their values from descriptions of exhibits. In this paper, we propose a two-staged method to improve the performance of the extraction. The proposed method is based on the following two assumptions. 1) Identifying whether or not each sentence includes the target information is easier than extracting the target information from raw plain text. 2) Extracting the target information from the sentences selected in the first stage is easier than extracting the target information from the entire raw plain text. In the first stage, the method selects each sentence in a description that is judged to have attributes and/or values. In this stage, each sentence is represented a bag-of-words-styled feature vector, and is labeled as selected or not by a classifier derived by SVM. In the second stage, the extraction of attributes and values are performed on the cleaned text that does not contain parts of description irrelevant to exhibits, like descriptions for the postage, other exhibits, and so on. In the second stage, we adopt a sequential labeling method similar to named entity recognizers. The experimental result shows that the proposed method improves both the precision and the recall in the attribute-value extraction than only using second-stage extraction method. This fact supports our assumptions.
著者
木曽 宏顕 森 辰則 中川 裕志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.46, pp.169-170, 1993-03-01

文A,Bを接続助詞「ながら」でつないだ文「AながらB」には,AとBが同時進行的に起こっていることを表すものと、AであるにもかかわらずBという逆接的意味合いを生じるものと二通りあることが知られている。本稿では、「AながらB」がどちらの解釈になるのかを文Aの持つ性質により決定する方法についと論じ、特に取り立て助詞との関係について見ていく。
著者
佐藤充 森 辰則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.113-120, 2006-11-23

質問応答の回答としても字による解だけでなく画像や地図も表示できるシステムを提案する.既存の質問応答システムと画像検索,ジオコーディング,地図APIを組合せ、物に関する質問に対しては画像を,場所を問う質問に対しては地図を表示する.質問応答の解に対応する画像などに曖昧性があっても,質問文に含まれる情報を用いて適切なものを絞り込める.評価実験によれば,質問応答の解が正しかったときに,画像は0.70,地図は0.85の精度で適切なものを表示できることが分かった.また,正解が複数存在するリスト型の質問においては,ユーザは並べられた画像を見ることでそれぞれの解を比較できたり,ひとつの地図上でそれぞれの解の位置関係を把握できるというように,質問応答システムにおける新しい回答の提示方法を示した.We propose a system that can display not only the answer string of a given question but also images or maps related to ths answer. The system consists of an existing Q/A system, an image search engine, a geocoding engine and a map API. Images are displayed when the question is about things like an animal, a plant or a person. Maps are displayed when the question is about place. Appropriate images or maps are selected by using the information in the question sentence even if the answer string is related to several different types of images or location. The experimental results show that the accuracy of fisplaying images is 70 percent, and that of displaying maps 85 percent under the condition that answer strings are collect. Moreover, we show a new method that presents a result of the list-type question-answering on a display simulataneously. A list-type question may have two or more correct answers. Using the method, a user can compare the answers by seeing listed images, or a user can tell the positional relation among the answers by seeing a map in which all answers are marked.