浅野 優 小出 誠二 岩山 真 加藤 文彦 小林 厳生 美馬 正司 大向 一輝 武田 英明
一般社団法人 人工知能学会
人工知能学会論文誌 (ISSN:13460714)
pp.LOD-27, (Released:2017-01-31)

We describe a procedure for constructing a website for publishing open data by focusing on the case of Open DATA METI, a website of the Ministry of Economy, Trade, and Industry. We developed two sites for publishing open data: a data catalog site and one for searching linked open data (LOD). The former allows users to find relevant data they want to use, and the latter allows them to utilize the found data by connecting them. To implement the data catalog site, we constructed a site tailored to the needs of the organization. Then we extracted a large amount of metadata from the individual open data and put it on the site. These activities would have taken a lot of time if we had used the existing methods, so we devised our own solutions for them. To implement the LOD searching site, we converted the data into LOD form in the Resource Description Framework (RDF). We focused on converting statistical data into tables, which are widely used. Regarding the conversion, there were several kinds of missing information that we needed to associate with the data in the tables. We created a template for incorporating the necessary information for LOD in the original table. The conversion into LOD was automatically done using the template.
徳永 健伸 岩山 真
vol.1994, no.28, pp.33-40, 1994-03-17

本論文では,新しい文書のインデックスの重み付け手法を提案し,これを文書の自動分類に応用した実験結果について報告する.本論文で提案する手法は情報検索の分野で一般的に使われている重み付け手法IDFを改良したもので,これをWIDFと呼ぶ.200から6000程度の文書の自動分類実験の結果,WIDFを使うことによってIDFに比べ最大で7.4%精度を改善することができた.This paper proposes a new term weighting method called weighted inverse document frequency (WIDF). As its name indicates, WIDF is an extension of IDF(inverse document frequency) to incorporate the term frequency over the collection of texts. WIDF of a term in a text is given by dividing the frequency of the term in the text by the sum of the frequency of the term over the collection of texts. WIDF is applied to the text categorization task and proved to be superior to the other methods. The improvement of accuracy on IDF is 7.4% at the maximum.
難波 英嗣 藤井 敦 岩山 真 橋本 泰一
国立研究開発法人 科学技術振興機構
情報管理 (ISSN:00217298)
vol.52, no.6, pp.334-342, 2009 (Released:2009-09-01)

岩山 真 徳永 健伸 田中 穂積 Makoto Iwayama Takenobu Tokunaga Hozumi Tanaka
人工知能学会誌 = Journal of Japanese Society for Artificial Intelligence (ISSN:09128085)
vol.6, no.5, pp.674-681, 1991-09-01

This paper presents a computational model for understanding metaphors using the measure of salience. Understanding metaphors is a property transfer process from a source concept to a target concept. There are two questions arise in the transfer process. One is which properties are more likely transferred from the source concept to the target concept, and other is the representation of highlighting the transferred properties. We use the measure of salience to answer these questions. The measure of salience represents how typical or prominent a property is. In understanding metaphors, typical properties are easy to transferred from a source concept to a target concept, so the measure of salience can measure the transferability of properties. And, the transferred properties become typical properties in the target concept, so highlighting the properties can be represented by increasing the measure of salience. For now, many researches have used the measure of salience in the process of understanding metaphors^^<(l)-(4)>, but they have not described precisely how the measure of salience is calculated. This paper presents the method of calculating the measure of salience based on the information theory. We use the redundancy of a property and the distribution of the redundancy among similar conceps. We think this method meet well with the human's intuition.
望月 源 岩山 真 奥村 学
一般社団法人 言語処理学会
自然言語処理 (ISSN:13407619)
vol.6, no.3, pp.101-126, 1999

計算機上の文書データの増大に伴い, 膨大なデータの中からユーザの求める文書を効率よく索き出す文書検索の重要性が高まっている. 伝統的な検索手法では, 文書全体を1つのまとまりとして考え検索要求との類似度を計算する. しかし, 実際の文書, 特に長い文書では様々な話題が存在し, 文書中の各部分によって扱われる話題が異なる場合も多く見られる. そのため, 最近の文書検索では, ユーザの入力した検索要求と関連の高い文書の一部分を取り出して類似度を計算するパッセージレベルの検索が注目されている. パッセージ検索におけるパッセージとは, 文書中で検索要求の内容と強く関連する内容を持つ連続した一部分のことを言う. パッセージ検索では, このパッセージをどのように決定するかが問題となる. 良いパッセージを決定するためには, パッセージ自体が意味的なまとまりを形成し, パッセージの位置やサイズが検索要求や文書に応じて柔軟に設定される必要があると考えられる. 本稿では, 文書中の文脈情報である語彙的連鎖を利用し, 検索要求と文書の適切な類似度を計算できるパッセージ決定手法について述べる. また, このパッセージを使用し, 検索精度を向上させる検索手法について述べる.
岩山 真 藤井 敦 高野 明彦 神門 典子
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
vol.2001, no.74, pp.49-56, 2001-07-24
12 6

NTCIR-3において特許コーパスを用いた検索タスクを提案する。提案するタスクでは、「公開特許公報」「JAPIO妙録」「PAJ(Patent Abstracts of Japan)」などの特許コーパスを用い、「基本検索タスク」「自由タスク」の二種類のタスクを実施する。基本検索タスクは、ある製品に関する一般的な記述からそれを支える特許を検索するタスクであり、具体的には新聞記事から関連特許を検索する。自由タスクは、特許コーパスを対象に、参加者が自由に課題を設定し評価する実験的なタスクである。In NTCIR-3 workshop, we propose a new task of "Patent Retrieval Challenge" using patent corpora. The main task is "cross DB search" whose purpose is to find a set of patent documents relevant to a news paper article described on some products. We will also try an experimental task, in which participants themselves can propose, execute and evaluate their own tasks. This free-styled task intends to explore future directions of patent information processing.
丸川 雄三 岩山 真 奥村 学 新森 昭宏
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
vol.2002, no.87, pp.23-28, 2002-09-17

従来のDPマッチングでは難しかった交差の存在するテキスト間の対応付けを行う手法を提案する.提案手法の特徴は以下の二点である.まずはテキスト間における部分文字列同士のアラインメント,すなわちローカルアラインメントの概念と,その計算手法としてローカルアラインメントDPマッチングを導入した点であり,もう一点はローカルアラインメントの順位付けを行い,対応付けに利用した点である.前者の工夫により,DPマッチングの利点である類似度の最適化と計算量の削減を実現し,後者の工夫により,交差にも対応したテキスト間の柔軟な対応付けを実現した.提案手法の適用例として,公開特許公報全文における「請求項」と「発明の詳細な説明」との対応付けを紹介し,本手法の有効性を議論する.A method of aligning a text with another text, in which the partial alignments include crossovers and overlaps, is proposed. This method has the following two characteristics. One is to introduce the concept of the local alignment between sub-strings and use the dynamic programming to enumerate the possible local alignments. Another is to extract sub-optimal local alignments in addition to the optimal one. The former realizes efficient enumeration of local alignments and the latter realizes flexible text matching, where the partial alignments have crossovers and overlaps. We show an example of applying the method for finding alignments between "claims" and "embodiments" in a patent application, and discuss its effectiveness.
望月 源 岩山 真 奥村 学
vol.1998, no.82, pp.39-46, 1998-09-17

計算機上の文書データの増大に伴い,膨大なデータの中からユーザの求める文書を効率よく索き出す文書検索の重要性が高まっている.最近の文書検索では,ユーザの入力したクエリーと関連の高い文書の一部分を取り出して類似度を計算するパッセージレベルの検索が注目されている.パッセージ検索におけるパッセージとは,文書中でクエリーの内容と強く関連する内容を持つ連続した一部分のことを言う.パッセージ検索では,このパッセージをどのように決定するかが問題となる.良いパッセージを決定するためには,パッセージ自体が意味的なまとまりを形成し,パッセージの位置やサイズがクエリーや文書に応じて柔軟に設定される必要があると考えられる.本稿では,文書中の文脈情報である語彙的連鎖を利用し,クエリーと文書の適切な類似度を計算できるパッセージ決定手法について述べる.また,このパッセージを使用し,検索精度を向上させる検索手法について述べる.The importance of document retrieval systems which can retrieve relevant documents for user's needs is now increasing with the growing availability of full-text documents. The passage-level document retrieval has been received much attentions in the recent document retrieval task. The definition of a passage is considered as a sequent part of document which contain a relating content to a content of a query. In the passage retrieval, it is a problem how to decide the passages. It is considered that the passages which form meaning coherent units are effective in the improvement of the accuracy. Furthermore, it is also effective that the size and location of each passage is calculated flexibly with each query and document. In this paper we describe a definition of a passage calculation which can be able to calculate a similarity between each content of user's query and each part of document, using lexical chains which denote local document contexts. We also present a passage-level document retrieval method which improve the accuracy.