著者
飯田 龍 小町 守 井之上 直也 乾 健太郎 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_25-2_50, 2010 (Released:2011-06-23)
参考文献数
25
被引用文献数
5 7

本論文では,日本語書き言葉を対象とした述語項構造と照応関係のタグ付与について議論する.述語項構造解析や照応解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの解析のための主要な手法はタグ付与コーパスを用いた学習に基づく手法である.この手法を実現するためには大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で導入されているタグ付与の基準は,言語の違いや最終的に出力したい解析結果の粒度が異なるため,そのまま利用することができない.そこで,我々は既存のいくつかのタグ付与の仕様を吟味し,述語項構造と共参照関係のアノテーションを行うためにタグ付与の基準がどうあるべきかについて検討した.本論文ではその結果について報告する.また,京都コーパス第 3.0 版の記事を対象にタグ付与作業を行った結果とその際に問題となった点について報告する.さらにタグ付与の仕様の改善案を示し,その案にしたがい作業をやり直した結果についても報告する.
著者
浅原 正幸 金山 博 宮尾 祐介 田中 貴秋 大村 舞 村脇 有吾 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.1, pp.3-36, 2019-03-15 (Released:2019-06-15)
参考文献数
40
被引用文献数
2 3

Universal Dependencies (UD) は,共通のアノテーション方式で多言語の構文構造コーパスを言語横断的に開発するプロジェクトである. 2018 年 6 月現在,約 60 の言語で 100 以上のコーパスが開発・公開されており,多言語構文解析器の開発,言語横断的な構文モデルの学習,言語間の類型論的比較などさまざまな研究で利用されている. 本稿では UD の日本語適応について述べる.日本語コーパスを開発する際の問題点として品詞情報・格のラベル・句と節の区別について議論する.また,依存構造木では表現が難しい,並列構造の問題についても議論する.最後に現在までに開発した UD 準拠の日本語コーパスの現状を報告する.
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.203-222, 2005
被引用文献数
57

近年, web上に多数存在する掲示板などの文書から, 意見を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には, 評価を表す表現が重要な手がかりとなるが, それらの表現には「燃費がよい」「CGがきれい」といった領域依存の表現が多数存在するため, 人手で書き尽くすことは困難である.そこで, 我々は, 評価対象表現, 属性表現, 評価表現の共起情報を利用して, これら領域依存の表現を効率的に収集することを試みた.本稿では, 共起パタンに基づく属性・評価値表現の半自動的収集方法を提案し, 「コンピュータ」と「ゲーム」の2つの領域を対象に, 人手と提案手法で行なった収集効率実験の結果について報告する.
著者
岡 照晃 小町 守 小木曽 智信 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1641-1654, 2013-04-15

生の歴史的資料の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで本論文では,濁点付与の自動化について述べる.我々は濁点付与を文字単位のクラス分類問題として定式化した.提案手法は分類を周辺文字列の情報のみで行うため,分類器の学習には形態素解析済みコーパスを必要としない.大規模な近代語のコーパスを学習に使用し,近代の雑誌「国民之友」に適合率96%,再現率98%の濁点付与を達成した.Raw historical texts often include mark-lacking characters, which lack compulsory voiced consonant mark. Since mark-lacking characters degrade readability and retrievability, voiced consonant marks are annotated when creating historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical texts. In this paper, we propose an approach to automatic labeling of voiced consonant marks for mark-lacking characters. We formulate the task into a character-based classification problem. Since our method uses as its feature set only surface information about the surrounding characters, we do not require corpus annotated with word boundaries and POS-tags for training. We exploited large data sets and achieved 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo.
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.4, pp.77-84, 2002-01-21
被引用文献数
9

本論文では 情報検索の分野で提案されたPLSI(Probabilistic Latent Semantic Indexing)の方法を拡張したSemantic Aggregate Model を提案し 単語の持つ意味の概略を最尤推定の立場から$k$-次元の確率分布によって表現する. この表現によって 従来ベクトル空間モデルによって経験的に扱われてきた`意味'を数学的に見通しよく扱うことができる. 関連して 単語間の意味的な距離 意味的重みについての新しい指標を提案する.This paper proposes a Semantic Aggregate Model on word meanings by extending an Information Retrieval model PLSI (Probabilistic Latent Semantic Indexing.) Through the maximum likelihood estimation, this model renders approximate meanings of a word with a discrete probability distribution on latent classes. By this representation, the semantic distance and semantic weights of words can be reformulated mathematically.
著者
山田 寛康 工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.1, pp.44-53, 2002-01-15
参考文献数
16
被引用文献数
39

本稿では,機械学習アルゴリズムSupport Vector Machine(SVM)を用いて日本語固有表現抽出を学習する手法を提案し,抽出実験によりその有効性を検証する.固有表現抽出規則の学習には,単語自身,品詞,文字種などを素性として使用するため,その素性空間は非常に高次元となる.SVMは汎化誤差が素性空間の次元数に依存しないため,固有表現抽出規則の学習においても過学習を起こすことなく汎化性能の高い学習が実現できる.また多項式Kernel関数を適用することで複数の素性の組合せを考慮した学習が計算量を変えることなく実現できる.CRL固有表現データを用いてIREX固有表現抽出タスクに対して実験を行った結果,語彙,品詞,文字種,およびそれら任意の2つの組合せを考慮した場合,交差検定によりF値で約83という高精度の結果が得られた.In this paper, we propose a method for Japanese named entity (NE)extraction using Support Vector Machines (SVM). The generalizationperformance of SVM does not depend on the size of dimensions of thefeature space, even in a high dimensional feature space, such as namedentity extraction task using lexical entries, part-of-speech tags andcharacter types of words as the primitive features. Furthermore, SVMcan induce an optimal classifier which considers the combination offeatures by virtue of polynomial kernel functions. We apply the methodto IREX NE task using CRL Named Entities data. The cross validationresult of the F-value being 83 shows the effectiveness of the method.
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.6, pp.1834-1842, 2002-06-15
被引用文献数
147 76

本稿では,チャンキングの段階適用による日本語係り受け解析手法を提案し,その評価を行う.従来の係り受け解析は,任意の2文節間の係りやすさを数値化した行列を作成し,そこから動的計画法を用いて文全体を最適にする係り受け関係を求めるというモデルに基づくものが多かった.しかし,解析時に候補となるすべての係り関係の尤度を計算する必要があるため効率が良いとはいえない.本提案手法は,直後の文節に係るか係らないかという観点のみで決定的に解析を行うため,従来方法に比べ,モデル自体が単純で,実装も容易であり,高効率である.さらに,従来法では,個々の係り関係の独立性を前提としているが,本提案手法はその独立性を一部排除することが可能である.本提案手法を用い,京大コーパスを用いて実験を行った結果,従来法と比較して効率面で大幅に改善されるとともに,より高い精度を示した.In this paper, we propose a cascaded chunking method for Japanesedependency structure analysis. Conventional approachesmainly consist of two steps: First, the dependency matrix isconstructed, in which each element represents theprobability of a dependency. Second, an optimal combinationof dependencies are determined from the matrix. However,such a method is not always efficient since it needs tocalculate all the probabilities of candidates. Our proposedmodel is more simple and efficient, since it parses a sentence deterministically only deciding whether the current segment modifies segment on its immediate right hand side.In addition, proposed model does not assume the independence constraintin dependency relation. Experiments using the Kyoto UniversityCorpus show that the method outperforms previous systems as well as improves the parsing and training efficiency.
著者
工藤 拓 山本 薫 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.161, pp.89-96, 2004-05-13
参考文献数
21
被引用文献数
26

本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.
著者
加藤木 侑一 松本 裕幸 髙橋 潤 東 典子 千葉 晋
出版者
日本ベントス学会
雑誌
日本ベントス学会誌 (ISSN:1345112X)
巻号頁・発行日
vol.77, pp.27-37, 2022-12-25 (Released:2023-01-27)
参考文献数
65

The life history of Palaemon paucidens, a common freshwater shrimp inhabits many freshwater areas in Japan, remains unclear. In the present study, we surveyed a single population in a stream in Kesennuma, Miyagi Prefecture, Japan to elucidate the life history of this species. The spatio-temporal distribution pattern of the surveyed population was investigated in samples from seven stations established along the upstream and downstream sections of the stream. Size composition, state of sexual maturation, and appearance of hatched larvae were observed in samples collected from the mouth of the stream. Molecular species identification was used to confirm that the samples were P. paucidens. The results indicated that the total population consisted of three year-classes, and that many of the matured individuals (one or two years old) of both sexes seasonally migrated to the mouth of the stream. However, because some individuals remained in the freshwater area upstream, the migration of this species at our study site was partial. Larvae appeared at the same time as adults migrated downstream, and larvae hatched only at night. Based on age estimations in the field and the spawning intervals of females in a laboratory, it was peculated that two-year-old individuals would die after reproduction while one-year-olds would migrate upstream again. As the seasonal migration of both males and females corresponded to reproduction, we conclude that P. paucidens at our study site show diadromous migration and that their main migration pattern is catadromy.
著者
小野 眞紀子 大野 奈穂子 長谷川 一弘 田中 茂男 小宮 正道 松本 裕子 藤井 彰 秋元 芳明
出版者
JAPANESE SOCIETY OF ORAL THERAPEUTICS AND PHARMACOLOGY
雑誌
歯科薬物療法 (ISSN:02881012)
巻号頁・発行日
vol.27, no.2, pp.79-85, 2008-08-01 (Released:2010-06-08)
参考文献数
34
被引用文献数
4

15種類のカルシウム拮抗薬による歯肉増殖症発生頻度を検討した.歯肉増殖症はamlodipine, diltiazem, manidipine, nicardipine, nifedipineおよびnisoldipine服用者に認められたが, azelnipine, barnidipine, benidipine, efonidipine, felodipine, flunarizine, nilvadipine, nitrendipineおよびverapamil服用者にはみられなった.最も高い発生頻度はnifedipine (7.6%) であり, diltiazem (4.1%) , manidipine (1.8%) , amlodipine (1.1%) , nisoldipine (1.1%) , nicardipine (0.5%) の順であった.Nifedipineによる歯肉増殖症発生頻度は, amlodipine, manidipine, nicardipine, nisoldipineの発生頻度と比較して有意に高かった.
著者
椿 真史 新保 仁 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.31, no.2, pp.O-FA2_1-10, 2016-03-01 (Released:2016-06-09)
参考文献数
40

The notion of semantic similarity between text data (e.g., words, phrases, sentences, and documents) plays an important role in natural language processing (NLP) applications such as information retrieval, classification, and extraction. Recently, word vector spaces using distributional and distributed models have become popular. Although word vectors provide good similarity measures between words, phrasal and sentential similarities derived from composition of individual words remain as a difficult problem. To solve the problem, we focus on representing and learning the semantic similarity of sentences in a space that has a higher representational power than the underlying word vector space. In this paper, we propose a new method of non-linear similarity learning for compositionality. With this method, word representations are learnedthrough the similarity learning of sentences in a high-dimensional space with implicit kernel functions, and we can obtain new word epresentations inexpensively without explicit computation of sentence vectors in the high-dimensional space. In addition, note that our approach differs from that of deep learning such as recursive neural networks (RNNs) and long short-term memory (LSTM). Our aim is to design a word representation learning which combines the embedding sentence structures in a low-dimensional space (i.e., neural networks) with non-linear similarity learning for the sentence semantics in a high-dimensional space (i.e., kernel methods). On the task of predicting the semantic similarity of two sentences (SemEval 2014, task 1), our method outperforms linear baselines, feature engineering approaches, RNNs, and achieve competitive results with various LSTM models.
著者
松本 裕喜
巻号頁・発行日
2016-03-24

81p.
著者
西川 仁 平尾 努 牧野 俊朗 松尾 義博 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.4, pp.585-612, 2013-09-13 (Released:2013-12-12)
参考文献数
29

本論文では,複数文書要約を冗長性制約付きナップサック問題として捉える.この問題に基づく要約モデルは,ナップサック問題に基づく要約モデルに対し,冗長性を削減するための制約を加えることで得られる.この問題は NP 困難であり,計算量が大きいことから,高速に求解するための近似解法として,ラグランジュヒューリスティックに基づくデコーディングアルゴリズムを提案する.ROUGE に基づく評価によれば,我々の提案する要約モデルは,モデルの最適解において,最大被覆問題に基づく要約モデルを上回る性能を持つ.要約の速度に関しても評価を行い,我々の提案するデコーディングアルゴリズムは最大被覆問題に基づく要約モデルの最適解と同水準の近似解を,整数計画ソルバーと比べ100倍以上高速に発見できることがわかった.
著者
坪井 祐太 森 信介 鹿島 久嗣 小田 裕樹 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.6, pp.1622-1635, 2009-06-15
被引用文献数
4

本研究では文の一部にのみ単語分割情報を付与する部分的アノテーションに注目する.重要な部分や作業負荷の少ない部分にのみアノテーションをすることにより,新しい分野に対応するための学習データを効率的に作成できる.この部分的アノテーションを使用して条件付き確率場(CRF)を学習する方法を提案する.CRFは単語分割および自然言語処理の様々な問題でその有効性が示されている手法であるが,その学習には文全体へのアノテーションが必要であった.提案法は周辺尤度を目的関数にすることで部分的アノテーションを用いたCRFのパラメータ推定を可能にした.日本語単語分割器の分野適応実験において部分的アノテーションによって効果的に性能を向上させることが可能であったことを報告する.In this paper, we address word-boundary annotations which are done only on part of sentences. By limiting our focus on crucial part of sentences, we can effectively create a training data for each new target domain by conducting such partial annotations. We propose a training algorithm for Conditional Random Fields (CRFs) using partial annotations. It is known that CRFs are wellsuited to word segmentation tasks and many other sequence labeling problems in NLP. However, conventional CRF learning algorithms require fully annotated sentences. The objective function of the proposed method is a marginal likelihood function, so that the CRF model incorporates such partial annotations. Through experiments, we show our method effectively utilizes partial annotations on a domain adaptation task of Japanese word segmentation.
著者
大谷 貴美子 尾崎 彩子 松本 裕子 南出 隆久
出版者
一般社団法人日本調理科学会
雑誌
日本調理科学会誌 (ISSN:13411535)
巻号頁・発行日
vol.33, no.2, pp.204-211, 2000-05-20
被引用文献数
3

器と料理との色彩調和について研究する足がかりとして、最も単純な系として、つけ醤油と皿に着目し、醤油を入れるのに相応しい皿の色について、CRT上のカラーパレットを用いて検討を行った。白磁の皿に醤油を入れた画像を基本画像としてCRT上に取り込み、皿全体または皿の縁のみに、basic vivid colorの8色(スペクトラムブルー、サマサマーグリーン、若草色、カナリア、蜜柑色、シグナルレッド、マゼンダ、本紫)と各々の色の明度を50%から80%まで上昇させたものを用いて彩色した。そして、料理別(刺身、寿司、餃子、漬け物)に相応しいもの、醤油が美しくみえるもの、つけ醤油の皿の色として不適当なものについて検討を行った。その結果、刺身や寿司など生ものの新鮮さが要求される料理の場合は、ブルー系が好まれたが、漬け物や餃子ではむしろ、黄色を含む暖色系の方が好まれた。また、皿の縁のみに彩色した場合、餃子では、シグナルレッドが好まれるなど、同じつけ醤油の皿であっても用途によって、選ばれる皿の色が異なることが示唆された。色の世界は多様であり、実際の器を用いての研究には限界があるが、コンピューターを用いることで、視覚による美しさ、特に料理と器との関係について研究できる可能性が示唆された。