著者
田村 浩二 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.52, pp.91-96, 1995-05-26
被引用文献数
8 3

本稿では、センター理論を用いて複文を含む一般の談話の省略を扱う手法について述べる。センター理論は、代名詞・ゼロ代名詞の照応を解析する手法の1つであり、日本語の省略解析では現在もっとも一般的な手法である。しかし、単文など構造が簡単な文にしか適用できないなどの問題があった。本研究では、複文は単文+接続助詞に分解して談話を単文の列に変換し、その単文の列に対してセンター理論を適用して省略の補完を行なう。その際、接続助詞の機能を考慮した制約条件を用いて先行詞候補の絞り込みを行なう。In this paper, we present a method of resolving complex Japanese ellipsis using centering theory. Centering theory is one of anaphora resoluting methods, and a popular method of Japanese ellipsis resolution. However, it is impossible to deal with complex sentences. We regard complex sentences as a series of simple sentences, and apply centering theory to each sentence. We restrict candidates of antecedent using constraint derived from conjunctive postpositional particle.
著者
藤田 正悟 上垣外 英剛 船越 孝太郎 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-250, no.3, pp.1-6, 2021-09-21

抽出型要約は元の文書において重要度が高い文を抽出し要約として再構成する手法であり広く使われている.その一方,この方法では複数文書を横断して重要文を抽出し要約を構成する際に,抽出された文の順序が適切ではない場合がある.解決策として既存の文並び替えモデルを使って文並び替えを行うことが考えられるが,抽出型要約に適した文並び替えの教師データが存在せず,尚且つ抽出型要約において並び替えを考慮した評価尺度が存在しないという問題がある.そこで我々は抽出型要約に適した文並び替えの教師データの作成手法と抽出型要約を並び替える場合の評価指標を提案する.いくつかのベースラインと比較した結果,我々の評価指標は特に一貫性において人手評価と高い相関を示した.
著者
高村 大也 乾 孝司 奥村 学
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.2, pp.627-637, 2006-02-15

単語の感情極性(望ましいか否か)を判定する方法を提案する.提案手法では,単語の感情極性を電子のスピンの方向と見なし,語釈文,シソーラス,コーパスによって構築された語彙ネットワークをスピン系でモデル化する.平均場近似を利用してスピン系の状態を近似的に求めることにより,単語の感情極性を判定する.また,系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する.提案手法を用いてWordNet に収録されている語彙に対して実験を行い,14 語という少数の単語を種とした場合は約80%の正解率で,3 000
著者
鈴木 雄登 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-209, no.8, pp.1-7, 2012-11-15

昨今, Web サービスの発達により気軽に Web 上にテキストを投稿することが可能になった.それに伴い, 「パフェる」 や 「リムる」 のような新しいカタカナ動詞も多く使用されるようになった.しかしこうしたカタカナ動詞には一見しただけでは意味が推測できないものが多く存在する.そこで本研究では,カタカナ動詞の入力に対して語源と言い換えの 2 つを出力として提示すればその意味の理解の助けになるとの考えから,格要素の統計的分布を用いてカタカナ動詞の語源と言い換えを獲得する手法を提案する.
著者
高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.23, no.6, pp.505-513, 2008 (Released:2008-09-17)
参考文献数
22
被引用文献数
3 3

We discuss text summarization in terms of maximum coverage problem and its variant. To solve the optimization problem, we applied some decoding algorithms including the ones never used in this summarization formulation, such as a greedy algorithm with performance guarantee, a randomized algorithm, and a branch-and-bound method. We conduct comparative experiments. On the basis of the experimental results, we also augment the summarization model so that it takes into account the relevance to the document cluster. Through experiments, we showed that the augmented model is at least comparable to the best-performing method of DUC'04.
著者
馬緤 美穂 笹野 遼平 高村 大也 奥村 学
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.11, no.3, pp.12-22, 2018-10-17

本研究では,ある職業の人間がとる行動を獲得するためのシステムを提案する.提案システムは,対象の職業が主語となっている文から行動を抽出する主語ベース部,および,対象の職業に従事するユーザによって書かれた文から本人の行動を抽出する著者ベース部の2つの要素で行動を収集し,得られた行動と職業の間のカイ二乗値を計算することで職業に特徴的な行動を獲得する.クラウドソーシングを用いた評価を通し,2つの構成要素を組み合わせることでより幅広い職業について行動が獲得できること,また,主語ベース部では他者から言及されやすい行動が多く獲得される傾向にあるのに対し,著者ベース部では対象の職業の日常に根ざした行動が多く獲得される傾向にあることを示す.
著者
柏野 和佳子 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1133-1161, 2014

従来の紙版の国語辞典はコンパクトにまとめることが優先され,用例の記述は厳選され,必要最小限にとどめられていた.しかし,電子化編集が容易になり,電子化された国語辞典データや種々のコーパスが活用できるようになった今,豊富な用例を増補した電子化版国語辞典の構築が可能になった.そうした電子化版国語辞典は,人にも計算機にも有用性の高いものと期待される.著者らはその用例記述の際に見出し語のもつ文体的特徴を明記する方法を提案し,より利用価値の高い,電子化版の「コーパスベース国語辞典」の構築を目指している.文体的特徴の記述は,語の理解を助け,文章作成時にはその語を用いる判断の指標になり得るため,作文指導や日本語教育,日本語生成処理といった観点からの期待も高い.本論文では,古さを帯びながらも現代語として用いられる「古風な語」を取り上げる.これに注目する理由は,三点ある.一点目は,現代語の中で用いられる「古風な語」は少なくないにも関わらず,「古語」にまぎれ辞書記述に取り上げ損なってしまう危険性のあるものであること.二点目は,その「古風な語」には,文語の活用形をもつなど,その文法的な扱いに注意の必要なものがあること.三点目は,「古さ」という文体的特徴を的確かつ,効果的に用いることができるよう,十分な用法説明が必要な語であるということ,である.そこで,本論文では,これら三点に留意して「古風な語」の用法をその使用実態に即して分析し,その辞書記述を提案する.はじめに,現行国語辞典5種における「古風な語」の扱いを概観する.次に,「古風な語」の使用実態を『現代日本語書き言葉均衡コーパス』に収録される図書館サブコーパスを用いて分析し,「古風な語」の使用を,(1) 古典の引用,(2) 明治期から戦前まで,(3) 時代・歴史小説,(4) 現代文脈,に4分類する.そして,その 4 分類に基づく「コーパスベース国語辞典」の辞書記述方法を提案する.このような辞書記述は例えば,作文指導や日本語教育,日本語生成処理の際の語選択の参考になるものと期待される.
著者
奥村 学 瀬尾 量 長沼 広子 日高 慎二 児玉 裕文 前田 共秀 橋本 強 鶴岡 道雄
出版者
一般社団法人 日本医療薬学会
雑誌
病院薬学 (ISSN:03899098)
巻号頁・発行日
vol.17, no.3, pp.162-166, 1991-06-20 (Released:2011-08-11)
参考文献数
4

A new computerized system for making of drug envelope has been developed in Miyazaki Medical College Hospital Department of Pharmacy.Although such system has been already developed, most of system were not sufficient for labor-saving.This developed system has no need to put label on drug envelope, and to separate drug envelope.And the time to produce prescription and drug envelope was half as much as that of writing by hand.Hence We can use free time that we got by our system for other work.At all points, our system make a great contribution to labor-saving at hospital pharmacy.
著者
林 正頼 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-227, no.7, pp.1-7, 2016-07-22

英語教育において,学習者が書いた英作文が,どの程度のレベルであるかを把握することは,教育者,学習者双方にとって有用である.本研究では,英作文のレベル判定問題を順序回帰問題として定式化する.レベル判定の手がかりとして,語彙情報といった基本的な素性に加え,英作文に含まれる誤りの傾向や,文の容認性などを導入し,それらの有効性を検証する.
著者
投野 由紀夫 根岸 雅史 相川 真佐夫 寺内 一 中谷 安男 奥村 学 金子 恵美子 能登原 祥之 石井 康毅 内田 諭 和泉 絵美 大羽 良
出版者
東京外国語大学
雑誌
基盤研究(A)
巻号頁・発行日
2012-04-01

本科研の目的は日本人英語学習者の英語力に関する到達指標の提案およびそのレベル別言語材料の科学的な整備である。これを行うことで、シラバス開発、教科書・教材・タスク開発、テスト開発などに資する一貫した英語資料を提供できる。指標に関してはCEFR-JというCEFR準拠の英語汎用枠に基づいた。言語材料配当は、CEFR準拠教科書コーパス・学習者コーパスを独自に構築し、500以上の文法事項、テキスト特性、エラー特性に関してコーパス解析と機械学習の手法を用いて調査し、文法、テキスト、エラーの各プロファイルとして整備した。
著者
近藤 恵子 佐藤理史 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.11, pp.119-126, 2000-01-27
被引用文献数
3

本稿では,格変換による単文の言い換えを機械的に実現する方法を提案する.我々は,そのために必要な42の格変換規則と,言い換えに必要な情報を得るために使用する「動詞辞書」「自動詞?他動詞対応辞書」「有情/非情名詞辞書」の3つの辞書を作成した.格変換規則は,格のマッピング,述語のマッピング,名詞句の制約条件,動詞の制約条件から成る.名詞句の制約条件は,入力文の名詞句が有情か非情かで規則の適用を制限する.動詞の制約条件は,入力文の動詞の種類,使役形のタイプ,受動の可否,格から規則の適用を制限する.辞書は,変換する動詞を得るためと,制約条件を確認するために使用される.我々は,この規則と辞書を実装した言い換えシステムを作成した.言い換えシステムは,格変換規則を繰り返し適用することで言い換えを実現する.我々はこのシステムの実験を行い,有効性を確認した.This paper proposes a method of automatical paraphrasing of a simple sentence by case alternation. We make 42 case-alternation rules and three dictionaries: the verb dictionary, the dictionary that records intransitive verbs and their corresponding transitive verbs, and the dictionary that records animateness/inanimateness of nouns. A case-alternation rule consists of a cases mapping, a predicate mapping, a condition for a noun phrase, and a condition for a verb. The condition for a noun phrase restricts to applying the rule to an input sentence by whether the noun phrase in the sentence is animate ness or inanimateness. The condition for a verb restricts to applying the rule to an input sentence by the verb's type, the causative voice, the passive voice, and cases. We have constructed the paraphrase system implemented these alternation rules. This system generates all possible paraphrasing. We have conducted an experiment with this system, and show the effectiveness of the method.
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.11, pp.3021-3031, 2006-11-15
参考文献数
23
被引用文献数
5

複数語から成る評価表現のモデルおよびそれに基づいた分類手法を提案する.複数語から成る評価表現の感情極性は,その構成語の感情極性を単純に足し合わせるだけでは算出できないことが多い.極性の出現や反転が頻繁に起こる.そのような複数語表現の特性に対応するために,我々はモデルに隠れ変数を導入する.実験により,提案した隠れ変数モデルは複数語から成る評価表現分類において,約82%という高い分類正解率を得ることに成功した.We propose models for semantic orientations of phrases as well as classification methods based on the models. Although each phrase consists of multiple words, the semantic orientation of the phrase is not a mere sum of the orientations of the component words. Some words can invert the orientation. In order to capture the property of such phrases, we introduce latent variables into the models. Through experiments, we show that the proposed latent variable models work well in the classification of semantic orientations of phrases and achieved nearly 82% classification accuracy.
著者
長谷川 隆明 西川 仁 今村 賢治 菊井 玄一郎 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.133-143, 2010 (Released:2010-01-06)
参考文献数
16
被引用文献数
2

Recently, web pages for mobile devices are widely spread on the Internet and a lot of people can access web pages through search engines by mobile devices as well as personal computers. A summary of a retrieved web page is important because the people judge whether or not the page would be relevant to their information need according to the summary. In particular, the summary must be not only compact but also grammatical and meaningful when the users retrieve information using a mobile phone with a small screen. Most search engines seem to produce a snippet based on the keyword-in-context (KWIC) method. However, this simple method could not generate a refined summary suitable for mobile phones because of low grammaticality and content overlap with the page title. We propose a more suitable method to generate a snippet for mobile devices using sentence extraction and sentence compression methods. First, sentences are biased based on whether they include the query terms from the users or words that are relevant to the queries, as well as whether they do not overlap with the page title based on maximal marginal relevance (MMR). Second, the selected sentences are compressed based on their phrase coverage, which is measured by the scores of words, and their phrase connection probability measured based on the language model, according to the dependency structure converted from the sentence. The experimental results reveal the proposed method outperformed the KWIC method in terms of relevance judgment, grammaticality, non-redundancy and content coverage.
著者
野呂 太一 乾 孝司 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.10, pp.3405-3414, 2007-10-15
参考文献数
14
被引用文献数
2

本論文では,ブログテキスト中に記述されたイベントが,実世界において朝,昼,夕,夜のどの時間帯で生起したかを自動判定するアルゴリズムを提案する.生起時間帯を判定する直接的な情報として,「午後3 時に~した」等の明示的な時間表現が考えられるが,ブログテキストでは,明示的な時間表現が現れにくい.そこで,本研究では,明示的な時間表現の代わりに,イベントの生起時間帯を連想させる語(「出勤」,「花火」等)の情報を利用する.イベントの生起時間帯を連想させる語集合を人手のみで収集することは表現の多さから現実的にほぼ不可能な作業である.そのため,提案手法では,ブートストラップ的に,イベントの生起時間帯の学習と並行して同時に,イベントの生起時間帯を連想させる語を自動獲得する.We propose a machine learning-based method for identifying when each event in weblog texts occurs: morning, daytime, evening, or night. Earlier study analyzed only explicit temporal expressions for events and mapped them on time-line in newswire texts. However, other texts such as weblogs contain few explicit temporal expressions. We therefore use various implicit temporal expressions extracted automatically. Specifically, we adopt naive bayes classifiers backed up with the EM algorithm, and support vector machines.
著者
南野 朋之 鈴木 泰裕 藤木 稔明 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.23, pp.129-136, 2004-03-05
被引用文献数
4

近年注目され始めている情報源としてblog (Weblog)がある.現在,blogというと,blogツールと呼ばれる管理ツールを使用して作成されるWebページを指すことが多いが,日本ではblogツール登場以前から,Web日記という形で個人による情報発信が行われており,非常に有用な情報源となっている.そこで本研究では,このようなWeb日記も含めてblogと呼び,特定のツールやメタデータに依存しない,HTML文書の解析に基づいた手法で,これら個人の発信する時系列に沿って掲載される情報を網羅的に収集,監視するシステムを提案する.We present a system that tries to automatically collect and monitor Japanese blog collections that include not only ones made with blog softwares but also ones written as normal web pages. Our approach is based on extraction of date expressions and analysis of HTML documents. Our system also extracts and mines useful information from the collected blog pages.
著者
田村 晃裕 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.6, pp.1954-1962, 2006-06-15
参考文献数
12

既存の質問応答システムは,複数文で構成される質問には答えられない.そこで,我々はそのような複数文質問にも対応できる質問応答システムの構築を目指す.その第1 段階として,複数文質問の質問タイプを同定する手法を提案する.具体的には,まず最初に,入力として与えられた複数文質問から質問タイプを決める際に最も重要な1 文を抽出する.そして,その抽出された1 文を用いて質問タイプを同定するという手法をとる.また,本論文では,質問タイプを同定する際に有効な情報となる名詞を特定するルールも提案する.複数文質問を含んだ実験データに対して,これらの情報と手法を用いて質問タイプを同定することで,F 値が8.8%,正解率が4.4%改善できた.Conventional QA systems cannot answer to the questions composed of two or more sentences. Therefore, we aim to construct a QA system that can answer such multiple-sentence questions. As the first stage, we propose a method for classifying multiple-sentence questions into question types. Specifically, we first extract the core sentence from a given question text. Then, we use the core sentence in question classification. We also propose a rule for extracting the effective noun in question classification. The result of experiments with the dataset including multiple-sentence questions shows that the proposed method improves F-measure by 8.8% and accuracy by 4.4%.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014
被引用文献数
3

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.
著者
佐藤 紗都 伍井 啓恭 奥村 学
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

本研究では、製品マニュアル文から関連する質問回答対を自動的に生成するシステムを開発するための第一歩として、マニュアル文から質問文を自動的に生成する方法を提示する。 約1400文のデータセットを用いた実験の結果、生成された文章と人手で作成された質問文とを比較することにより、BLEUスコア62.11を得た。
著者
新森 昭宏 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.111-128, 2005-07-10
参考文献数
16
被引用文献数
2 4

特許明細書には, 特許請求項と「発明の詳細な説明」が記述される.特許請求項は特許明細書において最も重要な部分であるが, 構成的または結合的に記述されるため, 可読性が低い.「発明の詳細な説明」と, 特許請求項を対応付けることにより, (1) 特許請求項に対する作用 (機能) と効果を明確化する, (2) 特許請求項の重要箇所を明確化する, (3) 特許請求項で使われている表現に関する言い換えを取得する, 等の効果が得られ, 特許請求項の読解支援につながる.本稿では, 特許請求項を構造解析し, その結果を用いて, 「用言文節を起点としたローカルアラインメント」を行うことにより, 「発明の詳細な説明」との対応付けを行う手法を提案する.NTCIR3の特許データコルクションからランダムに抽出した100件のうち88件の特許明細書を対象として評価を行い, その有効性を確認した.