著者
青木 竜哉 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.381-406, 2019-06-15 (Released:2019-09-15)
参考文献数
35

ソーシャルメディアにおいては,辞書に掲載されているような用法とは全く異なる使われ方がされている単語が存在する.本論文では,ソーシャルメディアにおける単語の一般的ではない用法を検出する手法を提案する.提案手法では,ある単語が一般的ではない使われ方がされていた場合,その周辺単語は一般的な用法として使われた場合の周辺単語と異なるという仮説に基づいて,着目単語とその周辺単語の単語ベクトルを利用し,注目している単語の周辺単語が均衡コーパスにおける一般的な用法の場合の周辺単語とどの程度異なっているかを評価することにより,一般的ではない用法の検出を行う.ソーシャルメディアにおいて一般的ではない用法を持つ40単語を対象に行った実験の結果,均衡コーパスと周辺単語ベクトルを用いる提案手法の有効性を確認できた.また,一般的でない用法の検出においては,単語ベクトルの学習手法,学習された単語ベクトルの扱い方,学習コーパスを適切に選択することが重要であることがわかった.
著者
根岸 雅史 投野 由紀夫 酒井 英樹 長沼 君主 高田 智子 内田 諭 金子 恵美子 村越 亮治 奥村 学 工藤 洋路 能登原 祥之 小泉 利恵 石井 康毅 篠崎 隆宏 和泉 絵美 印南 洋 中谷 安男
出版者
東京外国語大学
雑誌
基盤研究(A)
巻号頁・発行日
2016-04-01

まず、指導タスクとテスト・タスクのうち、CEFR-Jの各CAN-DOディスクリプタに基づくテスト・タスクの開発およびその困難度の検証を優先することを決定した。各CAN-DOディスクリプタに基づく評価タスクの開発としては、2017年度はPre-A1からA2.2を作成したが、2018年度はB1.1からB2.2までのテスト項目の開発と検証を行った。リーディングにおいては、リーディングのテキスト・タイプ、テキスト困難度、タスクについて検討し、修正をした後、テスト・セットを作成した。リスニングにおいては、リーディングと同様、リスニングのテキスト・タイプ、テキスト困難度、タスクについて検討し、修正をしたが、音声の収録およびテストの実施には至らなかった。ススピーキング(発表)・スピーキング(やりとり)・ライティングにおいては、タスクと採点方法について検討し、修正をした後、テスト・セットを作成した。これらのテストをそれぞれ実施し、採点・統計的な分析・解釈を行った。言語処理班では、リーディングやリスニングのテキスト分析の結果に基づき、テキストのCEFR-Jレベルの判定を可能にするプログラムの開発を行い、公開した。さらに、文法のレベル別基準特性を判定を可能にするCEFR-J Grammar Profileを開発・公開した。音声認識では、スピーキング・テスト解答データを追加することで、音声認識プログラムの精度を向上した。2019年3月23日に「CEFR-J 2019シンポジウム in 京都」を開催し、170名余りの参加者があった。このシンポジウムでは、3年間の研究成果の発表をするとともに、CEFR-Jのリソースの活用ワークショップも行った。さらに、CEFR-Jの利用企業や協力校の発表機会を提供した。これらの活動により、CEFR-Jが広く認知され、日本の英語教育の改善に大きく資することができた。
著者
川村 陸 青木 竜哉 上垣外 英剛 高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2020, pp.3Rin409, 2020

<p>SNS上のテキストにはスペルミス,強調文字,インターネットスラングなどの非標準的な単語が多く使用される.非標準的な単語を多く含んでいると読者が文章の意味を理解できないだけでなく,SNSを対象とした自然言語処理を行う上の障壁となる.この問題を解決するために,非標準的な単語を含む文を訂正するテキスト標準化が必要とされている.このような需要に対処するため本研究では,深層学習を用いて文字列・音の類似性をモデル化することで,より高度なテキスト標準化を目指す.提案手法では,文字列の類似性を考慮することでpepoleとpeopleの様な表記ゆれに対応することができる.さらに,音の類似性を考慮することで,yesssとyes,disとthisの様な発音に起因した文字の置き換えに対応することが可能である.評価実験では,文字列・音の類似性を考慮した提案手法が最高精度を達成することを確認した.</p>
著者
高村 大也 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.174-182, 2010 (Released:2010-01-06)
参考文献数
31
被引用文献数
1 4

e propose a novel multi-document generic summarization model based on the budgeted median problem, which is a facility location problem. The summarization method based on our model is an extractive method, which selects sentences from the given document cluster and generates a summary. Each sentence in the document cluster will be assigned to one of the selected sentences, where the former sentece is supposed to be represented by the latter. Our method selects sentences to generate a summary that yields a good sentence assignment and hence covers the whole content of the document cluster. An advantage of this method is that it can incorporate asymmetric relations between sentences such as textual entailment. Through experiments, we showed that the proposed method yields good summaries on the dataset of DUC'04.
著者
笹野 遼平 河原 大輔 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1207-1233, 2014-12-15 (Released:2015-03-15)
参考文献数
31

日本語において受身文や使役文を能動文に変換する際,格交替が起こる場合がある.本論文では,対応する受身文・使役文と能動文の格の用例や分布の類似性に着目し,Web から自動構築した大規模格フレームと,人手で記述した少数の格の交替パターンを用いることで,受身文・使役文と能動文の表層格の対応付けに関する知識を自動獲得する手法を提案する.さらに,自動獲得した知識を受身文・使役文の能動文への変換における格交替の推定に利用することによりその有用性を示す.
著者
笹野 遼平 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.5, pp.687-703, 2017

<p>日本語二重目的語構文の基本語順に関しては多くの研究が行われてきた.しかし,それらの研究の多くは,人手による用例の分析や,脳活動や読み時間の計測を必要としているため,分析対象とした用例については信頼度の高い分析を行うことができるものの,多くの仮説の網羅的な検証には不向きであった.一方,各語順の出現傾向は,大量のコーパスから大規模に収集することが可能である.そこで本論文では,二重目的語構文の基本語順はコーパス中の語順の出現割合と強く関係するという仮説に基づき,大規模コーパスを用いた日本語二重目的語構文の基本語順に関する分析を行う.100 億文を超える大規模コーパスから収集した用例に基づく分析の結果,動詞により基本語順は異なる,省略されにくい格は動詞の近くに出現する傾向がある,Pass タイプと Show タイプといった動詞のタイプは基本語順と関係しない,ニ格名詞が着点を表す場合は有生性を持つ名詞の方が「にを」語順をとりやすい,対象の動詞と高頻度に共起するヲ格名詞およびニ格名詞は動詞の近くに出現しやすい等の結論が示唆された.</p>
著者
藤田 綜一郎 小林 隼人 奥村 学
出版者
人工知能学会
雑誌
2019年度 人工知能学会全国大会(第33回)
巻号頁・発行日
2019-04-08

オンラインニュースサイトには,読者の議論の場としてコメント欄が設けられているものがある.そこでは,コメントを肯定的な読者評価が多い順にランキング(順位付け)し,読者に優先的に提示しているが,コメントの良さが平等に評価されていないという問題点が知られている.良いコメントを直接ランキングする研究も行われているが,分類器の精度が高くないという課題が残されていた.一方で,分類器のアンサンブルはモデルの精度を向上させる手法として広く知られている.最近では,要約タスクにおいて,モデル間の類似度を用いてモデルの多数決をとることで高速に動作し,かつ高い精度が得られたという報告がある.我々はドメインの性質から,コメントのランキングに,この類似度を用いた多数決によるアンサンブルモデルが適用できると考えた.そこで本研究では,ランキングの評価指標を用いて記事毎にモデルの重要度を変化させる,多数決ベースの教師なしアンサンブル手法を提案する.ニュースコメントの建設的度合いをランキングするタスクの実験を行い,結果として,モデルの出力を評価指標の値で重み付けや取捨選択することで既存手法を上回る精度を達成した.
著者
山田一郎 三浦菊佳 住吉英樹 八木伸行 奥村学 徳永健伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.82, pp.25-30, 2006-07-27
参考文献数
9
被引用文献数
2

テレビ番組のナレーションでは、「場所紹介」や「人物紹介」など特定の事柄を表現するために同じような言い回しが多用される。このような言い回しを含む文章区間が抽出できれば、対応する番組映像区間の場所紹介や人物紹介といったメタデータを付与することができる。そこで本稿では、番組のクローズドキャプションを対象として定型表現を含む文章区間を抽出する手法を提案する。提案手法では、複数文のテキストデータから木構造を生成して、木構造間の類似性を木構造に含まれる部分木の類似度により評価する。この結果を弱学習器としたAdaBoostアルゴリズムにより学習を行い定型表現か否かの判定を行う。紀行番組のクローズドキャプションを対象として、場所を映像とともに説明する定型表現文章区間を抽出する実験を行い、提案手法の有効性を確認した。In the closed captions, there are a lot of typical expressions to express specific things, for example, first introduction of a guest in a talk show or explanation of a place in travel program. Such information helps us to put matadata to the corresponding scenes. This paper proposes a method to extract a section including typical expressions. The first step generates tree structures from inputted section of sentences and evalutes the similarities between those tree structures. We use these similarities as weak larners of adaboost algorism to judge whether the section of sentences includes typical expressions or not. In the experiment of detecting sections including typical expressions which explain a place with video targeting closed capitions of TV programs conserned with travel, we show the effectiveness of our method.
著者
近藤 恵子 佐藤理史 奥村 学
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.11, pp.4064-4074, 1999-11-15

本稿では,「サ変名詞+する+接尾辞」からより平易な動詞相当句への言い換えを機械的に実現する方法を提案する.この方法は,5つの言い換え規則と4つの辞書とアルゴリズムから成っている.もし与えられた入力に特別な接尾辞がなければ,最も基本的な置換の規則が適用され,そのために,サ変名詞?動詞相当句対応辞書と動詞活用辞書が使用される.もし,テイル形,使役表現,受動表現,可能表現を表す接尾辞があれば,アルゴリズムにより最も適切な規則が適用される.その規則は,自動詞?他動詞対応辞書と有情/非情名詞辞書から得られる構文と意味の情報によって選択される.我々はこの方法に基づいた言い換えシステムを作成し,その有効性を確認した.
著者
小松 弘幸 奥村 学 岩切 智美 林 克裕
出版者
日本シミュレーション医療教育学会
雑誌
日本シミュレーション医療教育学会雑誌 = Journal of Japan Association for Simulation-based Education in Healthcare Professionals (ISSN:21879281)
巻号頁・発行日
vol.2, pp.1-6, 2014

【目的】最近の6年制薬学教育では、学生へのフィジカルアセスメント(Physical Assessment; PA)実習も徐々に取り入れられているが、病院で勤務している薬剤師を対象にPA実習を行っている施設は少ない。今回我々は、大学病院薬剤師を対象に医療シミュレータを活用した系統的PA実習を実施し、参加者の実習前後での自己評価の変化を検討した。###【方法】対象は本院薬剤師21名。薬剤師におけるPA総論、バイタルサインの診かた、肺音聴診、心電図モニター判読、薬剤による患者の急変と対応の5項目を、医師1名の指導の下、毎月1回ずつ約90分で実施した。実習では肺音聴診シミュレータ"ラング"®やハートシム4000®、Sim Man 3G®を使用した。実習前後でPAに関する自己評価と実習内容に関するアンケート調査を実施した。###【結果】実習前のPA経験は、バイタルサイン測定が3名、心電図モニター判読が4名、聴診は0名と少なかった。患者のバイタルサイン評価について4段階で自己評価してもらった結果、「自信がある」あるいは「ある程度自信がある」と評価した割合は、実習前後で、意識状態:14%→83%、体温:52%→100%、血圧:33%→91%、脈拍:19%→87%、呼吸状態:14%→61%へと有意に上昇した(全てp<0.01)。実習後アンケートでは、対象者全員が全項目とも今後の薬剤師業務に役立つと回答した。###【結語】医療シミュレータを活用した病院薬剤師へのPA実習は、薬剤師生涯教育の一つの方法として有用と考えられる。Aims: Opportunities for pharmacy students to acquire physical assessment (PA) skills have gradually increased since the six-year education system was introduced in Japan. However, learning opportunities for hospital pharmacists are insufficient. Therefore, we provided a series of lessons in PA for hospital pharmacists using auscultation and high-fidelity simulators for training in emergency medical care and evaluated whether their self-assessment of PA improved thereafter.###Methods: Twenty-one pharmacists at our hospital self-evaluated their abilities to measure vital signs before and after undergoing training using simulators in the general theory of PA, vital sign assessment, lung auscultation sounds and interpretation of electrocardiographic patterns on monitors. They were also presented with scenarios simulating drug-induced changes in physical status. ###Results: A preliminary survey revealed that most of the participants had never physically assessed hospitalized patients. The stages of self-assessment for the skill of measurement of vital signs were significantly improved after the training. All participants found that training using medical simulators was an effective method of learning PA skills.### Conclusion: Physical assessment training with medical simulators is a useful method of continuing education for pharmacists in hospitals.
著者
永田 将司 岩切 智美 奥村 学 有森 和彦
出版者
一般社団法人日本医療薬学会
雑誌
医療薬学 (ISSN:1346342X)
巻号頁・発行日
vol.37, no.5, pp.289-295, 2011 (Released:2012-08-02)
参考文献数
5

Pharmacists can play a significant role in medical care by helping to ensure the proper use of drugs, and a knowledge of pharmacokinetics is indispensable for this. Therapeutic Drug Monitoring (TDM) is a pharmacy practice that involves the full use of such knowledge. Practical training in TDM in pharmacist education should thus be an optimal way acquiring skill in applying pharmacokinetics knowledge in the clinical setting. However, in the Model Core Curriculum for practical training at hospitals implemented in 2010, there is only 1 specific behavioral objective (SBO) concerning TDM, and only 1 day is given to training on TDM. With this in mind, we developed an original experience-based TDM curriculum that includes 5-days of practical training. The curriculum was introduced for students in the 2010 pharmaceutical internship to evaluate its components.All students who took our curriculum considered that the 1-day of TDM training stipulated in the Model Core Curriculum was not sufficient, and that around 5 days of training, the period we have set, would be necessary. They also indicated a high level of satisfaction with it, viewing the training components as appropriate. These findings suggest that our curriculum would be effective.
著者
望月 源 岩山 真 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.3, pp.101-126, 1999
被引用文献数
7

計算機上の文書データの増大に伴い, 膨大なデータの中からユーザの求める文書を効率よく索き出す文書検索の重要性が高まっている. 伝統的な検索手法では, 文書全体を1つのまとまりとして考え検索要求との類似度を計算する. しかし, 実際の文書, 特に長い文書では様々な話題が存在し, 文書中の各部分によって扱われる話題が異なる場合も多く見られる. そのため, 最近の文書検索では, ユーザの入力した検索要求と関連の高い文書の一部分を取り出して類似度を計算するパッセージレベルの検索が注目されている. パッセージ検索におけるパッセージとは, 文書中で検索要求の内容と強く関連する内容を持つ連続した一部分のことを言う. パッセージ検索では, このパッセージをどのように決定するかが問題となる. 良いパッセージを決定するためには, パッセージ自体が意味的なまとまりを形成し, パッセージの位置やサイズが検索要求や文書に応じて柔軟に設定される必要があると考えられる. 本稿では, 文書中の文脈情報である語彙的連鎖を利用し, 検索要求と文書の適切な類似度を計算できるパッセージ決定手法について述べる. また, このパッセージを使用し, 検索精度を向上させる検索手法について述べる.
著者
大塚 敬義 内海 彰 奥村 学
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.101, no.61, pp.19-26, 2001-05-11
被引用文献数
3 2

文章の自動要約を行う際に脱落した先行詞を補完することは, 文章の結束性を保つ上で重要である. 本研究では要約文中に出現する「この」「その」「あの」などのコソア系列の連体詞形態指示詞を取り扱う. 新聞の解説記事を対象とした自動要約の過程で, 脱落した先行詞を文単位でなく語句単位で推定して補完処理を行うことにより, 要約文の結束性を維持しつつ文字数を抑えることに成功している. 具体的には先行詞の候補となる形態素を複数取り出し, 表層的表現を手がかりとし, またシソーラスを用いて先行詞となる最適な名詞を選択する. その名詞に係る直前の要素が, 体言か用言かに応じて複数の形態表を結合させた先行詞句を生成する.
著者
田村 晃裕 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.17-24, 2006-11-22
被引用文献数
1

係り受け解析を符号化・復号化問題として解く手法を提案する.従来は,2文節間の係りやすさ,つまり係り受け木でいう親子関係になるかを基に係り受けを解析している.この従来の考えに従うと,親子関係の情報を表した符号を用いた符号化・復号化問題を解くことになる.係り受け解析を符号化・復号化問題と捉えると,符号化・復号化問題における,誤りがある程度生じても訂正できるように,符号に冗長な情報を加え,使用する符号間の距離を大きくする手法を係り受け解析に援用できる.そこで,本研究では,親子関係の情報の他に,祖先子孫関係になるかという情報を冗長な情報として符号に加えることで精度の向上をはかった.実際に本手法で係り受け解析をし,高い精度が得られたことを報告する.We propose a novel method for Japanese dependency analysis. In deterministic approaches to this task, dependency trees are constructed by actions of attaching a bunsetsu chunk to one of the nodes in the trees. Therefore the task is reduced to deciding the node for the new bunsetsu chunk to be attached.We propose to encode each decision with a sequence of binary values, that is, a code. This representation of decisions enables the model to incorporate ancestor-descendant relations between nodes in addition to parent-child relations. We also propose to concatenate the code of parent-child relation and the code of ancestor-descendant relation, so that the added redundancy in codes helps errors be corrected. Experimental results show that the proposed method achieves higher accuracy in the task of Japanese dependency analysis.
著者
木原 裕二 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014-SLP-101, no.19, pp.1-6, 2014-05-15

ソーシャルメディアのユーザの中には複数のソーシャルメディアのアカウントを関連付けずに使用しているユーザがいる.しかし,特徴的な表現や話題などから,それらの複数のアカウントが同じユーザにより作成されたものであると第三者に推測されてしまう場合がある.本研究では,まず,Twitter とブログの著者の同一性推定システムを構築することにより,どのような特徴がこれらのアカウントが同じユーザにより作成されたものと判断される要因となるのかを明らかにし,そこから得られた知見をもとにした関連付け防止システムの構築を行う.
著者
丸川 雄三 岩山 真 奥村 学 新森 昭宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.87, pp.23-28, 2002-09-17
被引用文献数
1

従来のDPマッチングでは難しかった交差の存在するテキスト間の対応付けを行う手法を提案する.提案手法の特徴は以下の二点である.まずはテキスト間における部分文字列同士のアラインメント,すなわちローカルアラインメントの概念と,その計算手法としてローカルアラインメントDPマッチングを導入した点であり,もう一点はローカルアラインメントの順位付けを行い,対応付けに利用した点である.前者の工夫により,DPマッチングの利点である類似度の最適化と計算量の削減を実現し,後者の工夫により,交差にも対応したテキスト間の柔軟な対応付けを実現した.提案手法の適用例として,公開特許公報全文における「請求項」と「発明の詳細な説明」との対応付けを紹介し,本手法の有効性を議論する.A method of aligning a text with another text, in which the partial alignments include crossovers and overlaps, is proposed. This method has the following two characteristics. One is to introduce the concept of the local alignment between sub-strings and use the dynamic programming to enumerate the possible local alignments. Another is to extract sub-optimal local alignments in addition to the optimal one. The former realizes efficient enumeration of local alignments and the latter realizes flexible text matching, where the partial alignments have crossovers and overlaps. We show an example of applying the method for finding alignments between "claims" and "embodiments" in a patent application, and discuss its effectiveness.
著者
前川 喜久雄 山崎 誠 松本 裕治 傳 康晴 田野村 忠温 砂川 有里子 田中 牧郎 荻野 綱男 奥村 学 斎藤 博昭 柴崎 秀子 新納 浩幸 仁科 喜久子 宇津呂 武仁 関 洋平 小原 京子 木戸 冬子
出版者
大学共同利用機関法人人間文化研究機構国立国語研究所
雑誌
特定領域研究
巻号頁・発行日
2006

当初の予定どおりに、5000万語規模の現代日本語書籍均衡コーパスを構築して2011年に公開した。同時に構築途上のコーパスを利用しながら、コーパス日本語学の確立にむけた研究を多方面で推進し、若手研究所の育成にも努めた。現在、約200名規模の研究コミュニティーが成立しており、本領域終了後も定期的にワークショップを開催するなど活発に活動を続けている。
著者
森田 一 奥村 学 東中 竜一郎 松尾 義博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 自然言語処理研究会報告
巻号頁・発行日
vol.2012, no.3, pp.1-6, 2012-11-15

Twitter 上の対話はチャットのログ等とは異なり,発話にはリプライやリツイートといった明示的な形で他の発話と関連していることを示す情報が含まれる場合がある.そのため,これらの情報を積極的に利用することが Twitter 上の発話間の関係を同定する際には重要となる.関係の同定によく用いられている Markov Logic Network (MLN) 上で Twitter 特有の情報を利用し,発話間の関係の有無とその種類の同定を行うモデルを提案する.一方,発話系列には長さに制限がなく非常に長い対話となることもしばしば存在する.このような長い発話に MLN を適用する際に, MLN が大きな問題に対しては計算が困難であることが問題となる.本稿では MLN に対して SVM における動的素性に対応する動的述語を導入することにより,分割した系列に対して近似的に推論が行えるように MLN に対して拡張を行う.