著者
乙武 北斗 高丸 圭一 内田 ゆず 木村 泰知
出版者
Japan Society for Fuzzy Theory and Intelligent Informatics
雑誌
知能と情報 (ISSN:13477986)
巻号頁・発行日
vol.35, no.3, pp.700-705, 2023-08-15 (Released:2023-08-16)
参考文献数
10

議会会議録には議会におけるすべての発言が記録されている.議会会議録の発言内容に基づき,議会における議員の取り組みや政治的態度を明らかにする研究が進められている.従来の研究ではTF-IDFなどの単語ベースの方法が用いられており,複数単語のフレーズや文脈を考慮する表現力に欠けていた.本論文では,会議録中の各発言の発言者を推定するBERTベースの分類器とSHAPを用いて算出されるトークン単位の分類貢献度を利用し,発言文から文節単位で政治的関心を含む特徴的な表現を抽出する手法,およびその結果の分析について述べる.文節単位で係り受け関係も考慮することで,抽出された表現の文脈を提示できる.分析の結果,本手法はTF-IDFと比較して発言者の政治的関心が見受けられる特徴的な表現を多く抽出できることを確認した.また,TF-IDFでは抽出が困難な,発言者の独特の言葉遣いを抽出できることを確認した.
著者
木村 泰知 小林 暁雄 坂地 泰紀 内田 ゆず 高丸 圭一 乙武 北斗 吉田 光男 荒木 健治
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

本研究では,地方政治に関する研究の活性化・学際的応用を目指して,「議論の背景」「議論の過程」「議論の結果」を関連づけるコーパスの構築を進めている.本稿では,議論の背景・過程・結果を関連づける地方政治コーパスの構築の試みについて述べる.
著者
門脇 一真 木村 泰知 加藤 誠 近藤 隆史 乙武 北斗
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会第二種研究会資料 (ISSN:24365556)
巻号頁・発行日
vol.2023, no.FIN-030, pp.100-105, 2023-03-04 (Released:2023-03-04)

我々は,有価証券報告書(有報)に含まれるさまざまなタイプの表の理解を目的に,表構造解析を行うタスクを計画している.有報にはタクソノミがテキストブロックとして定義された箇所があり,特に非財務情報を表現する表には様々なタイプが含まれる.既存研究を参考に有報の表の各セルをヘッダ,属性,データといったクラスに分類した結果,既存研究で分類された関係表,エンティティ表,行列表などのいずれのパターンにも分類されない複雑な構造の表が見られ,さらにそれらの構造がいくつかのパターンに分類できた.本稿ではまず,各セルの分類方法と,その結果発見された表構造のパターンについて報告する.これらのうちセルが正しく分類できた表については,NTCIR-17 UFOタスクの表データ抽出(TDE)サブタスクでアノテーションデータを公開し,評価型ワークショップとして取り組めるようにする予定である.本稿ではこのタスクのデータ形式,評価方法についても取り上げる.
著者
西 雅大 石田 雅子 田辺 利文 乙武 北斗 吉村 賢治
雑誌
第81回全国大会講演論文集
巻号頁・発行日
vol.2019, no.1, pp.105-106, 2019-02-28

Webカタログの商品説明文では商品名に代表される固有名詞が多く含まれ、一般に利用されている機械学習を用いた機械翻訳では誤った翻訳結果を出力することが多い。商品説明文では類似した言い回しや表現が用いられることが多く、それらを表現パターンとして収集することにより品質の高い翻訳結果を得ることができる。本稿では、未知語の影響を受けやすい形態素解析や構文解析を用いない表現パターンベースの翻訳手法について報告する。本システムでは利用者が逐次的に単語や表現パターンを登録できることを目的に、文脈自由文法の非終端記号に相当する表現パターン上の変数の種類を極力少なくしている。
著者
石田 雅子 西 雅大 田辺 利文 乙武 北斗 吉村 賢治
雑誌
第81回全国大会講演論文集
巻号頁・発行日
vol.2019, no.1, pp.107-108, 2019-02-28

Webカタログの商品説明等を翻訳する場合、商品名など多くの固有名詞が原因で誤った解析が行われ、期待する結果が出力されない場合が多い。本研究では、形態素解析や構文解析を行わない表現パターンベースの翻訳支援システムにおいて、ユーザが逐次的に未知語や新しい表現パターンを追加して翻訳の質を高めることを目的としている。言語学の知識を持たない一般のユーザがこの機能を利用するには、できるだけ正確な未知語情報の検出が必要になる。本稿では、既存の表現パターンを利用した未知語検出の手法について報告する。
著者
中村 みなみ 乙武 北斗 吉村 賢治
出版者
電気・情報関係学会九州支部連合大会委員会
雑誌
電気関係学会九州支部連合大会講演論文集 平成28年度電気・情報関係学会九州支部連合大会(第69回連合大会)講演論文集
巻号頁・発行日
pp.290, 2016-09-21 (Released:2018-02-16)

観光客が興味をもつ観光ルートを作るためには、巡る観光地に何らかのストーリー性があることが望ましい。本稿では、観光地の案内文を使ってストーリー性がある観光ルートを作成するために必要な観光地のグルーピング手法について提案する。文書のグルーピング手法としてはTF/IDFを使って文書をベクトル化したうえで、類似度を計算する手法がある。しかしながら、TF/IDFに基づくベクトル空間では軸の直交性が保証できないため、グルーピングの精度が低下する原因となる。本稿では、Word2Vecに基づく単語の分散表現を利用してこの問題を改善する手法を提案する。
著者
高丸 圭一 内田 ゆず 乙武 北斗 木村 泰知
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.30, no.1, pp.306-318, 2015-01-06 (Released:2015-01-06)
参考文献数
25
被引用文献数
2

An onomatopoeia is a useful linguistic expression to describe sounds, conditions, degrees and so on. It is said Japanese is rich in onomatopoeic expressions. They are frequently used in daily conversations. The meaning and surface structure of an onomatopoeia varies diachronically. There seem to be regional variations in usage of onomatopoeias. It is necessary to investigate the actual condition of onomatopoeia quantitatively in order to apply onomatopoeias into artificial intelligence. This paper studies practical usages of onomatopoeias in spoken modern Japanese language. To explore Japanese onomatopoeias nowadays, we investigate regional assembly minutes collected from all areas in Japan. The corpus of regional assembly minutes, which has about 300 million words, is the target of the investigation of this study. The minutes of Japanese regional assemblies contain all transcriptions of the utterances in the assemblies. This corpus is suitable for our research since attributes of the speakers are clear and speakers are distributed nation-wide. The first research is about total frequency and regional distribution of onomatopoeias. The onomatopoeias, which represent a request for a promotion of policy, e.g., ``shikkari'', ``dondon'', are used at high frequency in regional assemblies. There are no remarkable regional differences in frequencies of these onomatopoeias though western Japan has slight higher frequency. The second research is about the meaning of the onomatopoeias. Most of onomatopoeias are polysemous. The meaning of the onomatopoeia differs by context. The authors have manually checked through 10,827 sentences, which contain 153 kinds of onomatopoeia, and then classified the meaning of each onomatopoeic expression. We analyzed for the following subjects: i) ambiguity of onomatopoeic expression, ii) regional differences in meaning, iii) new meanings in modern spoken language, iv) special usage in assemblies, and v) onomatopoeias in the named entities. The third research is about false extraction of onomatopoeias in the morphological analysis. The extraction errors are analyzed from the viewpoint of surface structure and appearance position. In terms of surface structure, it is clear that the word length of an onomatopoeic expression, which has highly false extraction, is shorter. The onomatopoeic expressions, which end with special morae, namely moraic obstruent, moraic nasal and long vowel, have a higher rate of false extraction. In terms of appearance position, dialectal grammar is the main factor causing false extraction. About 25% of false extraction is found in the sentence-closing particles in dialectal grammar. The result of quantitative analysis of the onomatopoeia in modern spoken Japanese language serves as the basic data which contributes to engineering. The results of the analysis in our research are exhibited through the WWW. It is hoped that results will contribute broadly to the practical use of onomatopoeia in the engineering field.
著者
乙武 北斗
雑誌
情報処理
巻号頁・発行日
vol.53, no.3, pp.224-228, 2012-02-15

2011年度から小学校5・6年生で英語授業が必修化された.近年の国際化と相まって,日本人英語学習者は今後も増加を続けることが予想される.日本語学習者の場合と同様に,日本人英語学習者が書く文には習熟度に応じて様々な誤りが含まれる.特に,日本語には存在しない冠詞や前置詞の誤りは,習熟度にかかわらず多く含まれることが報告されている.本稿ではこれらの誤りを自動的に校正する手法,およびそれと共に用いられる日本人英語学習者コーパスを紹介する.さらに,誤り自動校正手法とコーパスを組み合わせた学習者支援の試みについて述べる.
著者
木村 泰知 渋木 英潔 高丸 圭一 乙武 北斗 小林 哲郎 森 辰則
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.26, no.5, pp.580-593, 2011 (Released:2011-07-20)
参考文献数
14
被引用文献数
3

This paper presents an automatic question generation method for a local councilor search system. Our purpose is to provide residents with information about local council activities in an easy-to-understand manner. Our designed system creates a decision tree with leaves that correspond to local councilors in order to clarify the differences in the activities of local councilors using local council minutes as the source. Moreover, our system generates questions for selecting the next branch at each condition in the decision tree. We confirmed experimentally that these questions are appropriate for the selection of branches in the decision tree.