著者
是枝 祐太 森下 皓文 今一 修 十河 泰弘
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第37回 (2023) (ISSN:27587347)
巻号頁・発行日
pp.4Xin108, 2023 (Released:2023-07-10)

プログラムコードの再利用はソフトウェア開発における基本的な生産性向上方法であるが,コードレポジトリの説明文 (readme) は整備コストが高く,しばしばreadmeが整備されないことがコードの再利用を妨げている.近年報告された研究は関数・クラスなど数十行のコードに具体性の高いコメントを付与するが, readmeの生成においては数万から数百万行のコードを抽象的に要約して生成を行う必要があるため,コメント生成技術をreadme生成の問題にそのまま適用することはできない.本研究では,レポジトリが実施することの概要を示す代表的なコード断片 (代表コード) をヒューリスティクスと弱教師付き学習により抽出することで,大規模言語モデルでreadmeを生成できることを示した.主観評価と自動評価により,提案手法の有効性を確認した.
著者
尾崎 花奈 十河 泰弘
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第36回 (2022) (ISSN:27587347)
巻号頁・発行日
pp.4D3GS602, 2022 (Released:2022-07-11)

特許情報は、企業が技術潮流や競合他社の状況を把握する上で重要な情報である。特許の俯瞰解析は、着目する技術分野の特許集合のクラスタリングと可視化により、特許を俯瞰的に観察し、自社の位置づけや競合企業の動向の把握を支援する。各クラスタにおいては、クラスタラベルと呼ばれる代表的なキーワードをユーザに示すことで、クラスタ内の特許の技術的な特徴を捉えることが可能である。しかし、同一分野に属する特許集合をクラスタリングした場合、どのクラスタにも高頻度で出現する単語が存在するため、クラスタ内で高頻度の単語をラベルとすると、ラベルがクラスタ間で重複してしまうという課題があった。そこで本報告においては、特許文書中の複合語をラベルの対象として、他クラスタとラベルの重複を防ぐクラスタラベリング方法を提案する。実験において特許公報を対象とした評価を行い、本手法の有効性を確認した。
著者
森下 皓文 森尾 学 山口 篤季 十河 泰弘
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第37回 (2023) (ISSN:27587347)
巻号頁・発行日
pp.2E5GS605, 2023 (Released:2023-07-10)

言語モデルは高い言語理解能力を持つ一方で,論理的な推論は苦手であることが分かってきている.この課題に対して近年,自動で生成した大量の演繹推論事例(演繹コーパス)の学習によって演繹推論能力を強化するアプローチが提案されており,一定の効果が確認されている.一方で,演繹コーパスでの学習が演繹推論能力のどのような側面の強化に寄与しているかについては,未だ明らかでない.「側面」とは例えば,多様な演繹規則の習得・ステップ数の多い演繹の実行,等である.この調査は演繹推論能力向上に向けた今後の方向性を定める上で不可欠である. そこで本研究は,この調査を行う.各側面を切り分けて分析するため,特定の側面のみを強調した調査用のアブレーション・コーパスを(全ての側面について)生成し,そのコーパスでの学習が言語モデルの演繹推論能力を向上させるかどうかを確認する.更に,これら調査結果を基に,各側面強化のための今後の方向性を議論する.最後に,後続研究のためコーパス・ソースコード・学習済みモデルを公開する.