著者
岩崎 学
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.50, no.2, pp.363-379, 2021-03-05 (Released:2021-03-05)
参考文献数
42

重回帰分析は疑いなく統計的データ解析手法の中で最も多く応用されるきわめて有用な手法である.しかしそれ故に誤用も多く見られることも事実である.本論文では,重回帰分析につき,その教科書的な記述に対し,実際問題への応用を意識した場合に重要と思われるいくつかの論点を統計的因果推論の観点から吟味し,それらに関する筆者の考えを述べる.また,重回帰分析の教育において,受講者の興味を引くであろういくつかのパラドクス的な例を紹介する.
著者
今泉 允聡
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.50, no.2, pp.257-283, 2021-03-05 (Released:2021-03-05)
参考文献数
47

本稿では,深層学習の原理を説明する汎化誤差の理論を概観する.深層学習は,多層ニューラルネットワークをモデルとして用いる統計的手法の一つで,その高い性能から脚光を浴びて久しい.しかしながら,その多層モデルがもたらす複雑な性質により,高い性能を発揮する仕組みの解明は未だ発展途上である.本稿は,この性能の原理を説明する試みのうち,特にモデルの近似誤差や推定量の複雑性誤差に焦点を当て,解明された部分と未解明な部分を議論する.
著者
二宮 嘉行
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.51, no.2, pp.275-294, 2022-03-03 (Released:2022-03-10)
参考文献数
31

赤池情報量規準AICを元来の定義に基づいて導出したときに,罰則項がパラメータ数の2倍から大きくずれるような設定として,因果推論の基本である傾向スコア解析がある.周辺構造モデルにおける周辺構造の選択問題に対し,傾向スコアに基づくセミパラメトリックアプローチをとっているにもかかわらず,AICを形式的に用いると大きく過適合することになる.そのセミパラメトリックアプローチにおいて近年広く用いられているものに,二重頑健推定と呼ばれる,モデル誤特定に対して強い推定がある.本稿では,共変量バランシングのアイディアを採用した二重頑健推定に関して,損失関数を通常の対数尤度から変更することで外れ値に対しても強い推定を考える.そして,その頑健性を保持させたまま罰則項を導出し,妥当性を有する情報量規準として三重頑健情報量規準を提案する.数値実験では,まずモデル誤特定も外れ値もないケースで,罰則項をパラメータ数の2倍とした形式的な情報量規準と比べ,三重頑健情報量規準が明らかに予測性能の意味で優越することを示す.そして,モデルを誤特定させたり,外れ値を混入させたりしたケースを扱い,三重頑健情報量規準が影響を受けにくいことを確認する.
著者
鈴木 大慈
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.50, no.2, pp.229-256, 2021-03-05 (Released:2021-03-05)
参考文献数
63

本稿では深層学習がなぜうまくいくのかという疑問に答えるべくその統計理論を紹介する.特にその関数近似能力および推定能力に関して議論し,深層学習には対象の関数に合わせた適応的推定が可能であることを紹介する.そのため,深層学習の万能近似能力を紹介した後,Barronクラスや非等方的Besov空間における推定理論とミニマックス最適性を議論し,線形推定量と比べて次元の呪いを回避できることや関数の滑らかさの非一様性への適応性といった優れた性質を持っていることを紹介する.最後に,パラメータがサンプルサイズよりも多いニューラルネットワークがいかに汎化するかをカーネル法の観点から解析した汎化誤差理論を紹介する.
著者
二宮 嘉行
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.53, no.1, pp.29-47, 2023-09-07 (Released:2023-09-07)
参考文献数
29

説明変数の候補がたくさんあるときの回帰分析手法として,今やスパース推定は標準手法となっている.一方,スパース推定における正則化パラメータの選択については,たとえスパース推定のためのAICがシンプルな形で得られていて,かつ目的が良い予測をしようというものであっても,必ずしもそのAICは用いられておらず,つまり標準手法は定まっていないように見受けられる.本稿では,そういった標準手法が定まっていないケース,正確には正規線形回帰分析でLASSOを用いるケースで,LASSOとAICを組み合わせて推定したモデルの性能評価を数値実験でおこなう.具体的には,LASSOとAICを組み合わせたとき,リッジ正則化法とAICを組み合わせたとき,最尤法と通常のAICを組み合わせてベストサブセット回帰を用いたとき,およびLASSOと交差検証法を組み合わせたときを,予測二乗誤差の評価を通じて比較する.また,その交差検証法で,データの分割の仕方で推定結果がどのくらい違ってくるのかを,予測二乗誤差や選ばれたモデルの自由度のばらつきを数値評価することで確認する.このLASSOのためのAICはSURE理論により導かれるが,それほど知られていないように見受けられるため,最後に僅かに一般化した設定で導出をおこなう.
著者
樋口 知之
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.51, no.2, pp.213-244, 2022-03-03 (Released:2022-03-10)
参考文献数
78

2012年,一般物体認識の精度を競う国際コンテストILSVRC (ImageNet Large Scale Visual Recognition Challenge) で,他のチームがエラー率26%前後のところ,トロント大学チームが深層学習によりエラー率17%弱とダントツの認識率を示した.また,オバマ政権がビッグデータ研究開発のための戦略プラン(通称,ビッグデータイニシアティブ)を発表したのも2012年である.よって2012年は,第三次AI ブームの起点と断言できる.現在,それからまだ10年しかたっていない.特にこの数年間のデータ分析手法の著しい発展は,学生の頃から統計的データ分析を実際に携わっていた私にとって最大の衝撃である.本稿では,1980年代から統計学および周辺分野の研究に関わってきたあくまでも“私の視点”から,この40年間の統計学の発展を振り返る.前半は自伝的内容が中心であるが,今後の統計学にかかわる人材育成のヒントがもしあれば,筆者としては望外の喜びである.後半は,私がこだわってきた帰納推論と演繹推論の統合の一実現形である,データ同化および深層学習について概説する.本稿が,今後の統計学の動向を考える上で少しでも参考になることを期待してやまない.
著者
丸山 祐造
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.45, no.1, pp.143-170, 2015-09-30 (Released:2016-05-30)
参考文献数
25

多変量正規分布やそれを拡張した球面対称分布のパラメータ推定や予測問題において生じるスタイン・パラドクスに関して概説する.特に,分散既知のもとでの多変量正規分布の平均ベクトルの推定,平均ベクトルの推定と予測分布の関係,線形回帰モデルにおけるパラメータ推定を扱う.推定量や予測分布の決定理論的な良さを考える際に,ベイズ推定量やベイズ予測分布が重要な役割を果たすことを概観する.
著者
園田 翔
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.50, no.2, pp.285-316, 2021-03-05 (Released:2021-03-05)
参考文献数
58

本稿では,ニューラルネットの積分表現に関する最近の研究結果を紹介する.深層学習の理論研究において,積分表現を用いてニューラルネットを関数解析的に取り扱う方法が発展しつつある.ところが,積分表現作用素Sが定義される空間の構造は多くのことが未解明である.さらに,には無限次元の零空間ker Sが存在するということもあまり認知されていない.本稿では,積分表現に纏わる複数の問題を取り上げながら,それぞれの文脈においてやker Sの特徴づけについて考察を加えていく.
著者
高野 祐一 宮代 隆平
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.50, no.2, pp.343-362, 2021-03-05 (Released:2021-03-05)
参考文献数
57

回帰モデルの変数選択は,統計分野で古くから重要な課題として認識されており,扱うデータ量の増大を背景として,近年はデータマイニングや機械学習などの分野でも盛んに研究されている.この変数選択問題に対して,数理最適化問題として定式化し分枝限定法を用いて求解する,混合整数最適化によるアプローチが新たな注目を集めている.混合整数最適化の最大の利点は,目的関数として設定した回帰モデルの評価指標に関して,最良の変数集合を選択できることにある.筆者らはMallowsのCp規準,自由度調整済決定係数,情報量規準,交差確認規準などの各種の統計規準に基づいて,線形回帰モデルの選択変数の集合と基数を同時に最適化する定式化を考案してきた.本論文では,線形回帰モデルの最良変数選択問題に対する,混合整数最適化による各種の定式化を解説する.
著者
岩崎 学
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.45, no.2, pp.217-230, 2016-04-07 (Released:2017-01-27)
参考文献数
72
被引用文献数
1

ビッグデータの時代と言われる現在,統計家そして日本統計学会などの学術団体の果たす役割も変化しつつある.本稿では,筆者の直接の経験に基づき,これまでの統計家の歩んできた道およびいくつかの統計学上のトピックスを挙げ,これからの統計家の在り方を考える手立てとする.
著者
鎌谷 研吾
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.50, no.2, pp.381-402, 2021-03-05 (Released:2021-03-05)
参考文献数
54
被引用文献数
1

近年,マルコフ連鎖モンテカルロ法に平均回帰作用を導入した手法がよく使われる.ここではこれらの研究を概観する.後半では,スケーラブル性をもつとされる,逐次確定的マルコフ過程を使ったモンテカルロ法の紹介とともに,平均回帰作用の利用についても述べる.
著者
今泉 允聡
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.52, no.1, pp.33-51, 2022-09-13 (Released:2022-09-14)
参考文献数
23

本稿では,深層ニューラルネットワークの標準的手法に対する優位性の解明を目的とした,ノンパラメトリック回帰のミニマックス誤差レート解析を紹介する.ノンパラメトリック回帰の問題では,多くの標準的手法が滑らかな関数に対して汎化誤差のミニマックス最適レートを達成することがよく知られており,深層ニューラルネットワークの理論的優位性を明らかにすることは容易ではない.本稿で紹介する研究は,超曲面上に特異性を持つ非滑らかな関数のクラスに対する推定を考え,この理論的なギャップを埋めるものである.当該研究で得られた結果は以下の通りである:(i) 深層ニューラルネットワークによる関数推定量の汎化誤差を解析し,その収束レートが(対数オーダーの影響を除いて)最適であることを証明.(ii)深層ニューラルネットワークが カーネル法,ガウス過程法などの標準的手法を優越する状況を特定し,その相図を構成.この深層ニューラルネットワークの優位性は,多層構造が特異点の形状を適切に処理できることに由来する.
著者
加藤 昇吾
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.46, no.1, pp.85-111, 2017-01-10 (Released:2017-08-30)
参考文献数
48

円周上のコーシー分布は,円周上で定義される確率分布の1つである.本稿では,この分布に関連した2つの話題を提供する.1つは円周上のコーシー分布について知られている結果を紹介することである.具体的にはこの分布に関して,基本的な性質,導出法,パラメータ推定,メビウス変換との関連,フォン・ミーゼス分布との比較,などを概説する.2つめの話題は,円周上のコーシー分布に関連した統計モデルのレビューである.特に,円周上のコーシー分布の2変量拡張を与えたKato and Pewsey (2015)の結果については,ある程度詳しく説明する.彼らの分布に関して,確率密度関数,パラメータの解釈,周辺分布と条件付分布,相関係数,パラメータ推定などについて議論し,解析的に扱いやすい多くの性質を持っていることを紹介する.
著者
菅澤 翔之助
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.51, no.2, pp.295-317, 2022-03-03 (Released:2022-03-10)
参考文献数
31

ビッグデータ時代と称される現代では,様々な分野において大規模データの利活用が進んでいる. 一方で,データの大規模化と共に異質な集団が混在した状況が多く見受けられるようになり,従来の「1つのデータに1つのモデル(one-model-fits-the-whole-population approach)」による単純な統計モデリングだけでは適切な分析を実行することができない.このような状況にも対応できる様々な方法論が既にいくつか存在しているが,現実的な計算コストで柔軟な統計モデリングを実行できる方法論の開発は未だ十分とは言えない.本稿では,クラスターデータと空間データの解析において,データのグループ化(異質な集団の発見)と各グループにおける統計モデルの推定(各集団特有の構造の発見)を同時に実行することが可能な方法論について解説する.
著者
溝口 敏行 野島 教之
出版者
一般社団法人 日本統計学会
雑誌
日本統計学会誌 (ISSN:03895602)
巻号頁・発行日
vol.23, no.1, pp.91-107, 1993 (Released:2009-01-22)

As a part of research on historical statistics, we have reliable data on National Accounts Statistics since the late of 19th century. The LTES project of Hitotsubashi University estimated the data from 1885 to 1940. The Economic Planning Agency published the post-1955 data based on the system advised by UNSO. While the national income estimates were published for the period from 1941 to 1954 by the Economic Planning Agency in the late 1950s, the figures must be examined carefully because the basic data were less reliable owing to the confounded situation of Japan in the wartime and just after the end of war.This paper tries to obtain relatively reliable level of nominal and real GDP on this period. While the nominal GDP was estinated by the Government of Japan, the statistical discrepancy was very large between the estimates from the production, the expenditure and the distribution side. Judging from the conditions of basic data, we selected the figures from the distribution side for the wartime period (1940-44) and linked them to LTES estimates, The post-1941 nominal income were obtained from the expenditure side estimates with some adjustments on the private consumption. This was linked to post-1955 data mentioned before.The real GDP are calculated from the quantitative data of production. Since the original data for agriculture and industry did not cover the transaction of underground market, they would have some downward biases and we tried to adjust this biases as far as possible. The production of tertial industry is estimated by two different ways. The quantitative figures are used for the transportation, the construction and the public services. The nominal data in the National Income Statistics are deflated for other sectors. The final results are shown in Table 14.