著者
吉田寿夫 村井潤一郎 宇佐美慧 荘島宏二郎 小塩真司 鈴木雅之 椎名乾平
出版者
日本教育心理学会
雑誌
日本教育心理学会第61回総会
巻号頁・発行日
2019-08-29

現状に対する憂いと企画趣旨吉田寿夫 SEM(structural equation modeling:構造方程式モデリング)ないし共分散構造分析と呼ばれる統計手法は,この30年ほどの間,心理学を始めとする多くの研究領域において多用されてきた。それは,既存の多くの分析法を包括する大規模なものであるとともに,コンピュータなしでは行うことができない,ほとんどのユーザーにとって「計算過程がブラックボックス化している」と言えるであろうものである。 筆者は,論文の審査などを行うなかでSEMを用いている論文を多々読んできたが,率直に言って,「へえー」とか「なるほど」といった感覚を生じさせてくれる脱常識性が高いと判断されるものや,著書などで引用したり授業で紹介したりしようと思うものに遭遇したことがない。そして,そればかりか,おそらくはSEMの数学的な高度さに惑わされて,その力を過大視し,不当な結論を一人歩きさせていると言えるであろう状態が蔓延っているように感じている。 主たる問題は,多くの専門家が「SEMは基本的に因果関係を立証する力を有するものではない」ことについて警鐘を鳴らしてきたにもかかわらず,ユーザーの側がこのことをきちんと踏まえていないことにあると考えられる。そして,このことに関連して「予測と因果の混同」と言えるであろう事態が散見されるとともに,「適合度への過度の注目」,「適合度の評価における論理的必然性がないであろう基準の無批判な受け入れ」,「(重回帰分析におけるR2に相当する)説明力の非重視」,「パス係数の評価における統計的検定への過度の依拠」,「潜在変数間の関係の検討における希薄化の不適切な修正」,「測定の妥当性に関わる問題の軽視」,「個々人における心理過程の究明であることを踏まえない,個人間変動に基づく検討」などといった問題が指摘されてきた。 本シンポジウムでは,以上のような現状を踏まえ,SEMの有効性の過大視・不適切な適用や弊害の発生の抑制,適切な適用の促進といったことを目的として,現実の適用において散見される種々の問題事象を提示して,それらについて議論するとともに,SEMならではだと考えられる優れた適用例を提示して,SEMを用いることのメリットについて議論する。そして,そのうえで,適切な適用を促進し,不適切な適用を抑制するための方策について提言することができればと考えている。SEMの営為の根本を見つめなおす荘島宏二郎 SEMの最大の魅力は,何と言っても分析結果の視覚的了解性の高さである。端的に言って,パス図(path diagram)を用いたデータの要約結果,すなわち「情報の可視化(information visualization)」に優れている。SEM以前は,t検定・分散分析・回帰分析・因子分析が主な分析手法であったが,それらは,大抵,表によって結果が表示されていたため,パス図による現象の描写力の高さに多くの研究者が魅力を感じた。 また,計算機の高度化が手伝い,従来,理論的には考えられていたが,エンドユーザの計算機ではなかなか実現することが難しかったカテゴリカルデータ解析・多母集団分析・潜在クラス分析・マルチレベル分析・欠測データ分析などの「重たい」分析手法が,SEMというプラットフォームで花開いた。 今や,単なる「共分散構造」分析ではなく,それらの諸分析も含めての構造方程式モデリング(SEM)である。SEMに万能感を抱く研究者・分析者も多いのではないだろうか。 ほかにも,SEMの普及により,科学的意思決定がほとんどp値一辺倒だった時代から,適合度指標や自由度を総合的に見ていくという科学的態度を養うことに貢献したことも大きい。 反面,SEMの普及に伴い,肥大したSEMに対する信頼に基づく「因果に関する誤った言及(限定的に言及できる場合があるが)」や,SEMに関する不識・不案内に基づく「誤差間共分散の乱用」,「甘い適合度指標への過度の依存」,「パス図におけるトポロジカルな配置と印象操作」など,様々な改善すべき問題点がある。 さらに,SEMもまた方法論であることを考えると,本質的に複雑であり,超高次元多様体であるかのような現象のある一面を切り取ってくるものでしかない。当然,SEMの分析だけで現象を理解することはできず,他の方法と組み合わせて(方法論的多次元主義),現象を立体化しなくてはいけないが,SEMを過信する者ほど,往々にしてそういう態度は希薄である。 本報告では,心理統計学の専門家の観点から,統計分析という営為の本質に踏み込みつつ,「SEMが何をしているものか」ということについて試論(私論)を述べたい。SEMを使って論文を書くことについて小塩真司 正直なことを言うと,SEMや共分散構造分析を使って論文を書くことはそれほど多いわけではない。おそらく,自分がかかわる研究においてもっとも使う頻度が多い使用方法は,確認的因子分析であろう。その他の手法は,その研究の文脈に応じて使うことはあっても,無理に使ったという印象は少ない。また,おそらく探索的な検討が多いこともあるように思われる。 これまでSEMを用いた論文の査読などをしていて,いくつか気になることがあった。たとえば探索的な研究過程でSEMを用いること,それほど必然性が感じられないような場面で用いること,強固な目的があるわけではなく単にエクスキューズのためではないかと思わせる場面で使われていること,ここで使わないよりも使ったほうが採択率の上昇が見込めると考えているのだろうなという著者の意図が見えてしまうこと,などである。これらは決して糾弾されるような用いられ方ではない。現実として,特定の研究領域において新たな統計手法を用いることは,方法論上のアドバンテージと考えられて論文の採択率を高めるであろうし,研究者もそのことを念頭に分析をする可能性はある。 では,多くはない私自身の経験の中で,どのようにSEMを用いたのかを例示してみたい。第1に,確認的因子分析である。特に,複数の国を対象とした調査において,国をまたいでおおよそ同じ因子構造が見られるかどうかを多母集団解析で検討したことがある。この場合,測定不変性(measurement invariance)について検討することになる。そこには,因子と観測変数の配置が群間で等しいこと(configural invariance),因子負荷量が群間で等しいこと(metric invariance),観測変数の切片が群間で等しいこと(scalar invariance),観測変数の誤差分散が群間で等しいこと(residual invariance)という複数のレベルがあり,どのレベルまで満たされるかを検討することになる。第2に,縦断データの分析である。その中の1つは交差遅延効果モデル,もう1つは潜在成長曲線モデルである。縦断的なデータを分析する際に,SEMはその有用性を発揮するように思われる。 本報告では,査読経験と論文執筆経験の両面から,SEMの使用方法について考えてみたい。自身の研究におけるSEMの適用を振り返って鈴木雅之 発表者がSEMを適用した研究の多くは,大学院生時代に行われたものである。発表者が修士課程に入学した2008年の前後には,SEMを用いた研究が多くみられ,学部の授業ではSEMについて詳しく学ぶ機会がなかったことから,当時の発表者にとってSEMは最先端の分析手法であり,その可視性の高さから非常に魅力的なものにみえた。当時の自身の研究を振り返ってみると,「SEMを使ってみたい」という気持ちが先行しており,SEMのメリットを十分に活かした研究はできていなかったというのが,正直なところである。 発表者は大学院生時代,テストが学習動機づけや学習方略の使用に与える影響に関心を寄せていた。テストについては,内発的動機づけの低下や,目先のテストを乗り越えることだけを目的とした低次の学習が助長されるなど,その否定的な側面が強調されることが多い(e.g., Gipps, 1994)。一方で,テストが一種のペースメーカーとなることで計画的な学習が促進されたり,テストによる達成度の把握や学習改善が促進されたりするなど,テストには肯定的な側面もあることが示されてきた(e.g., Hong & Peng, 2008)。このように,テストの影響というのは一様ではなく,個人差がある。 テストの影響の個人差を説明する要因の1つとして,テストに対する学習者の認識(テスト観)に焦点が当てられてきた(e.g., Struyven et al., 2005)。つまり,あるテストが実施されることで学習者が受ける影響は,学習者がそのテストをどう捉えたかによって異なることが示唆されてきた。発表者は,テスト観が学習動機づけや学習方略の使用とどのような関連を持つかについて,質問紙調査や実験授業を行い,分析手法の1つとしてSEMを適用することで検討してきた。たとえば鈴木(2011)は,評価基準と学習改善のための指針を明確にしたフィードバックが学習動機づけと学習方略の使用に与える影響を,テスト観が媒介している可能性について検討した。また鈴木他(2015)は,縦断調査を行い,学習動機づけの変化とテスト観の関係について検討した。 本発表では,自戒の意味も込めて,これら一連の研究におけるSEMの適用を振り返りながら,SEMの適用方法について議論していきたい。
著者
宇佐美 慧
出版者
一般社団法人 日本教育心理学会
雑誌
教育心理学年報 (ISSN:04529650)
巻号頁・発行日
vol.55, pp.83-100, 2016 (Released:2016-08-12)
参考文献数
131
被引用文献数
8

本稿の目的は, 本邦の最近1年間の教育心理学に関わる測定・評価・研究法についての研究動向を, 『心理尺度』, 『試験・テスト』, 『量的研究法』, 『統計分析・統計理論』, 『心理統計教育』, および『その他の研究』, の計6つの観点に分けて整理し, 関連する諸問題について幅広く取り上げることである。また, 教育測定・心理統計の専門家(教育者・研究者)の人材不足と心理統計教育の問題は, 本邦の測定・評価・研究法に関する研究および実践上の諸問題の根幹であることを指摘し, 「専門家による専門家の育成」の重要性についても多面的に論じた。
著者
宇佐美 慧
出版者
一般社団法人 日本教育心理学会
雑誌
教育心理学研究 (ISSN:00215015)
巻号頁・発行日
vol.59, no.4, pp.385-401, 2011 (Released:2012-03-27)
参考文献数
41
被引用文献数
3 5

社会科学の分野においては, サンプリングされた個人(e.g., 生徒, 患者, 市民)の測定データが, 上位の抽出単位である集団(e.g., 学校, 病院, 地域)にネストされた構造を持つことが多い。このような階層データにおいては, 一般に階層線形モデル(Hierarchical Linear Model : HLM)のような, 同一集団内に所属する個人間の相関情報を考慮した解析手法が有用である。本研究では, 階層データにおいて, 2群間の平均値差に関心がある場合に着目し, 検定力および効果量の信頼区間幅の観点から必要なサンプルサイズを決定するための決定方法を, 群の割り当てが個人単位で決定される場合(Multisite Randomized Trials : MRT)と集団単位で決定される場合(Cluster Randomized Trials : CRT)のそれぞれについて, ランダム切片モデルを用いて解析した状況を想定して統一的に導出する。さらに, 実用上の観点から, 一定の検定力および信頼区間幅を得るために必要なサンプルサイズをまとめた数表の作成も試みた。 MRT型の収集デザインのための数表は, 個人内の反復測定デザインや, ランダムブロックデザインなどの, いわゆる対応のあるデザインから得られるデータにおいても利用可能である。
著者
宇佐美 慧
出版者
公益社団法人 日本心理学会
雑誌
心理学研究 (ISSN:00215236)
巻号頁・発行日
vol.79, no.6, pp.536-541, 2009 (Released:2011-11-03)
参考文献数
18
被引用文献数
3 1

Paired-comparison is a well-known and effective method for scaling stimuli. In situations where judgment is affected by multiple factors, it is necessary to take these multiple effects into consideration. However, there is no very effective method to deal with this problem, especially when the data is binary. This study is to propose a new method that expands the Bradley-Terry model to overcome this problem. The proposed method allows estimation of both the scaled value of each stimuli and the influence of each factor. This article includes an analysis of the real data of a sensory test to verify the efficacy of the proposed method. Lastly, a possible expansion of the Bradley-Terry model for more general situations is discussed.
著者
宇佐美 慧
出版者
日本教育心理学会
雑誌
教育心理学研究 (ISSN:00215015)
巻号頁・発行日
vol.58, no.2, pp.163-175, 2010-06-30
被引用文献数
1 7

小論文試験や面接試験,パフォーマンステストなどに基づく能力評価には,採点者ごとの評価点の甘さ辛さやその散らばりの程度,日間変動といった採点者側のバイアス,および受験者への期待効果,採点の順序効果,文字の美醜効果などの受験者側のバイアス要因の双方が影響することが知られている。本論文ではMuraki(1992)の一般化部分採点モデルを応用して,能力評価データにおけるこれら2種類のバイアス要因の影響を同時に評価するための多値型項目反応モデルを提案した。また,母数の推定については,MCMC法(Markov Chain Monte Carlo method)に基づくアルゴリズムを利用し,その導出も行った。シミュレーション実験における母数の推定値の収束結果から推定方法の妥当性を確認し,さらに高校生が回答した実際の小論文評価データ(受験者303名,採点者4名)を用いて,本論文で提案した多値型項目反応モデルの適用例を示した。
著者
宇佐美 慧
出版者
日本計算機統計学会
雑誌
計算機統計学 (ISSN:09148930)
巻号頁・発行日
vol.30, no.2, pp.187-200, 2017 (Released:2020-09-12)
参考文献数
35

本報告では, 縦断デザインに着目して, 主要な変化のパターンを抽出して対象をグループに分類しながらグループ間差を説明する独立変数を同時に探索する方法である, 構造方程式モデル決定木 (SEMTree) の方法について紹介する. SEMTreeでは, 従属変数間の関係性を表現するモデルであるテンプレートモデルをSEMにより設定してモデル内の母数を推定しながら, 母数のグループ間差を説明するのに有効な独立変数を, 教師あり学習である決定木を用いて探索して対象を分割していく. そして, SEMTreeにおける方法論上の課題の1つである, テンプレートモデルの誤設定の問題について, 実際の分析例を踏まえながら説明していく.
著者
伊藤 亜矢子 宇佐美 慧
出版者
一般社団法人 日本教育心理学会
雑誌
教育心理学研究 (ISSN:00215015)
巻号頁・発行日
vol.65, no.1, pp.91-105, 2017 (Released:2017-04-21)
参考文献数
53
被引用文献数
11 11

学級の個別的・心理社会的性質を意味する学級風土は, 学習環境の基盤として重要であり, いじめ・暴力の予防や精神健康の向上, 特別支援教育などの側面から注目を集めている。本研究では, 学級風土質問紙(CCI; 伊藤・松井, 2001)を元に, 近年の子どもをめぐる社会や学校の変化を踏まえて, 新版の中学生用CCIの作成を試みた。首都圏・北海道・東北・北陸・東海・近畿・九州の計24中学校227学級にて回答データを収集し, 得点の経年変化を調べるとともに, マルチレベル因子分析の枠組みを通して尺度の再構成を行い新版のCCIを作成した。また, 基準関連妥当性に基づく妥当性検証を行い, さらに旧版と新版の両者を用いた教師コンサルテーションの結果から, 新版CCIの実践的有用性を例証し, 結果提示の方法・尺度構成の更なる見直しの可能性について検討した。
著者
宇佐美 慧
出版者
一般社団法人 日本教育心理学会
雑誌
教育心理学研究 (ISSN:00215015)
巻号頁・発行日
vol.58, no.2, pp.163-175, 2010 (Released:2012-03-27)
参考文献数
51
被引用文献数
5 7

小論文試験や面接試験, パフォーマンステストなどに基づく能力評価には, 採点者ごとの評価点の甘さ辛さやその散らばりの程度, 日間変動といった採点者側のバイアス, および受験者への期待効果, 採点の順序効果, 文字の美醜効果などの受験者側のバイアス要因の双方が影響することが知られている。本論文ではMuraki(1992)の一般化部分採点モデルを応用して, 能力評価データにおけるこれら2種類のバイアス要因の影響を同時に評価するための多値型項目反応モデルを提案した。また, 母数の推定については, MCMC法(Markov Chain Monte Carlo method)に基づくアルゴリズムを利用し, その導出も行った。シミュレーション実験における母数の推定値の収束結果から推定方法の妥当性を確認し, さらに高校生が回答した実際の小論文評価データ(受験者303名, 採点者4名)を用いて, 本論文で提案した多値型項目反応モデルの適用例を示した。
著者
宇佐美 慧 名越 斉子 肥田野 直 菊池 けい子 服部 由起子 松田 祥子 斉藤 佐和子
出版者
一般社団法人 日本教育心理学会
雑誌
教育心理学研究 (ISSN:00215015)
巻号頁・発行日
vol.59, no.3, pp.278-294, 2011 (Released:2012-03-27)
参考文献数
27

発達障害・知的障害のある子どもたちに対して適切な支援を行う上で, 社会適応上必要なスキルを安定的かつ多面的に測定する検査の開発が求められている。そこで, 本研究では, 社会適応スキル検査の作成を試みた。まず予備調査では, 項目内容や採点法の適否等に関する検討を行い, また定型発達群(N=959)の標本をもとに各項目の困難度, 内的整合性の検討を行った。その結果を踏まえて, 本調査では, 特別な教育的ニーズのある群(N=560)と定型発達群(N=2,027)の標本をもとに, 各項目の内的整合性の再評価や因子分析モデルに基づく妥当性検証を行った。その結果, 検査の下位スキルとして設定した「言語スキル」, 「日常生活スキル」, 「社会生活スキル」, 「対人関係スキル」において実用上十分な内的整合性が認められ, また一因子性の観点から下位項目の因子的妥当性も確認された。また, 実用上の観点から, パーセンタイルに基づく社会適応スキル指数の算出や, 水平線表示を利用した個人内評価の方法についても検討を行った。最後に, 本検査を適用したADHDの子どもの一事例を通して本検査の臨床的有用性を考察した。
著者
宇佐美 慧
出版者
The Japanese Association of Educational Psychology
雑誌
教育心理学研究 (ISSN:00215015)
巻号頁・発行日
vol.59, no.4, pp.385-401, 2011
被引用文献数
5

社会科学の分野においては, サンプリングされた個人(e.g., 生徒, 患者, 市民)の測定データが, 上位の抽出単位である集団(e.g., 学校, 病院, 地域)にネストされた構造を持つことが多い。このような階層データにおいては, 一般に階層線形モデル(Hierarchical Linear Model : HLM)のような, 同一集団内に所属する個人間の相関情報を考慮した解析手法が有用である。本研究では, 階層データにおいて, 2群間の平均値差に関心がある場合に着目し, 検定力および効果量の信頼区間幅の観点から必要なサンプルサイズを決定するための決定方法を, 群の割り当てが個人単位で決定される場合(Multisite Randomized Trials : MRT)と集団単位で決定される場合(Cluster Randomized Trials : CRT)のそれぞれについて, ランダム切片モデルを用いて解析した状況を想定して統一的に導出する。さらに, 実用上の観点から, 一定の検定力および信頼区間幅を得るために必要なサンプルサイズをまとめた数表の作成も試みた。 MRT型の収集デザインのための数表は, 個人内の反復測定デザインや, ランダムブロックデザインなどの, いわゆる対応のあるデザインから得られるデータにおいても利用可能である。
著者
宇佐美 慧
出版者
日本行動計量学会
雑誌
行動計量学 (ISSN:03855481)
巻号頁・発行日
vol.38, no.1, pp.33-50, 2011 (Released:2011-07-04)
参考文献数
50
被引用文献数
5 4

This study investigated measurement problems of essay test data from various perspectives, controlling length of essays. Two sets of essay test data (A:about early introduction of English education, and B:about differences between the sexes in nurturing) were obtained from 303 high school students. Students were divided into 2 groups:one group (N=155) took essays A and B within 400 and 800 words respectively, and vice versa for another group (N=148). 4 raters evaluated 606 (303×2) essays both holistically and analytically (11 or 12 items). From factor analysis and covariance structure analysis of analytically-evaluated data, it was statistically confirmed that 2 factor (“linguistic ability factor” and “writing ability factor”) model was valid regardless of length of essays and raters. Reliability of evaluation between raters and within raters varied depending on items, and length of essays showed different effects for different items. From the view of internal consistency, the result based on multivariate generalizability theory indicated, regardless of length of essays and evaluation methods, that increasing the number of tests is more effective than adding raters for improving internal consistency. Propensity score analysis, with analytically-evaluated scores as covariates, showed that “beauty of handwriting” and “direction of opinion” might bias holistic scores.