著者
宇都 雅輝
出版者
教育システム情報学会
雑誌
教育システム情報学会誌 (ISSN:13414135)
巻号頁・発行日
vol.37, no.1, pp.8-18, 2020-01-01 (Released:2020-01-01)
参考文献数
77

In various assessment contexts including entrance examinations, educational assessments, and personnel appraisals, performance assessment has attracted much attention to measure examinees’ higher order abilities. Nevertheless, low assessment reliability and high costs of scoring are regarded as persistent difficulties hindering performance assessment. To resolve these shortcomings, item response theory models that incorporate rater and task characteristic parameters and automated essay scoring methods have been proposed recently. This paper introduces state-of-the-art topics for these technologies.
著者
宇都 雅輝
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J105-D, no.7, pp.457-469, 2022-07-01

近年,論理的思考力や表現力といった被評価者の実践的な能力を測定する手法の一つとして,ルーブリックを用いたパフォーマンス評価が注目されている.ルーブリックの利用により評価者間の採点基準のばらつきを低減できると期待されるが,それでも評価結果がパフォーマンス課題や評価者,ルーブリックの評価観点の特性の影響を受けることが指摘されている.この問題を解決する方法の一つとして,課題や評価者,評価観点の特性を考慮して被評価者の能力を推定できる項目反応モデルが提案されてきた.それらの既存モデルの多くは測定対象の能力に一次元性を仮定しているが,高次な能力の測定を目的とするルーブリックを用いたパフォーマンス評価では測定対象の能力に多次元性が想定される場合がある.そのような能力の多次元性に対応できる項目反応モデルも提案されているが,既存のモデルでは課題と評価者,評価観点の特性を同時に考慮した能力推定は実現できない.そこで,本論文では,課題・評価者・評価観点の特性を同時に考慮して多次元尺度上で被評価者の能力を推定できる項目反応モデルを提案する.また,シミュレーション実験と実データ実験を通して提案モデルの有効性を示す.
著者
柴田 拓海 宇都 雅輝
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J106-D, no.1, pp.47-56, 2023-01-01

近年,受検者の多面的な能力を測定する手段の一つとして小論文試験が注目されている.一方で,小論文試験では,採点にかかる人的・時間的なコストが大きいことが問題となる.この問題を解決する手段の一つとして,自動採点のニーズが高まっている.近年では,深層学習を用いた自動採点手法が多数提案され,高い精度を達成している.そのような深層学習自動採点手法の多くは,各小論文に対して単一の全体得点のみを予測するように設計されている.しかし,主に学習評価場面などで自動採点を活用する場合には,受検者に詳細なフィードバックを与えるために,全体得点だけでなく,複数の評価観点別得点も予測したい場合がある.このようなニーズに対応するため,全体得点に加えて複数評価観点に対応する細目得点も同時に予測できるモデルが近年提案されている.しかし,従来モデルは評価観点固有の複雑なニューラルネットワーク層を有しており,得点予測の根拠について解釈性が低いという問題がある.この問題を解決するために,本研究では,多次元項目反応理論を用いて予測根拠の解釈性を高めた複数観点同時自動採点モデルを提案する.
著者
青見 樹 堤 瑛美子 宇都 雅輝 植野 真臣
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J104-D, no.11, pp.784-795, 2021-11-01

小論文自動採点は,人間評価者に代わって自動採点モデルが小論文の採点を行う自然言語処理におけるタスクの一つである.近年では多くの自動採点モデルが提案されており,それぞれに異なった特徴を有している.本研究では,評価者特性を考慮した項目反応理論を用いて自動採点モデルのモデル平均を行う新たな手法を提案する.具体的には自動採点モデルを一人の評価者とみなして評価者特性を考慮した項目反応モデルを適用することで,それぞれの自動採点モデルの特徴を考慮した統合を行う.実験を通して,提案手法が単体の自動採点モデルや,単純な予測スコアの平均化手法と比べて予測精度を向上させることを示す.更に,提案手法が統合した自動採点モデルの特徴を捉え,安定したスコアの予測を行うことができることを示す.
著者
岡野 将士 宇都 雅輝
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J104-D, no.8, pp.650-662, 2021-08-01

近年,大規模な記述・論述式試験のニーズの高まりに伴い自動採点に注目が集まっている.自動採点手法として深層学習に基づくモデルが近年多数提案され,高精度を達成している.深層学習自動採点モデルを利用するためには,大量の採点済み答案データを用いてモデルの学習を行う必要がある.大量の答案の採点作業は一般に多数の評価者で分担して行われるが,そのような場合,個々の答案に与えられる得点が評価者の特性に強く依存してしまう問題が知られている.このような評価者バイアスの影響を受けたデータから自動採点モデルを学習すると,評価者バイアスの影響がモデルにも反映されてしまい,予測性能が著しく低下する.他方で,教育・心理測定の分野において,評価者バイアスの影響を考慮して得点を推定できる項目反応モデルが近年多数提案されている.そこで本研究では,この項目反応モデルを組み込んだ,評価者バイアスに頑健な深層学習自動採点手法を提案する.提案手法は,これまで等閑視されてきた学習データ中の評価者バイアスの問題に着目した初めての手法である.また,特定の自動採点モデルに依存する手法ではなく,様々な自動採点モデルにおいて評価者バイアスに頑健なモデル学習と得点予測が期待できる.
著者
八木 嵩大 宇都 雅輝 Shudai YAGI Masaki UTO
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18810225)
巻号頁・発行日
vol.J102-D, no.10, pp.708-720, 2019-10-01

近年,受験者の実践的かつ高次な能力を測定する手法の一つとしてパフォーマンス評価が注目されている.しかし,パフォーマンス評価では,得られる能力測定値が評価者の特性に依存する問題が指摘されてきた.この問題を解決する手法の一つとして,評価者特性を考慮して受験者の能力を推定できる項目反応モデルが多数提案され,その有効性が示されている.他方で,これらのモデルは測定対象の能力に一次元性を仮定する.しかし,高次な能力の測定を目指すパフォーマンス評価では,複数の能力尺度で構成されるルーブリックを用いて採点を行うことが一般的であり,この場合には能力の一次元性は必ずしも満たされない.そこで,本論文では,評価者特性を考慮した多次元性項目反応モデルを提案する.提案モデルは,データから推定した最適な次元数の能力尺度上で,評価者特性を考慮した高精度な能力測定を実現できる.本論文では,提案モデルのパラメータ推定手法としてマルコフ連鎖モンテカルロ法に基づく手法を提案し,シミュレーション実験と実データ適用を通して提案モデルの有効性を示す
著者
宇都 雅輝
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J101-D, no.6, pp.895-908, 2018-06-01

近年,受験者の実践的かつ高次の能力を測定する手法の一つとしてパフォーマンス評価が注目されている.一方で,パフォーマンス評価の問題として,能力測定の精度が評価者とパフォーマンス課題の特性に強く依存する点が指摘されてきた.この問題を解決する手法として,近年,評価者と課題の特性を表すパラメータを付与した項目反応モデルが多数提案され,その有効性が示されている.他方,現実の評価場面では,複数回の異なるパフォーマンステストの結果を比較するニーズがしばしば生じる.このような場合に項目反応モデルを適用するためには,個々のテスト結果から推定されるモデルパラメータを同一尺度上に位置付ける「等化」が必要となる.一般に,パフォーマンステストの等化を行うためには,テスト間で課題と評価者の一部が共通するように個々のテストを設計する必要がある.このとき,等化の精度は,共通課題や共通評価者の数,各テストにおける受験者の能力特性分布,受験者数・評価者数・課題数などの様々な条件に依存すると考えられる.しかし,これまで,これらの要因が等化精度に与える影響は明らかにされておらず,テストをどのように設計すれば高精度な等化が可能となるかは示されてこなかった.そこで本研究では,項目反応モデルをパフォーマンス評価に適用して等化を行う場合に,その精度に影響を与える要因を実験により明らかにし,その結果に基づき,高い等化精度を達成するために必要なテストのデザインについて基準を示す.
著者
宇都 雅輝 植野 真臣 Masaki UTO Maomi UENO
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18810225)
巻号頁・発行日
vol.J103-D, no.5, pp.459-470, 2020-05-01

近年,学習者の実践的かつ高次な能力を測定する手法の一つとしてルーブリック評価が注目されている.ルーブリックは評価者の主観による評価基準をより客観的にするためのツールであるが,それでも評価がパフォーマンス課題や評価者,ルーブリックの評価観点の特性に依存してしまうことが指摘されてきた.この問題を解決する手法の一つとして,これらの特性を考慮して学習者の能力を測定できる項目反応モデルが近年多数提案されている.しかし,既存モデルは学習者・課題・評価者・評価観点で構成される4相の評価データに直接には適用できず,課題・評価者・評価観点の特性を同時に考慮した能力測定は実現できない.また,ルーブリック評価の評点は一般に段階カテゴリーとして与えられ,各カテゴリーに対する評価基準は評価者と評価観点の特性に依存する.しかし,既存モデルでは評価基準は評価者と評価観点のいずれか一方にのみ依存すると仮定している.以上の問題を解決するために,本論文では,評価観点と評価者の評価基準を考慮して,ルーブリック評価の4相データから学習者の能力を測定できる新たな項目反応モデルを提案する.また,シミュレーション実験と実データ実験を通して提案モデルの有効性を示す.
著者
堤 瑛美子 塩野谷 周平 宇都 雅輝 植野 真臣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1O3J1201, 2019 (Released:2019-06-01)

近年,教育の現場では学習者の発達を促すために個々の特性や理解度を把握することが課題となっている.これまで,学習過程の学習者の理解度やある知識の習得状態を推定する手法として Bayesian Knowledge Tracing(BKT)開発されてきた.しかし,BKTモデルでは知識の習得状態が二値または多値で表されるが,実際には知識の習得状態は連続値であるため,知識の習得状態を段階的に表現することで習得状態の正確な評価をすることは難しい.本研究では,学習者の知識の習得状態の推定精度向上のために,堤ら(2019)で提案した学習過程において知識の習得状態が隠れマルコフ過程に従って変化する項目反応モデルをBKTの一般化モデルとして提案する.提案モデルは知識の習得状態を連続値で表現し,さらに学習データから知識状態の遷移確率を最適化するため,様々な学習過程に適応させることができる.従来のBKTと提案モデルを用いて学習過程での学習者の知識の習得状態を推定し,推定精度を比較する実験から,提案モデルを用いることで推定精度が向上することが示された.
著者
宇都 雅輝 植野 真臣
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J103-D, no.5, pp.459-470, 2020-05-01

近年,学習者の実践的かつ高次な能力を測定する手法の一つとしてルーブリック評価が注目されている.ルーブリックは評価者の主観による評価基準をより客観的にするためのツールであるが,それでも評価がパフォーマンス課題や評価者,ルーブリックの評価観点の特性に依存してしまうことが指摘されてきた.この問題を解決する手法の一つとして,これらの特性を考慮して学習者の能力を測定できる項目反応モデルが近年多数提案されている.しかし,既存モデルは学習者・課題・評価者・評価観点で構成される4相の評価データに直接には適用できず,課題・評価者・評価観点の特性を同時に考慮した能力測定は実現できない.また,ルーブリック評価の評点は一般に段階カテゴリーとして与えられ,各カテゴリーに対する評価基準は評価者と評価観点の特性に依存する.しかし,既存モデルでは評価基準は評価者と評価観点のいずれか一方にのみ依存すると仮定している.以上の問題を解決するために,本論文では,評価観点と評価者の評価基準を考慮して,ルーブリック評価の4相データから学習者の能力を測定できる新たな項目反応モデルを提案する.また,シミュレーション実験と実データ実験を通して提案モデルの有効性を示す.
著者
植野 真臣 宇都 雅輝
出版者
日本教育工学会
雑誌
日本教育工学会論文誌 (ISSN:13498290)
巻号頁・発行日
vol.35, no.3, pp.169-182, 2011-12-20 (Released:2016-08-08)
参考文献数
29
被引用文献数
7

本研究は,他者からの学びを誘発するeポートフォリオ・システムの開発を目的とする.本システムの特徴は,(1)個人のeポートフォリオを構造化し,ハイパーリンクでつなぐことにより,多様なパスで有用な他者情報の発見を支援する,(2)高度な検索機能により,キーワード検索,過去の優秀なレポートやテスト成績の良い学習者,相互評価の高い学習者などを容易に検索できる,(3)すべての階層でのアセスメント機能として,テスト,ピア・アセスメント,セルフ・アセスメント,教師推薦によるベストプラクティス,他者からのコメント入力やリンク付けなど多様な手法が用意されており,自己のリフレクションを誘発するだけでなく,優秀な他の学習者の発見に利用できる,などが挙げられる.実データより,本システムが他者からの学びを誘発し,持続学習への動機向上と深い知識の獲得を支援できることを示す.
著者
グエン ドク ティエン 宇都 雅輝 植野 真臣
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J101-D, no.2, pp.431-445, 2018-02-01

近年,社会構成主義に基づく学習評価法としてピアアセスメントが注目されている.一般に,MOOCsのように学習者数が多い場合のピアアセスメントは,評価の負担を軽減するために学習者を複数のグループに分割してグループ内のメンバ同士で行うことが多い.しかし,この場合,学習者の能力測定精度がグループ構成の仕方に依存する問題が残る.この問題を解決するために,本研究では,項目反応理論を用いて,学習者の能力測定精度を最大化するようにグループを構成する手法を提案する.しかし,実験の結果,ランダムにグループを構成した場合と比べ,提案手法が必ずしも高い能力測定精度を示すとは限らないことが明らかとなった.そこで,本研究では,グループ内の学習者同士でのみ評価を行うという制約を緩和し,各学習者に対して少数のグループ外評価者を割り当てる外部評価者選択手法を提案する.シミュレーションと被験者実験から,提案手法を用いて数名の外部評価者を追加することで,グループ内の学習者のみによる評価に比べ,能力測定精度が改善されることが確認された.
著者
宇都 雅輝 植野 真臣
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J101-D, no.1, pp.211-224, 2018-01-01

近年,MOOCsに代表される大規模eラーニングの普及に伴い,ピアアセスメントを学習者の能力測定に用いるニーズが高まっている.一方で,ピアアセスメントによる能力測定の課題として,その測定精度が評価者の特性に強く依存する問題が指摘されてきた.この問題を解決する手法の一つとして,評価者特性パラメータを付与した項目反応モデルが近年多数提案されている.しかし,既存モデルでは,評価基準が他の評価者と極端に異なる“異質評価者”の特性を必ずしも表現できないため,異質評価者が存在する可能性があるピアアセスメントに適用したとき能力測定精度が低下する問題が残る.この問題を解決するために,本論文では,1)評価の厳しさ,2)一貫性,3)尺度範囲の制限,に対応する評価者特性パラメータを付与した新たな項目反応モデルを提案する.提案モデルの利点は次のとおりである.1)評価者の特性を柔軟に表現できるため,異質評価者の採点データに対するモデルのあてはまりを改善できる.2)異質評価者の影響を正確に能力測定値に反映できるため,異質評価者が存在するピアアセスメントにおいて,既存モデルより高精度な能力測定が期待できる.本論文では,シミュレーション実験と実データ実験から提案モデルの有効性を示す.
著者
宇都 雅輝 鈴木 宏昭 植野 真臣
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.96, no.4, pp.998-1011, 2013-04-01
参考文献数
35

本論文では,アカデミックライティングにおける論証の推敲を支援するシステムを開発する.従来の論証推敲支援システムでは,論証の規範モデルとして知られるToulminモデルにユーザの論証を当てはめ可視化する支援を行っていることが多い.しかし,論証の主目的である「主張」の正当化のためには,Toulminモデルへの当てはまりの良さよりも,文章間の因果の強さ,すなわち「論証の強さ」を重視した論証の推敲が重要である.論証の推敲では,論証構成が複雑になったとき,以下の問題が生じると考えられる.1.「論証の強さ」を全ての文章間について評価することが困難である.2.論証中の各文章がどの程度正当化できているかの推定が難しい.3.「主張」の正当化に対して各文章がどのように影響しているかを把握することが困難である.これらの問題を解決するために,本論文では,Toulminモデルのベイジアンネットワーク表現を用いて,1.論証の強さ,2.文章の正当性,3.主張への影響度,という三つの指標を算出し,その値に応じて論証改訂のためのアドバイスをフィードバックする論証推敲支援システムを開発する.
著者
宇都 雅輝 植野 真臣
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J98-D, no.1, pp.3-16, 2015-01-01

近年,構成主義における学習評価法としてピアアセスメントが注目されている.ピアアセスメントでは,評価の信頼性が評価者の特性に依存する問題が指摘されている.この問題を解決するアプローチの一つとして,評価者の特性を表すパラメータを付加した項目反応理論が提案されてきた.しかし,ピアアセスメントでは,評価者数が学習者数と同程度まで増加するため,パラメータ数に対してデータ数が少なくなり,既存モデルでは高精度なパラメータ推定が期待できない.そこで,本論では,通常の項目反応理論について,できる限り評価者パラメータ数が少なくなるように評価者パラメータを付加した,ピアアセスメントのための新たな項目反応理論を提案する.提案手法の特徴は次のとおりである,(1)既存モデルより高精度なパラメータ推定が可能である.(2)評価者特性として評価の一貫性と厳しさの影響を反映した学習者の能力推定が可能である.(3)学習者の正確な能力推定が期待できる.更に,本論では,シミュレーション実験及び被験者実験により提案手法の有効性を示す.
著者
宇都 雅輝 植野 真臣
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.12, pp.2069-2081, 2011-12-01

本研究では,妥当かつ多様な論文構成の構築を支援するシステムの開発と評価を行う.ここでは,「論文構成」を情報理論における情報源からの出力符号系列とみなしたメタファとしてとらえ,論文構成の構築過程を定式化する.具体的には,過去の優良論文100件の論文構成を論文要素カテゴリーの系列データとし,それがm重マルコフ情報源に従うと仮定する.多重度の推定法として,情報論的アプローチでは,ベイズ符号語長(Bayes code length)最小化による推定法が高精度であると知られている.しかし,本論文で扱うようなデータ長の短いデータから学習する場合,多重度の増加に伴いベイズ符号語長が単調減少し,多重度を正しく推定できないことがある.そこで,本研究では,ベイズ符号語長が単調減少する場合の推定補正法を提案し,過去の優良論文100件から予測精度の高いm重マルコフ情報源を推定する.更に,推定されたマルコフ情報源に基づき論文構成の構築過程を逐次的にナビゲーションするシステムを開発する.最後に,評価実験を行い,補正手法及び提案システムの有効性を評価する.