実験計画法と統計的分析

この章で扱う問い

第 13 章で「FCL 研究の評価とは何を測り、何と比べ、誰に対して妥当かを問うことだ」という枠組みを立てました。本章はその枠組みを動かすための統計的道具立てです。統計手法は、認知効果を客観的に検出するための言語 であって、研究者の直感を「データが何を支持しているか」に翻訳する役割を担います。とりわけ本書の評価では、(1) 効果がどれくらい大きいか（効果量）、(2) その大きさを検出するのに十分な実験か（検出力）、(3) 多くの仮説を同時に検定するときに偶然のシグナルをどう抑えるか（多重比較補正）の三点を理解しているかどうかが、研究品質を決定的に左右します。

数式が苦手なあなたへ、先に一言だけ。本章は数式を読み飛ばしても筋は追えるように書きました。 $\sum$ や $σ$ が並ぶページを前に身構える必要はありません。怖がらずに、まずは具体例の数字だけを目で追ってみてください。後から定義に戻っても遅くありません。

統計が苦手な学生も読めるように書きました。手を動かしながら追える例を多く置いていますので、定義を一度で完璧に飲み込めなくても、具体例の数字を電卓で確かめてみると感覚がつかめると思います。逆に、統計をすでに学んだ方には「本書の文脈ではこの手法がどう効くか」という視点を補ってもらえると幸いです。

本章はこれらを順に扱い、続いて学習データに固有の構造（多層性、時系列、潜在変数）を扱う高度な手法——構造方程式モデリング、媒介・調整分析、階層線形モデル、シーケンス分析、学習曲線——に進みます。最後に、定量的手法だけでは捉えきれない「なぜそう学んだか」を扱う質的手法（思考発話法、デザインベース研究、混合研究法）に触れて閉じます。すべての話題で、本書の文脈で「なぜこれが必要か」を意識しながら進みましょう。

効果量——「有意」と「意味のある」を分ける

統計的有意性（ $p < 0.05$ ）は「観測された差が偶然だけで生じた確率が小さい」と言っているにすぎません。サンプルサイズを増やせば、ほとんどあらゆる小さな差が有意になってしまいます。効果が実践的に意味があるかは、効果量（effect size）で別に評価しなければなりません。

群間平均の差を測る最も標準的な指標が Cohen's $d$ です [Cohen1988]。

$d = \frac{X ˉ _{treatment} - X ˉ _{control}}{S D _{pooled}}$

ここで $S D_{pooled}$ は両群のプールされた標準偏差で、 $S D_{pooled} = ((n_{1} - 1) S D_{1}^{2} + (n_{2} - 1) S D_{2}^{2}) / (n_{1} + n_{2} - 2)$ で計算します。

具体的に計算してみましょう。本書の枠組みに基づく代数 ITS の評価で、介入群（ $n_{1} = 64$ ）の事後テスト平均が $\overset{ˉ}{X}_{1} = 78$ 、 $S D_{1} = 12$ 、統制群（ $n_{2} = 64$ ）が $\overset{ˉ}{X}_{2} = 72$ 、 $S D_{2} = 13$ だったとします。プールされた標準偏差は

$S D_{pooled} = \frac{63 \cdot 144 + 63 \cdot 169}{126} = \frac{9072 + 10647}{126} \approx 12.51$

したがって $d = (78 - 72) /12.51 \approx 0.48$ 、すなわち中程度の効果です。これは VanLehn のメタ分析で報告された ITS の典型値（ $d \approx 0.76$ ）よりは小さいですが、Cognitive Tutor の RAND 大規模 RCT の効果量（ $d \approx 0.20$ ）よりは大きく——「研究室と現場のあいだ」に位置する数字だと解釈できます。

効果サイズ $d$	解釈	説明・例
$d < 0.2$	無視できる	実践的意義は小さい
$d \approx 0.2$	小	RAND の Cognitive Tutor 評価がここ
$d \approx 0.5$	中	明確に認識できる差
$d \approx 0.8$	大	顕著、ITS のメタ分析の典型値（ $d \approx 0.76$ ）はここ
$d > 1.0$	非常に大	教育研究では稀（個別家庭教師の Bloom 2σ がここ）

表 14-1: Cohen's $d$ 効果サイズの解釈と FCL 関連研究の参照点

実践的有意性は別の話です。 $d = 0.5$ で統計的にも実践的にも意味があっても、ユーザー一人当たり 100 ドルかかるシステムなら採用は難しいでしょう。費用対効果分析（cost-effectiveness analysis）と組み合わせて初めて、教育施策としての判断ができます。

なお Cohen's $d$ 以外にも、相関ベースの $r$ 、分散説明率の $η^{2}$ や $ω^{2}$ 、オッズ比など、設計に応じた効果量があります。重要なのは「何らかの効果量を必ず報告する」という規律です。

検出力分析——実験を始める前に必要な人数を決める

サンプルが小さすぎれば、真に存在する効果を見逃します（第二種の過誤, Type II error）。大きすぎれば資源の無駄です。実験を始める前に、必要なサンプルサイズを決めるのが 検出力分析（power analysis）の役割です。

検出力は、「真の効果が存在するときに、それを統計的に有意と判定できる確率」と定義されます。教育研究では一般に $power = 0.80$ （80%）が目安とされます。必要なサンプルサイズは、(a) 検出したい効果量、(b) 有意水準 $α$ （通常 0.05）、(c) 求める検出力——の三つから逆算できます。

具体例を一つ。独立 2 標本 $t$ 検定で「中程度の効果」 $d = 0.5$ を検出したい。 $α = 0.05$ （両側）、 $power = 0.80$ とすると、各群に約 64 名（合計約 128 名）が必要です [Faul2007]。これを「小さい効果」 $d = 0.2$ にすると、各群に約 394 名（合計約 788 名）に跳ね上がります。

この感度の差が、評価設計に与える示唆は重いものです。本書のように「形式化に基づく洗練された介入」を売り出すとき、研究者は内心 $d = 0.5$ 以上を期待しがちですが、Cognitive Tutor の現場での実勢は $d \approx 0.20$ です。現場で検出可能な効果を測りたいなら、各群数百名規模のサンプルが必要 ということになり、これは単一の研究室で集められる規模を超えます。本書のエコシステム構想（PSLC DataShop のような共有プラットフォーム）が必要になる現実的な理由の一つがここにあります。

逆に効果量 $d = 0.8$ を期待してよい状況——例えば家庭教師との比較で個別 ITS の効果を見るような研究——なら、各群 26 名で十分です。検出力分析は「期待される効果量によって必要規模が桁違いに変わる」ことを定量化する道具で、いずれの場合も、実験開始前に行うことに価値があります——終わってから「サンプルが足りなかった」と気づくのは遅すぎます。

G*Power [Faul2007] や R の pwr パッケージなどで、各種検定に対する検出力分析を実施できます。

多重比較——たくさん検定すると偶然が紛れ込む

複数の統計検定を同じデータで同時に行うと、偶然で有意な結果が出る確率が上昇します。独立な 20 個の検定をすべて $α = 0.05$ で実施すれば、少なくとも 1 つが偶然に $p < 0.05$ になる確率は

$1 - (1 - 0.05)^{20} \approx 0.64$

です。すなわち約 64%。本書の研究では、ITS の中の数十のスキル単位それぞれで「介入群が伸びたか」を検定したり、複数のサブグループ（学年、性別、事前学力）に分けて分析したりすることがあり、多重比較は日常的に発生します。

代表的な対策を、具体的な数字で比較してみましょう。10 個の独立な仮説を検定し、生の $p$ 値が小さい順に $0.001, 0.008, 0.015, 0.025, 0.033, 0.041, 0.05, 0.08, 0.10, 0.20$ であったとします。

Bonferroni 補正 は、有意水準を検定数で割ります—— $α^{'} = 0.05/10 = 0.005$ 。これより小さい $p$ 値は最初の $0.001$ のみで、有意と判定されるのは 1 件です。最も保守的で、検出力を大きく犠牲にします。

Holm 法（Holm-Bonferroni）は段階的に閾値を緩めます——小さい順に $i$ 番目の検定では $α / (11 - i)$ と比較します。 $0.001 < 0.05/10 = 0.005$ （有意）、 $0.008 < 0.05/9 \approx 0.0056$ （有意でない）。Holm では順次「これより上はもう有意としない」となるので、有意は最初の 1 件です。Bonferroni より検出力は高いのですが、この例では結果が同じになります。

FDR 制御（False Discovery Rate, Benjamini–Hochberg 法）は哲学が異なります——「有意と判定したうち、誤って有意とした割合（FDR）」を制御するのです。同じく $i$ 番目の $p$ 値を $i \cdot α / m$ （ここで $m = 10$ ）と比較します。 $0.05 \cdot 1/10 = 0.005$ 、 $0.05 \cdot 2/10 = 0.01$ 、 $0.05 \cdot 3/10 = 0.015$ 、…。 $p_{1} = 0.001 < 0.005$ 、 $p_{2} = 0.008 < 0.01$ 、 $p_{3} = 0.015 \leq 0.015$ 、 $p_{4} = 0.025 < 0.02$ ではない——ここで止まります。BH 法では「最大の $i$ で $p_{i} \leq i α / m$ となるところまで」が有意なので、この例では最初の 3 件が有意となります。FDR は「探索的に多数の候補を篩い分け、後で個別検証する」用途に向き、検出力を保ちながら偽陽性を制御できます。

補正法	有意件数（この例）	哲学	適する場面
補正なし	7 件（ $p < 0.05$ ）	各検定で個別判定	単一の事前仮説検定
Bonferroni	1 件	family-wise error の厳格制御	確認的な少数の主仮説
Holm	1 件	family-wise error の段階的制御	Bonferroni と同条件で検出力高
FDR (BH)	3 件	偽陽性割合の制御	探索的な多数仮説のスクリーニング

表 14-2: 多重比較補正法の比較（ $m = 10$ 検定の例）

本書の研究では、(a) 主仮説（「ITS 全体としての効果はあるか」）には Bonferroni か Holm、(b) 探索的な事後分析（「どのスキル、どのサブグループで効果が大きいか」）には FDR、と使い分けるのが標準的です。「補正なしで $p < 0.05$ を多数報告する」のは現代の評価基準では受け入れられません。

ベイズ的代替——「証拠の強さ」として読む

頻度論的検定（ $p$ 値、信頼区間）は教育研究の主流であり続けますが、近年はベイズ的アプローチも普及してきました。違いは哲学的でもあり実用的でもあります。 $p$ 値は「帰無仮説が真のときに観測データ以上の値が得られる確率」であって、「効果がある確率」ではありません。ベイズ因子（Bayes Factor, BF）は対立仮説と帰無仮説の事前/事後オッズの比で、「データはどちらの仮説をどれだけ支持するか」を直接示します。

具体的には、 $B F_{10} = 10$ なら「対立仮説（効果あり）が帰無仮説の 10 倍支持される」、 $B F_{10} = 0.1$ なら「帰無仮説が対立仮説の 10 倍支持される」と解釈できます。Jeffreys の慣習的な目安では、 $BF > 3$ で「中程度の証拠」、 $BF > 10$ で「強い証拠」、 $BF > 30$ で「非常に強い証拠」とされます。本書の評価で「効果がない」を主張したい場合（例えば ablation 比較で「説明可能性機能を外しても主要効果は変わらない」）、頻度論では「帰無仮説を採択」が原理的にできませんが、ベイズ因子なら「帰無仮説が支持される」を直接示せます。これは説明可能性や中間表現の貢献を分離評価したい FCL 研究で実用上の意味を持ちます。

学習データに固有の構造——多層・潜在・時系列

本書の評価で扱うデータは、単純な「介入群と統制群の事後テスト平均」では収まらない構造を持っています。学習者は学級にネストされ、学級は学校にネストされている。観測されない潜在変数（理解度、動機づけ）が観測変数（正答率、学習時間）の背後にある。学習は時間的プロセスで、行動の系列が意味を持つ。これらに対応する手法を順に見ていきましょう。

階層線形モデル（HLM）——個人とクラスを混同しない

学習者は学級にネストされ、学級は学校にネストされます。同じ学級の学習者は、同じ教師の影響を受け、同じ仲間と相互作用するため、互いに独立ではありません。通常の回帰分析は観測の独立性を仮定するため、この構造を無視すると標準誤差が過小評価され、有意差が出すぎてしまいます。

Hierarchical Linear Modeling（HLM、マルチレベルモデル）はこの構造を正面から扱います [Raudenbush2002]。例えば二層モデルの最も単純な定式化は次のようになります。

レベル 1（学習者）： $Y_{ij} = β_{0 j} + β_{1 j} X_{ij} + ϵ_{ij}$
レベル 2（学級）： $β_{0 j} = γ_{00} + γ_{01} W_{j} + u_{0 j}$

ここで $Y_{ij}$ は学級 $j$ の学習者 $i$ の成績、 $X_{ij}$ は個人レベルの変数（事前テスト得点など）、 $W_{j}$ は学級レベルの変数（教師の経験年数、ITS の利用時間など）です。 $u_{0 j}$ は学級レベルの誤差で、これによって「同じ学級の学習者は似ている」構造が表現されます。

Cognitive Tutor の RAND 評価が学校単位での割り当てだったように、本書のフィールド研究は本質的にクラスター構造を持ちます。HLM はその中で「個人レベルの効果」と「学級レベルの効果」を分離して推定できる——例えば「ITS そのものの効果」と「教師の使い方による効果」を切り分けることが可能になります。

構造方程式モデリング（SEM）と媒介・調整分析——「なぜ効くか」を数式で問う

本書の評価は「効くか」だけでなく「なぜ効くか」を問います。介入の直接効果と間接効果を分離するのが 媒介分析（mediation analysis）、効果がどのような条件で強まるかを見るのが 調整分析（moderation analysis）です [MacKinnon2008]。

具体例で見ていきましょう。本書の枠組みに基づく適応的システムが「学習成果（Y）」を改善するという結果が出たとします。これだけでは「なぜ」が分かりません。仮説として「適応性（X）が学習者の自己効力感（M）を高め、それが学習成果（Y）を向上させる」という媒介経路を立てます。

flowchart LR
    subgraph 媒介モデル
        X1["X（適応性）"] -- "a" --> Mm["M（自己効力感）"]
        Mm -- "b" --> Y1["Y（学習成果）"]
        X1 -- "c'（直接効果）" --> Y1
    end
    subgraph 調整モデル
        X2["X（介入）"] -- "β₁" --> Y2["Y（学習成果）"]
        W["W（事前知識）"] --> Y2
        X2 -. "相互作用 X×W (β₃)" .-> Y2
    end

図 14-1: 媒介分析と調整分析のモデル図。媒介モデルでは間接効果 $= a \times b$ 、総効果 $= c^{'} + a \times b$ 。調整モデルは $Y = β_{0} + β_{1} X + β_{2} W + β_{3} X W$ で表される。

Baron & Kenny [Baron1986] の古典的方法に対して、現在は Preacher & Hayes のブートストラップ法 [Preacher2004] で間接効果 $a \times b$ の信頼区間を直接推定するのが標準です。間接効果が有意で、直接効果 $c^{'}$ が小さければ「効果は完全媒介」、両方有意なら「部分媒介」と解釈します。

調整分析は「ITS の効果は事前知識の高い学習者でより大きい」のような交互作用仮説を検証します。本書の文脈では、「説明可能性は教師経験年数が浅いほど効果的」「適応的足場かけは事前知識が低い学習者ほど効果的」のような問いに使えます。

これらをまとめて多変数の因果構造として推定するのが 構造方程式モデリング（SEM, Structural Equation Modeling）です [Kline2015]。観測変数（学習時間、課題完遂率、自己申告の興味）から潜在変数（動機づけ）を構成し、潜在変数間の因果パスを推定します。

flowchart LR
    U["使いやすさ"] -- "β₁" --> M["動機づけ"]
    M -- "β₂" --> O["学習成果"]
    U -- "β₃ (直接効果)" --> O

図 14-2: SEM による因果構造の例。間接効果 $= β_{1} \times β_{2}$ 、総効果 $= β_{3} + β_{1} \times β_{2}$

Arroyo らは Wayang Outpost の評価で SEM を用い、感情認識システムが学習者の感情状態（潜在変数）を改善し、それが学習成果に影響するという経路を示しました [Arroyo2014]。これは本書の枠組みにおける「説明可能性 → メタ認知の改善 → 自己調整学習の獲得 → 長期成果」のような多段階仮説の検証のひな型でもあります。適合度指標（CFI、RMSEA、SRMR など）で、モデルがデータにどの程度適合するかを評価します。

学習プロセスを時系列として見る

学習は時間軸上のプロセスです。本書の評価では、行動ログを時系列として分析することで、単純な事前事後比較では見えないパターンが浮かび上がります。

Differential Sequence Mining——成功者と失敗者の行動シーケンスの差

DSM（差分シーケンスマイニング）は、二つのグループ（成功者 vs 失敗者、介入群 vs 統制群）間で、行動シーケンスのパターンがどう異なるかを発見します [Kinnebrew2013]。

例えばプログラミング学習で、各学習者の行動を「コード入力」「実行」「エラー」「ドキュメント参照」「修正」「テスト」のシーケンスとして表現します。成功した学習者は「エラー → ドキュメント参照 → 修正 → テスト → 成功」というシーケンスを高頻度で示し、失敗した学習者は「エラー → ランダムな変更 → エラー → ランダムな変更」というパターンに陥っている、といった対比が定量化できます。Blikstein は実際にプログラミング学習環境で、成功した学習者の特徴的な行動パターン（試行錯誤の後に計画的な設計に移行する）を発見しました [Blikstein2011]。

本書の文脈では、DSM は中間表現の妥当性検証にも使えます。「中間表現が想定する認知ステップ」と「実際の行動シーケンス」の対応を見ることで、モデルが捉え損なっている学習プロセスが見つかるからです。

状態遷移と隠れマルコフモデル

学習者の認知状態を離散的な状態（「未理解」「部分理解」「完全理解」）として表し、状態間の遷移を確率的にモデル化します。観測可能な行動（正答・誤答）から観測されない内部状態（理解度）を推定する 隠れマルコフモデル（HMM）は、Bayesian Knowledge Tracing（第 9 章）の数理的核です。

flowchart LR
    S1(("未理解"))
    S2(("部分理解"))
    S3(("完全理解"))
    S1 -- "0.3" --> S1
    S1 -- "0.6" --> S2
    S1 -- "0.1" --> S3
    S2 -- "0.4" --> S2
    S2 -- "0.1" --> S1
    S2 -- "0.5" --> S3
    S3 -- "0.9" --> S3
    S3 -- "0.1" --> S2

図 14-3: 学習状態の遷移図の例。各矢印の数値は遷移確率を示す。完全理解に到達すると高確率で維持されるが、忘却により部分理解に戻る可能性もある。

本書の評価では、「介入の前後で遷移行列がどう変化したか」「どの状態間の遷移が困難か」を比較できます。例えば「ITS 介入後、部分理解 → 完全理解の遷移確率が 0.3 から 0.5 に上昇した」のような形で、介入の効果を遷移確率の変化として報告できます。

学習曲線——習熟の速さと到達レベル

学習曲線は、試行回数に対するパフォーマンス（エラー率、解答時間など）の変化を示すものです。多くのスキル学習は、近似的にべき乗則に従うことが報告されています [Newell1981]。

$T = a + b \cdot N^{- c}$

$T$ は試行 $N$ での所要時間、 $a$ は漸近的パフォーマンス、 $b$ と $c$ は学習速度パラメータです。近年は指数則のほうが個人レベルの曲線によく適合するという指摘もあり [Heathcote2000]、関数形は対象現象に応じて選ぶ必要があります。

本書の文脈では、学習曲線は次の三点を定量化できます。(i) どちらのシステムで速く習熟するか（ $c$ の比較）、(ii) 最終的な到達レベル（ $a$ の比較）、(iii) 個人差はどの程度か（パラメータの分散）。例えば $T = 20 + 200 N^{- 0.5}$ （システム A）と $T = 30 + 250 N^{- 0.3}$ （システム B）を比べると、A は減衰が速く漸近線も低い——つまり「速く高みに達する」と解釈できます。PSLC DataShop [Koedinger2010] は大規模な学習曲線データを公開し、研究者が分析手法を開発・検証できるようにしています。

ラグ系列分析——「A の後に B」のパターンを統計的に問う

ラグ系列分析（Lag Sequential Analysis）は、行動の時系列における遷移パターンを統計的に分析する手法です [Bakeman1997]。「教師の質問の後に学習者の正答が、偶然より有意に多く起こるか」のような問いに答えます。

行動を離散カテゴリーにコーディング（教師質問 T-Q、学習者正答 S-A、学習者誤答 S-E、教師フィードバック T-F など）し、ラグ 1 で「行動 X の後に行動 Y が何回起こったか」の遷移頻度を集計します。

先行行動＼後続行動	T-Q	S-A	S-E	T-F
T-Q	2	25	18	5
S-A	20	3	2	15
S-E	8	2	3	22
T-F	30	10	8	2

表 14-3: 遷移頻度行列の例

各行動 Y の全体での出現確率から偶然に期待される頻度を計算し、観測値との差を Z スコアで評価する。簡便な近似で

$Z \approx \frac{f _{observed} - f _{expected}}{f _{expected}}$

で、 $∣ Z ∣ > 1.96$ で両側 5% 水準で有意となります。Allison & Liker による調整 Z など、より精緻な定式化も用いられます。Chiu は協調学習における発話系列分析で、グループ内の発話の流れと学習成果の関係を検討しました [Chiu2008]。

本書の文脈では、ラグ系列分析は「ITS の介入が学習者の行動パターンをどう変化させたか」を直接的に検証できます。例えば「適応的ヒントの導入前後で、『ヒント閲覧 → 正答』の遷移確率が増加したか」「説明可能性機能を有効にすると、『誤答 → 説明閲覧 → 修正』のシーケンスが増えたか」といった形で、機能の有無が学習プロセスに与える影響を時系列で追跡できます。

質的手法——「なぜそう学んだか」に応える

ここまでの定量手法は「何が起こったか」「どれくらい効果があったか」を語るのに優れています。しかし「なぜそう学んだか」「学習者の頭の中で何が起きていたか」を理解するには、質的手法が要ります。

思考発話法とプロトコル分析

学習者に課題を解きながら考えていることを声に出してもらい、録音・分析します。Ericsson and Simon の古典的方法論は、認知プロセスの詳細な分析を可能にしました [Ericsson1993]。手順は単純です——練習課題で「考えを声に出す」ことに慣れさせ、本課題を実施しながら録音、逐語的に書き起こし、コーディングスキームで分析する、という流れです。

例えばプログラミング初学者がエラーメッセージをどう解釈するかを調べたいとき、「あれ、ここでエラーが…『undefined variable』って何だろう。x のスペルミスかな？」といった発話から、エラー理解の過程を追えます。これは本書の中間表現の妥当性検証に直接使えます——モデルが想定する誤概念が、学習者の発話で実際に確認できるかどうか、というわけです。

注意点として、思考発話自体が認知プロセスを変化させる可能性（リアクティビティ）があります。Ericsson & Simon は、短期記憶内容の単純な言語化（Level 1, 2）は認知過程を大きく変えないが、説明や理由づけを求める発話（Level 3）は認知を変えうると指摘しています。実務では課題実行中の concurrent 発話と、課題後の retrospective 発話を目的に応じて使い分けます。

Chi のプロトコル分析フレームワーク [Chi1997] は、発話を意味的単位にセグメント化し、カテゴリーに分類して定量化します。

カテゴリー	説明	発話例
理解的発話	概念やメカニズムの理解を示す	「ああ、ループは配列の各要素を処理するんだ」
メタ認知的発話	自分の理解や戦略を監視・調整	「ここで詰まっているから、例を見てみよう」
誤概念的発話	誤った理解を示す	「変数は一度しか使えないんだっけ？」
手続き的発話	手順やステップを述べる	「まず変数を宣言して、次にループを書く」
感情的発話	感情や動機づけの状態を示す	「これは難しい…でも頑張ろう」

表 14-4: プロトコル分析におけるカテゴリーの例

複数の研究者が独立にコーディングし、一致率（Cohen's $κ$ ）を計算します。教育研究では $κ \geq 0.70$ 程度が実務的な許容範囲とされています。

デザインベース研究——介入と理論の循環

Design-Based Research（DBR、デザイン実験）は、教育技術研究に特に適した方法論です [DesignBasedResearch2003]。実践的問題解決と理論構築を統合するアプローチで——研究者は実際の教育現場で介入を設計・実装し、効果を評価し、設計を改善するサイクルを反復します。

flowchart LR
    A["1: 問題の特定"] --> B["2: 設計原則の仮説"]
    B --> C["3: 実装と評価"]
    C --> D["4: 反省と改善"]
    D --> A

図 14-4: デザインベース研究（DBR）の反復サイクル。複数サイクルを通じて設計原則を洗練し、理論的知見を生成する。

DBR の成果は単なる「このシステムは効果があった」ではなく、「このような設計原則に基づけば、このような文脈で、このような学習が促進される」という理論的主張です。例えば Betty's Brain システム [Biswas2005]（第 16 章で扱います）は、複数年にわたる教室実装と評価を通じて teaching agent の設計原則とメタ認知支援の理論を洗練した好例です。

本書の評価で DBR が重要なのは、中間表現と教授戦略の設計原則を「現場で繰り返し試して磨く」プロセスとして組めるからです。形成的評価（第 13 章）と DBR は哲学的に親和性が高いと言えるでしょう。

混合研究法——量と質を組み合わせる

Mixed Methods Research は、量的手法と質的手法を統合します [Creswell2011]。RCT で学習効果を検証しつつ（量）、インタビューでなぜその効果が生じたかを理解する（質）ことで、より豊かな知見が得られます。

統合戦略には、複数のデータ源から同じ現象を検証する トライアンギュレーション、量が「何が」を、質が「なぜ」を示す補完、一方の結果から他方を設計する展開などがあります。本書の評価では、ログデータから DSM で異常パターンを検出し（量）、該当学習者にインタビューで掘り下げる（質）、といった組み合わせが典型です。

妥当性の脅威——常に意識すべきもの

研究の妥当性には複数の種類があり、それぞれに脅威があります [Shadish2002]。第 13 章で外的妥当性と構成概念妥当性を扱ったので、ここでは残りの二つを補います。

内的妥当性（介入が本当に結果の原因か）への脅威には、歴史的要因（同時期の他の出来事）、成熟（学習者の自然な発達）、選択バイアス、検査効果（事前テストの影響）、統計的回帰などがあります。RCT は内的妥当性を高めますが、教育現場では実装ばらつきが新たな脅威を生みます。

統計的結論妥当性（統計的推論が適切か）への脅威は、サンプルサイズが小さすぎる、検定の仮定（正規性、等分散性、独立性）を満たさない、信頼性の低い測定を用いる、多重比較を補正しない、などです。本章で扱った効果量・検出力・多重比較の話題は、まさにこの妥当性の保護のためにありました。

倫理とオープンサイエンス

学習データは個人の認知プロセスの詳細な記録で、倫理的配慮が要ります——インフォームドコンセント、データ最小化、匿名化、GDPR・FERPA・個人情報保護法などの法的遵守、統制群への配慮（待機リスト統制、クロスオーバーデザイン）、機械学習を用いる場合の公平性指標の評価（第 17 章で詳述します）。

研究の透明性のためには、CONSORT 声明 [Schulz2010] のような報告基準に従うこと、事前登録（pre-registration）で仮説と分析計画を実験前に公開し HARKing を防ぐこと、データとコード、可能なら学習ログそのものを公開すること（プライバシー保護との両立を図りつつ）、オープンアクセスで公開することなどが推奨されます。これらは本書のエコシステム志向と直結します——再現可能で累積的な研究文化なくして、エコシステムは成立しないからです。

次章への橋渡し

本章では、本書の評価を支える統計的・方法論的道具立てを、効果量・検出力・多重比較から始め、HLM・SEM・媒介分析・シーケンス分析・学習曲線、そして思考発話法・DBR・混合研究法へと進めてきました。これらは「本書の評価を厳密にやる」ための語彙であり、第 13 章の「何を測るか・どう比較するか・誰に対して妥当か」の三軸を実装する手段です。

ここで扱った統計の話と、研究計画・論文化・査読対応のような「実践知」の側は地続きです。研究実装のスキル面（実験デザイン・原稿執筆・可視化など）は、姉妹編「研究の一歩目」の第 5 部「研究スキルと実践知」にまとまっていますので、必要に応じて行き来してみてください。

第 13 章と第 14 章で「評価」の節を閉じます。次章からは視野をさらに広げ、FCL を取り囲む関連分野——ITS、AIED、Learning Analytics、Educational Data Mining、Learning Engineering——との関係を見ていきます。FCL とそれぞれの分野は、競合よりむしろ強みの違う隣人として、どう協調し得るのかを整理してみたいと思います。

認知的教育AIの地図