AIと機械学習の応用

この章で扱う問い

第 9 章から第 11 章にかけて構築してきた学習者モデル、適応戦略、UI 設計のいずれにも、近年の AI と機械学習の技術が深く入り込んでいます。本章では、ITS の各レイヤに AI 技術がどう適用されているかを、機械学習による予測、自然言語処理による評価、生成 AI による問題生成と対話、計画と推論、強化学習による教授方策の最適化、という五つの軸で整理します。鍵となる主張は、AI 技術は ITS のあらゆるレイヤに適用できるが、各技術には固有の限界とバイアスがある ということです。AIED や機械学習を専門とする研究室から来たあなたには「教育という高ステークス領域では何が違うのか」を、ITS や認知科学の研究室から来たあなたには「データ駆動の手法をどこまで自分の枠組みに取り込めるか」を、それぞれ意識しながら読んでいただけると思います。

LLM のような流暢で強力な技術ほど、過度に礼賛するのも過度に拒絶するのも、教育応用としては危ういものです。本章は、ハルシネーション、バイアス、検証可能性の欠如といった構造的問題を冷静に並べ、技術ごとに「何ができ、何ができないか」を整理することを目指します。

学習支援におけるAIの役割

教育への AI 応用は、1960 年代のプログラム学習や CAI（Computer-Assisted Instruction）にまで遡ることができます。しかし、21 世紀以降の機械学習、特に深層学習の急速な発展によって、その役割は質的に変化してきました。

歴史的に見ると、二つのパラダイムが対立しつつ共存してきました。従来型 AI（symbolic AI, knowledge-based AI） は、専門家の知識を明示的なルールとして記述し、推論エンジンで処理します。1970 年代から 1990 年代にかけて発展した ITS の多くはこのパラダイムに基づきます。代表例は ACT-R モデル [Anderson1993] に基づく Cognitive Tutor で、認知科学の理論をプロダクションルールとして実装しています。これに対して 機械学習アプローチ は、大規模なデータから統計的パターンを自動的に抽出します。Russell and Norvig [Russell2020] が「知識（手作業のルール）から学習（データ駆動）へ」のパラダイムシフトとして整理する流れです。学習者モデリングを例に取れば、第 9 章で扱った Bayesian Knowledge Tracing [Corbett1995] は専門家設計の構造を持つモデルですが、Deep Knowledge Tracing [Piech2015] は学習履歴から自動的に表現を学習します。

両アプローチには、本章を通じて繰り返し現れるトレードオフがあります。従来型 AI は解釈可能性が高く少データでも機能しますが、専門家の知識取得（knowledge acquisition bottleneck）にコストがかかります。機械学習は大規模データから自動学習できますが、説明可能性（explainability）が乏しく、学習者と教師の信頼を得る上で課題となります [Holstein2019]。教育という、誤りが学習者の人生に影響しかねない高ステークスな領域では、この説明可能性の問題は技術的選好を超えた要請です。

Baker and Inventado [Baker2014] は教育データマイニング（EDM）の観点から AI の主要な応用領域を学習者モデリング、行動予測、推薦、自動評価に整理しました。本章ではこれを、ITS の構成要素に沿って機械学習による予測、自然言語処理による評価、生成 AI、計画と推論、強化学習という五つの技術系に再編成して扱います。

機械学習による予測：知識追跡からドロップアウト予測まで

機械学習を ITS に持ち込んだもっとも顕著な領域は、学習者の振る舞いを予測することです。これには二つのスケールがあります——問題単位の正答予測（知識追跡）と、コース単位のドロップアウトや成績の予測です。

知識追跡については第 9 章で詳しく扱いました。Deep Knowledge Tracing (DKT) [Piech2015] は、再帰型ニューラルネットワーク（典型的には LSTM）で学習履歴の系列から次の正答確率を予測します。BKT が KC ごとに独立した二値隠れ状態を仮定するのに対し、DKT は隠れベクトルが KC 間の依存関係や個人差を陰に表現できる柔軟性を持ちます。その後の発展として、Dynamic Key-Value Memory Networks [Zhang2017] は KC ごとに記憶セルを分けることで解釈可能性を回復しようとし、Self-Attentive Knowledge Tracing [Pandey2019] は Transformer アーキテクチャを用いて、過去の応答のうちどれが現在の予測に重要かを attention で表現します。

これらの深層モデルは予測精度では優れることが多い一方、第 9 章で触れたように、出力する確率系列が時として一貫性を欠くことがあります（ある問題に正答した直後にその KC の習得確率が下がるなど）。Xiong et al. [Xiong2016] は DKT と BKT の比較結果がデータ前処理の差に強く依存することも指摘しており、「最新のモデル＝常に最良」とは限りません。重要な含意は、知識追跡モデルの選択は単なるベンチマーク精度ではなく、後続の意思決定（mastery 判定、問題選択）にとって何が必要かに依存するということです。

より長い時間スケールの予測としてはドロップアウト予測があります。Xing et al. [Xing2016] は、MOOC におけるクリックストリームデータから RNN を用いて受講放棄を予測しました。早期にドロップアウト傾向のある学習者を同定できれば、追加の働きかけや支援を提供する 早期介入 が可能になります。しかしこの種の予測には倫理的問題がつきまといます。Gardner and Brooks [Gardner2018] は、予測システムが誤った予測をした場合の悪影響——「あなたはドロップアウトしそう」と告げられた学習者の士気低下や、教師による偏った扱いといった 自己成就予言（self-fulfilling prophecy）——を指摘しています。さらに、予測モデルが特定の人口統計群（人種、社会経済階層など）に対して系統的に異なる精度を示す不公平の問題もあります。Baker and Hawn [Baker2022] は、教育 AI における公平性確保のために多様な集団での評価とバイアス緩和技術が不可欠であることを論じています。予測の精度だけを目的関数にしてシステムを最適化することは、しばしば誤った方向への最適化となるのです。

自然言語処理による評価：エッセイから短文回答まで

自動評価は、教師の専門性が必要とされてきた領域に AI を持ち込む試みです。古典的にはエッセイ採点、近年は短文回答や対話的評価へと拡張されています。

自動エッセイ評価（Automated Essay Scoring, AES）は 1960 年代の Project Essay Grade（Ellis Page）にまで遡る歴史を持ちますが、現代の AES は機械学習と NLP の組み合わせで実用水準に達しています。Shermis and Burstein [Shermis2013] の研究では、AES と人間採点者の一致度が、人間同士の一致度と同等になる場合があることが示されました。現代の AES は、文字数や語彙多様性といった表層的特徴だけでなく、構文解析、意味類似度、論理構造の分析を組み合わせます。

しかし重要な限界があります。Perelman [Perelman2014] は、AES が文章の意味的正しさより統計的パターンに依存することを示し、意味のない（しかし表層特徴が豊富な）文章でも高得点を得られる例を提示しました。AES は「どんな文章が高評価される傾向があるか」を学習しますが、「内容が正しいか」「論証が妥当か」を真に評価するわけではありません。Warschauer and Grimes [Warschauer2008] は、AES が学習支援として機能するためには採点だけでなく質の高いフィードバックが必要だと論じています。形成的評価としての AES は、総括的評価としての AES より要求水準が高いのです。

短文回答（short-answer questions）の自動評価はエッセイより自動化が容易で、多肢選択問題より深い理解を測定できるため、実用上重要な領域です。Burrows et al. [Burrows2015] のサーベイは、ルールベース、統計的、機械学習ベースの手法を整理しています。近年は BERT などの事前学習済み言語モデルを用い、正解例との意味的類似度を計算するアプローチが主流です。教育的価値は単に正誤を判定することにとどまらず、誤答の種類（誤概念、不完全な理解、表現の問題など）を診断することにあります [Suzen2020]。Dzikovska et al. [Dzikovska2013] は、学習者の短文回答に対してチュータリング対話を行うシステムを開発し、正解との意味的差異を分析して誤解を特定し、適切な質問やヒントを生成することを試みました。これらは AES より一段難しい問題で、今でも研究の最前線にあります。

生成AIによる問題生成と対話

2022 年末以降、ChatGPT を起点とする LLM の急速な普及によって、生成 AI が教育応用の中心に躍り出ました。ここでの「生成」には大別して二つの用途があります——学習コンテンツの生成と、学習者との対話的支援です。

問題と説明の自動生成

LLM は、学習者のレベルや興味に応じた問題、説明文、例題を生成できます。「中学 2 年生向けの二次方程式の問題を 3 つ作成し、それぞれに段階的な解説を付けて」と依頼すれば、形式的にはそれらしい出力が得られます。これは教材作成の生産性を大きく高め得る応用です。

しかし、自動生成コンテンツの品質保証は重大な課題です。LLM は流暢な文章を生成できますが、事実の誤り、解答の誤り、年齢や前提知識への不適合、不適切な内容を含み得ます。とくに数式や論理を含む問題では、生成された問題と模範解答の整合性が崩れることが珍しくありません。「 $x^{2} - 5 x + 6 = 0$ の解を求めよ」という問題を生成しつつ、解説で因数分解を $(x - 2) (x - 4)$ とするような単純な誤りも、まだしばしば見られます。

このような誤りに対する対策には二つの方向があります。一つは LLM の出力を 外部の検証器 にかけることです。数学問題なら計算機代数システムで答えを検算し、プログラミング問題ならテストケースで実行検証します。もう一つは、構造化された認知的ドメインモデルを併用することです。学習目標、KC、前提関係をあらかじめ形式言語で記述しておけば、LLM が生成した問題がその目標と整合しているか、必要な KC のみを使っているかを機械的に検証できます。LLM の流暢さを生かしつつ、構造化された制約で品質を担保する——この組み合わせが、生成 AI を教育に責任を持って統合する一つの道筋です。

対話的個別支援とソクラテス的設計

LLM のもう一つの主要用途は、学習者との対話的な個別支援です。第 11 章で論じたように、デフォルトの LLM は学習者の質問に直接答えてしまい、思考機会を奪う傾向があります。良い LLM チューターの設計は、プロンプトとシステム側の足場かけによって LLM の振る舞いを制約することにあります。

Pardos and Bhandari [Pardos2023] は、LLM が生成するヒントを既存の人間が書いたヒントと比較する実証研究を行い、適切に設計されたプロンプトの下で LLM ヒントが人間のヒントに匹敵する学習効果を示す場合があることを報告しました。一方、LLM が誤った解説を自信を持って提示する場面もしばしば観察されました。これは流暢さと正しさが解離する LLM の本質的特性で、教育応用では特に深刻な問題となります。Mollick and Mollick [Mollick2023] は、LLM を「不完全だが有能な助手」として扱う実践的なガイドラインを提案しています。鍵は、LLM に直接答えを求めるのではなく、ソクラテス的対話を通じて学習者自身の思考を促すように役割を設計することです。具体的には、システムプロンプトで「学習者が答えを直接求めても答えを出さず、現在の理解を引き出す質問を返す」「学習者の中間ステップが正しければ次のステップを問い、誤っていれば誤りを直接指摘せず検証方法を尋ねる」といった役割を与えます。さらに、第 9 章の学習者モデルからの情報——どの KC が未習得か、どの誤概念を持つか——を LLM のコンテキストに渡せば、より個別化された対話が可能になります。

LLM の構造的な弱点として、本章を通じて最も注意すべきは ハルシネーション（hallucination） です。LLM は大量のテキストの統計的パターンから次のトークンを予測する仕組みで、内容の真偽を内部で検証する能力を本質的には持ちません。流暢な文章が生成されることと、その内容が正しいことは別問題なのです。教育応用では、LLM の出力を学習者が無批判に信用しないよう、外部知識ベースとの照合（retrieval-augmented generation）、出典の明示、教師や形式化されたドメインモデルによる検証を組み合わせることが重要です。Kasneci et al. [Kasneci2023] は、ChatGPT の教育応用可能性と課題を包括的にまとめており、ハルシネーションだけでなく、訓練データに由来するバイアス、学習者の思考機会を奪う危険、学術的不正行為への悪用といった懸念を整理しています。

なお、僕自身が ITS の研究に関わるなかで一つ強く感じてきたのは、LLM は単独で使うよりも、構造化された認知的表現と組み合わせたときに最も力を発揮するということです。LLM の流暢さに任せきりにせず、認知科学・知識工学の側で築かれてきた中間的な表現と組み合わせる——この方向は僕自身の論文でも具体例を示しています [Koike2026]。本書が一貫して薦めたいわけではなく、あくまで一つの研究実践として参照していただければ十分です。

知識グラフと計画：カリキュラム順序付けへの応用

ITS のマクロ適応（第 10 章参照）は、本質的には 計画問題 です。学習者の現在の知識状態と目標を入力として、両者をつなぐ学習活動の系列を計算します。これに対する古典的アプローチが知識グラフと計画アルゴリズムの組み合わせです。

教育知識グラフ（educational knowledge graph）は、概念をノード、概念間の関係（前提、関連、上位／下位）をエッジとして表現します。Chen et al. [Chen2018] は、MOOC の動画とテキストから自然言語処理と機械学習を用いて自動的に知識グラフを構築する手法を提案しました。概念抽出、関係特定、前提条件推定が自動化されることで、人手では時間のかかる知識グラフ構築を大規模に行えます。

知識グラフは個別化された学習パス生成に直接活用できます。Sun et al. [Sun2019] のような研究は、学習者が未習得の目標概念を指定すると、その概念に至る前提概念を知識グラフ上で逆向きに探索し、すでに習得済みのものを除外して、最短の学習経路を計算します。これは古典的な計画問題（プランニング）として定式化でき、A* 探索や動的計画法といった既存のアルゴリズムが適用できます。

知識構造の確率的扱いとしては、ベイジアンネットワークを用いた学習者モデルが古くから研究されてきました。前提関係にある概念群について各概念の習得状態を確率変数とし、観測される正答／誤答からそれらを同時に推論します。これにより、独立な BKT では捉えられない概念間依存を考慮した精緻な診断が可能になります。

近年は、機械学習と論理推論を組み合わせるニューロシンボリック AI のアプローチも教育応用で注目されています [Garcez2019]。深層学習の柔軟性と記号的推論の解釈可能性を両立させようとする試みで、認知モデルと LLM を組み合わせる方向性とも親和性が高いものです。

代数学の Cognitive Tutor（PUMP Algebra Tutor）[Koedinger1997] のような ITS は、こうした記号的推論と学習者モデルを組み合わせた古典的な実装例です。ACT-R に基づくプロダクションルールが学習者の解法を一手ずつ追跡し、各ステップでフィードバックを返します。LLM 時代にこのような明示的な推論基盤がなお重要なのは、それが 検証可能で説明可能な決定 を提供するからです。

強化学習による教授方策

学習者との相互作用を通じて教授戦略そのものを最適化する試みが、強化学習（Reinforcement Learning, RL）の教育応用です。RL では、システムの状態を学習者モデルで表現し、行動を提供する問題やヒントの選択、報酬を学習者の進歩（正答、理解度向上）として、長期的な報酬を最大化する方策（policy）を学習します。

Rafferty et al. [Rafferty2016] は、教授戦略を部分観測マルコフ決定過程（POMDP）として定式化し、教授行動の最適化を行いました。学習者の知識状態は直接観測できないため部分観測で、この不確実性の下で長期的な学習成果を最大化する行動を計算します。固定的な教授戦略よりも適応的な選択の方が学習効果が高いことが示されています。

RL の利点は、最適な教授方策を事前に設計せずデータから自動的に学習できることです。一方、課題も大きいものがあります。第一に、大量のデータを要します。教育の文脈では、一人の学習者から得られる相互作用は限られているため、シミュレーション環境での事前学習や、学習者モデル経由での合成データ生成が必要になります。第二に、初期の探索段階では学習者に最適でない支援を提供してしまう可能性があり、これは教育の高ステークス性に照らせば看過しがたい問題です。第三に、学習された方策がなぜそうなったのかの解釈が困難で、教師や学習者の信頼を得にくいことです。これらの課題から、現在の実用システムでは、強化学習を全面的に使うのではなく、ルールベースの枠組みの細部最適化に限定して使う、あるいはオフポリシー評価で安全性を担保しながら徐々に展開する、といった慎重な設計が取られています。

マルチモーダル学習分析と監視のリスク

深層学習の進展は、映像・音声・テキスト・生理データといった多様なモダリティを統合的に分析することを可能にしました。例えばオンライン学習の動画から学習者の表情や視線を分析し、エンゲージメントや感情を推定する研究 [Whitehill2014] や、第 11 章で触れた Wayang Outpost のように生理データから情動を推定して介入するシステムがあります。

しかし、こうした技術は学習者のプライバシーと監視の問題を直接引き起こします。Prinsloo and Slade [Prinsloo2017] は学習分析における倫理原則として、透明性、同意、データの最小化を提唱しています。技術的にも、表情や視線からの情動推定の精度には限界があり、文化や個人差を超えた一般化は困難です。誤検出が学習者の不快感や不適切な介入につながるリスクは、利益と慎重に天秤にかける必要があります。マルチモーダル分析は強力ですが、「できることをやる」ではなく「やるべきことを慎重に選ぶ」設計姿勢が求められます。

倫理的課題：公平性、透明性、教師の役割

ここまで各技術ごとに固有の限界を見てきましたが、AI を教育に応用する際に共通して問われる倫理的問題があります。

学術的誠実性 については、学習者が LLM を使って課題を自動生成し自分の作品として提出する不正行為が懸念されています。AI 生成文章を判別する検出器も登場していますが、人間の文章を AI と誤判定する誤検出が広く報告されていて、現状で完全に信頼できる手段ではありません。Sullivan et al. [Sullivan2023] は、単に AI 使用を禁止するのではなく、評価方法を見直し、AI との協働スキルを教育目標に含める方向性を提案しています。これは「AI を使って何ができるか」と「AI なしで何ができるべきか」を改めて教育目標として整理する作業を要請しているわけです。

公平性とバイアス は、知識追跡からドロップアウト予測、LLM の出力まで、ほぼすべての AI 応用に関わります。LLM は訓練データに含まれる人種・性別・文化的ステレオタイプを反映する可能性があり、知識追跡や予測モデルは人口統計群によって異なる精度を示し得ます。Baker and Hawn [Baker2022] は教育 AI における公平性確保のために、多様な集団での評価とバイアス緩和技術の必要性を論じています。

透明性と説明可能性 は、深層学習の進展とともにますます重要な課題となっています。学習者と教師が AI の判断根拠を理解できることは、信頼と適切な利用の前提です。Holstein et al. [Holstein2019] は、教師が AI の予測や推薦を検証・上書きできる「教師中心の AI」の設計原則を提案しています。AI を教師の代替ではなく、教師の判断を補強する道具として位置づける視点です。

プライバシーとデータ保護 は、商用 LLM サービスを学習活動で利用する際にとくに切実です。学習者の入力がモデルの再訓練やログ保管に使われる可能性があり、学校現場で導入する際にはデータ取扱いに関する契約や、個人情報・成績情報を入力しない運用ルールが必要になります。

教師の役割の変化 は、これらすべてを束ねる根源的な問いです。AI が一部の教育機能を自動化することで、教師は何をすべきか。Luckin et al. [Luckin2016] が論じるように、AI は教師を置き換えるものではなく、教師がより創造的で人間的な側面に注力できるようにする道具と捉えるべきでしょう。採点や個別の知識確認といった反復的作業は AI が担い、動機づけ、進路相談、創造的活動の指導といった人間にしかできない側面に教師が時間を使う——これは技術的可能性ではなく、教育設計上の選択です。

次章への橋渡し

本章では AI と機械学習の学習支援への多様な応用を、ITS のレイヤに沿って五つの技術系として整理しました。機械学習による予測、自然言語処理による評価、生成 AI、知識グラフと計画、強化学習。それぞれが ITS の特定の機能を強化し、個別化と効率化に貢献し得ます。一方、各技術には固有の限界とリスクがあります——知識追跡の解釈可能性のトレードオフ、AES が意味より表層特徴を見ること、LLM のハルシネーション、予測モデルの自己成就予言、強化学習の探索コスト、感情認識のプライバシー問題。これらを認識せず「最新技術＝最良」と考えるのは、教育という高ステークスな領域では危険です。

ここまで本書では、認知のモデル化、適応戦略、UI、AI の応用と、ものを「作る」側の話を続けてきました。次章からは視点を切り替え、「作ったものをどう確かめるか」——FCL 研究における評価の枠組みと統計的な道具立てを順に見ていきます。

さらに学ぶために

Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th ed.). Pearson.
Holstein, K., McLaren, B. M., & Aleven, V. (2019). Co-designing a real-time classroom orchestration tool to support teacher–AI complementarity. Journal of Learning Analytics, 6(2).
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103.
Baker, R. S., & Hawn, A. (2022). Algorithmic bias in education. International Journal of Artificial Intelligence in Education, 32(4).
Luckin, R., et al. (2016). Intelligence Unleashed: An argument for AI in Education. Pearson.

古池謙人流『教育AIの見取り図』