Adaptive learning : Introduction au Bayesian Knowledge Tracing

L’adaptive learning — ou apprentissage adaptatif — est un des axes de développement du digital learning dont on entend beaucoup parlé actuellement. Le Bayesian Knowledge Tracing — ou BKT — est l’algorithme le plus utilisé par les solutions d’apprentissage adaptatif.

Adapter la formation et son contenu à l’apprenant pour améliorer la qualité et la vitesse de son apprentissage va vite devenir indispensable afin de mobiliser moins de ressources pour produire un changement — acquisition de compétence, acculturation, conformité — plus profond et durable.

Au coeur de l’apprentissage adaptatif, on retrouve différents algorithmes comme le Bayesian Knowledge Tracing (BKT), l’Additive Factor Model (AFM) ou encore l’Instructional Factor Model (IFM). Ces dernières années, le modèle BKT — traduit grossièrement par “modèle bayésien de la progression du savoir” — est devenu l’algorithme le plus utilisé pour estimer le niveau d’acquisition d’un élément de connaissance par un apprenant à un instant t.

Cet article se veut une introduction au Bayesian Knowledge Tracing afin d’en comprendre les éléments clés et comment ils sont utilisés dans l’adaptive learning.

On parlera de notions de statistiques, d’intelligence artificielle et de big data pour comprendre comment ces technologies sont exploitées dans les faits.

Éléments de probabilité

MathematicsComme son nom l’indique, le Bayesian Knowledge Tracing est basé sur les statistiques bayésiennes. Pour faire simple, il s’agit de statistiques qui permettent de traiter de plus petits échantillons, là où les statistiques classiques ont besoin d’un large nombre d’occurrence afin d’être utilisables — on parle d’échantillon représentatif et de signification statistique.

Les 4 éléments qui composent le tracé du savoir sont donc des probabilités :

  • p(init) : c’est la probabilité que l’apprenant connaisse déjà l’élément de connaissance avant son entrée dans le programme
  • p(transit) : c’est la probabilité de transfert de la connaissance. L’apprenant mobilise correctement ses acquis pour répondre correctement à la question posée
  • p(slip) : c’est la probabilité d’une erreur d’inattention. L’apprenant a bien acquis la connaissance mais commet une erreur exceptionnellement
  • p(guess) : c’est la probabilité d’une bonne réponse par pure chance. L’apprenant ne maîtrise pas l’élément de connaissance mais trouve tout de même la bonne réponse

On parle bien de probabilité, il y a une chance pour que chacun de ces phénomènes se produise lors de la restitution des connaissances.

Application du Bayesian Knowledge Tracing : modèles prédictifs

Afin de décider si une connaissance est apprise et maîtrisée ou non, on créée un modèle mathématique qui est censé prédire la performance de l’apprenant lors de son évaluation. On parle de modèle prédictif.

Le modèle de prédiction utilisant le Bayesian Knowledge Tracing a pour objectif de répondre à la question : est-ce que l’apprenant connaît l’élément de connaissance X ?

Le modèle forge sa réponse à partir des résultats de l’apprenant tout au long du parcours des modules de formation.

Le modèle utilise donc les éléments statistiques ci-dessus pour prédire la performance de l’étudiant au cours de l’apprentissage adaptatif ainsi qu’après, en situation réelle.

Prérequis pour un modèle prédictif

Afin d’établir ce type de modèle, il y a 2 pré-requis :

  • On doit pouvoir évaluer le comportement de l’apprenant par correct ou incorrect
  • Chaque problème ou point d’évaluation est associé à un élément de connaissance

Résultat du modèle prédictif

Pour répondre à la question “Est-ce que l’apprenant connaît l’élément de connaissance X ?”, le modèle répond de manière binaire : oui ou non.

Erreurs : faux positifs et faux négatifs

Il existe un risque d’avoir des faux positifs et des faux négatifs dans l’évaluation de la connaissance d’un élément :

  • Les faux positifs sont matérialisés par p(guess), la probabilité que l’apprenant devine la bonne réponse par chance, sans avoir les connaissances nécessaires pour répondre correctement
  • Les faux négatifs sont matérialisés par p(slip),la probabilité que l’apprenant réponde faux au test d’évaluation alors qu’il possède les connaissances nécessaires

Ces probabilités sont donc prises en compte dans le modèle afin de compenser pour ce type d’erreur.

Amélioration du modèle : big data et intelligence artificielle

Tout l’intérêt des modèles prédictifs est qu’ils s’adaptent et évoluent tout au long du parcours des utilisateurs dans son cursus sur la plateforme mettant en oeuvre le modèle.

À chaque occasion — quiz d’évaluation — le modèle tente de prédire correctement le score de l’utilisateur et change les coefficients de son modèle en suivant l’algorithme Bayésien.

Pour que cette amélioration se passe bien, il faut un certain nombre de données pour que le modèle “apprenne”. Ce grand nombre de données — points d’évaluation du comportement de l’apprenant — touche à la big data.

L’ajustement des différents paramètres du modèles au fil de son utilisation est un principe que l’on appelle “l’entraînement du modèle” — Model Training en anglais. Cela relève du Machine Learning et il s’agit d’un des principes fondamentaux de l’intelligence artificielle.

À partir de l’algorithme que nous fournit le Bayesian Knowledge Tracing et un grand nombre de données d’interaction d’apprenants, on arrive à affiner les différents coefficients du modèle de prédiction afin de l’améliorer dans le temps.

Plus il y a de données, plus le modèle affine sa précision et permet de prédire l’apprentissage de manière fiable.

Usage et déploiement

On a déjà parlé de l’application du Bayesian Knowledge Tracing dans l’adaptive learning dans notre article sur l’expérimentation entre Microsoft et Harvard.

C’est ce même algorithme qui est utilisé par le moteur d’apprentissage adaptatif pour faire évoluer le contenu de la formation au fil du temps et de l’usage des apprenants.

Après un temps d’initialisation où le modèle “apprend”, le modèle est capable de prédire correctement dans un grand nombre de cas si la connaissance est maîtrisée ou non par l’apprenant.

Si celle-ci est maîtrisée, on peut alors modifier le parcours de l’utilisateur pour :

  • Le faire passer à l’élément de connaissance suivant et passer moins de temps en formation sur des éléments déjà appris
  • Si un élément pré-requis n’est pas maîtrisé, insister sur l’élément de connaissance avec des modules complémentaires afin de s’assurer d’une bonne maîtrise des pré-requis avant d’attaquer un nouvel élément de connaissance

On économise ainsi en ressources humaines car on réduit le temps de formation. On augmente aussi l’engagement et la facilité d’apprentissage en s’assurant de la bonne maîtrise des pré-requis.

Conclusion

Le Bayesian Knowledge Tracing n’est pas des plus accessibles au premier abord mais modélise tant bien que mal l’apprentissage en prédisant la performance aux tests d’évaluation des connaissances.

Avoir une idée générale des fondements des algorithmes adaptatif permet une meilleure compréhension des solutions aujourd’hui déployés dans le monde de l’adaptive learning et des possibilités qu’elles offrent.

Le BKT permet une modélisation du savoir en utilisant des hypothèses simplificatrices. Dans le futur, de nouveaux modèles vont émerger intégrant de plus en plus de données et permettant une prédiction encore plus précise de l’assimilation de la connaissance. Dans le futur, on peut imaginer des algorithmes prenant en compte d’autres paramètres comme le temps de réponse, le type de question et l’interdépendance de certains éléments de connaissance.

Cet article touche à des notions de pédagogie et de modélisation des connaissances et de leur acquisition. J’espère qu’il vous a permis de comprendre les références à ces domaines et leur implication dans l’apprentissage adaptatif.

No Comments

There are not comments on this post yet. Be the first one!

Post your Comment