Si vous avez déjà essayé d'utiliser ChatGPT comme calculatrice, vous avez certainement remarqué son dyscalculie: Le chatbot est mauvais en maths. Et ce n’est pas distinctive parmi les IA à cet égard.
Anthropique Claude je ne peux pas résoudre problèmes de mots de base. Gémeaux ne parvient pas à comprendre équations quadratiques. Et les méta Lama a du mal avec la simplicité ajout.
Alors, remark se fait-il que ces robots puissent écrire des soliloques tout en se laissant tromper par l'arithmétique du niveau scolaire ?
La tokenisation a quelque selected à voir avec cela. Le processus de division des données en morceaux (par exemple, diviser le mot « fantastique » en syllabes « fan », « tas » et « tic »), la tokenisation aide l'IA à coder de manière dense les informations. Mais comme les tokeniseurs – les modèles d’IA qui effectuent la tokenisation – ne savent pas vraiment ce que sont les chiffres, ils finissent souvent par détruire les relations entre les chiffres. Par exemple, un tokeniseur peut traiter le nombre « 380 » comme un seul jeton mais représenter « 381 » comme une paire de chiffres (« 38 » et « 1 »).
Mais la tokenisation n’est pas la seule raison pour laquelle les mathématiques constituent un level faible pour l’IA.
Les systèmes d’IA sont des machines statistiques. Formés sur de nombreux exemples, ils apprennent les modèles de ces exemples pour faire des prédictions (par exemple, l'expression « à qui » dans un e-mail précède souvent l'expression « cela peut concerner »). Par exemple, étant donné le problème de multiplication 5,7897 x 1,2832, ChatGPT — ayant vu de nombreux problèmes de multiplication — déduira probablement le produit d'un nombre se terminant par « 7 » et un nombre se terminant par « 2 » se terminera par « 4. » Mais ça va avoir du mal avec la partie médiane. ChatGPT m'a donné la réponse 742 021 104 ; le bon est 742 934 304.
Yuntian Deng, professeur adjoint à l'Université de Waterloo spécialisé en IA, a soigneusement évalué les capacités de multiplication de ChatGPT dans une étude plus tôt cette année. Lui et ses co-auteurs ont découvert que le modèle par défaut, GPT-4o, avait du mal à se multiplier au-delà de deux nombres contenant chacun plus de quatre chiffres (par exemple, 3 459 x 5 284).
« GPT-4o a du mal avec la multiplication à plusieurs chiffres, atteignant une précision inférieure à 30 % au-delà des problèmes à quatre chiffres par quatre chiffres », a déclaré Deng à TechCrunch. « La multiplication à plusieurs chiffres est un défi pour les modèles de langage, automobile une erreur dans une étape intermédiaire peut s'aggraver et conduire à des résultats finaux incorrects. »
Alors, les compétences en mathématiques échapperont-elles à jamais à ChatGPT ? Ou y a-t-il des raisons de croire que le robotic pourrait un jour devenir aussi compétent en chiffres que les humains (ou une TI-84, d’ailleurs) ?
Deng a bon espoir. Dans l'étude, lui et ses collègues ont également testé o1, le modèle de « raisonnement » d'OpenAI récemment arrivé sur ChatGPT. Le o1, qui « réfléchit » aux problèmes étape par étape avant d’y répondre, a obtenu de bien meilleurs résultats que le GPT-4o, résolvant jusqu’à des problèmes de multiplication de neuf chiffres par neuf chiffres environ la moitié du temps.
« Le modèle pourrait résoudre le problème d'une manière différente de la façon dont nous le résolvons manuellement », a déclaré Deng. « Cela nous rend curieux de connaître l'approche interne du modèle et de savoir en quoi il diffère du raisonnement humain. »
Deng pense que les progrès indiquent qu’au moins certains sorts de problèmes mathématiques – les problèmes de multiplication en font partie – seront éventuellement « entièrement résolus » par des systèmes de sort ChatGPT. « Il s'agit d'une tâche bien définie avec des algorithmes connus », a déclaré Deng. « Nous constatons déjà des améliorations significatives entre GPT-4o et o1, il est donc clair que des améliorations des capacités de raisonnement sont en practice de se produire. »
Ne vous débarrassez pas de votre calculatrice de si tôt.