La controverse autour de Luc Julia sur l’intelligence artificielle
Publié en ligne le 2 septembre 2025 - Intelligence Artificielle -
Luc Julia a mené une carrière aux États-Unis chez Apple, Hewlett-Packard et dans plusieurs start-ups de la Silicon Valley avant de devenir en 2012 vice-président innovation chez Samsung puis directeur scientifique du groupe Renault à partir de 2021. Membre de l’Académie des technologies, il est l’auteur de plusieurs ouvrages sur l’intelligence artificielle (IA) et est régulièrement invité dans les médias sur ce sujet. Luc Julia a été décrit par Renault lors de son embauche comme « expert mondial en matière d’intelligence artificielle » [1] et il est parfois présenté comme « le Pape de l’IA », par exemple dans les nombreuses conférences qu’il donne [2].
Le 18 juin 2025, il a été auditionné par la commission des affaires économiques du Sénat [3]. Une controverse s’est alors développée suite à la publication d’une vidéo sur la chaîne YouTube de Monsieur Phi (Thibaut Giraud) [4], publication qui remet en cause le sérieux de ses propos et la façon dont Luc Julia présente sa carrière (en particulier, comme cocréateur de Siri, l’assistant vocal des iPhone).
C’est dans ce contexte que nous proposons une analyse détaillée de son dernier ouvrage, IA, génératives, pas créatives (Le Cherche Midi, 2025) et sous-titré « L’intelligence artificielle n’existe (toujours) pas ». Cet ouvrage fait écho au précédent paru six ans auparavant et intitulé L’intelligence artificielle n’existe pas (First Éditions, 2019). Nous laissons de côté ici la discussion sur la carrière de Luc Julia et sur le rôle qu’il a réellement joué dans la création de l’assistant vocal Siri (on pourra se reporter sur ce sujet à ces documents [5],[6]).
Un propos général mesuré sur les risques et enjeux de l’IA…
Dans le grand débat en cours sur l’intelligence artificielle, Luc Julia se place du côté de ceux qui pensent qu’on ne peut pas vraiment parler aujourd’hui d’intelligence à propos des systèmes d’IA et qu’une intelligence artificielle générale « polyvalente capable de tout faire » supposée dépasser l’humain n’existe pas. Selon lui, il s’agirait plutôt d’outils d’aide qui, certes, transforment notre quotidien, mais sans intelligence, et toutes les déclarations dithyrambiques ou apocalyptiques sur des systèmes qui vont dépasser l’Homme, voire le dominer, seraient infondées. C’est ce qu’il entend démontrer dans son ouvrage.
L’auteur discute les limitations de l’IA et affirme qu’elles ne peuvent pas vraiment créer et innover, qu’elles ne comprennent pas ce qu’elles nous expliquent et qu’elles « ne sont pas intelligentes, du moins pas comme nous, humains, l’entendons ». Luc Julia nous invite à nous méfier de certains de nos biais qui nous font octroyer à l’intelligence artificielle « des caractéristiques humaines puisqu’on a l’impression qu’elle a des comportements humains » et à penser « qu’il faut être intelligent pour réaliser des tâches complexes ». Les impacts socio-économiques de l’IA sont également abordés, tout en ne faisant guère que les survoler : consommation énergétique, régulation, impacts sur les métiers et les emplois, bulle spéculative…
Ces propos d’ordre général ne sont pas nouveaux et ont été développés de manière beaucoup plus détaillée et rigoureuse par d’autres (voir par exemple les ouvrages grand public en français [7],[8], les propos de Yann Le Cun, prix Turing 1 2019 ou notre dossier publié en 2023 [9]). Ces propos de Luc Julia sont bien évidemment défendables et pourraient constituer une contribution utile au débat.
… mais complètement décrédibilisé
Le problème, et il est majeur, est que Luc Julia appuie sa « démonstration » sur des approximations, des erreurs, des contre-sens et des anecdotes, dont certaines sont d’une authenticité douteuse. À la lecture de certains passages, on en vient à se demander s’il maîtrise réellement les systèmes d’IA contemporains (IA connexionniste et grands modèles de langage sous-jacents à des outils comme ChatGPT).
Pour étayer cette critique radicale que nous proposons ici, il est indispensable de procéder à une analyse détaillée et systématique. Nous le faisons sur son dernier ouvrage, supposé à jour au regard des développements rapides de la discipline. La longue succession de citations qui suit peut paraître fastidieuse, voire relever d’une sorte d’acharnement. Mais elle est indispensable pour étayer la critique et montrer que l’ouvrage ne contient pas quelques erreurs isolées, mais repose entièrement sur des bases scientifiques défaillantes ou fausses.
Certains défenseurs de Luc Julia minimisent ces problèmes et mettent les erreurs reprochées sur le compte d’approximations bénignes (voir par exemple [10]). C’est aussi au nom de l’intérêt de la thèse défendue que la critique des propos de Luc Julia serait jugée malvenue [11]. Nous pensons à l’inverse : ce sont des erreurs, des contre-sens et des approximations qui discréditent l’ensemble du propos tenu.
Incompréhension du fonctionnement des IA contemporaines (connexionnistes)
Données et paramètres
« Au début quand j’avais 100 000 images de chats, je pouvais toutes les vérifier et m’assurer qu’il n’y avait pas un ou deux chiens dans le lot. […] Pour le machine learning ou deep learning on parle d’énormément de données, le fameux big data. En ordre de grandeur, le machine learning, c’est de 100 000 à 1 000 000 de paramètres, le deep learning, c’est de 10 millions à 100 millions de paramètres. Les IA génératives, par exemple GPT 4.0, exigent 1 760 milliards de paramètres. C’est exponentiel, on utilise de plus en plus de données, donc de stockage et de capacités de calcul. Et il devient fatalement de plus en plus compliqué de savoir si ce sont des données de bonne qualité » (p. 22 et 23) ; « Avec les IA génératives, on parle de milliards et de milliards de paramètres de data » (p.72) ; « En réalité, lorsque vous posez une question à ChatGPT, il va générer une réponse en puisant dans sa base de données de 1 760 milliards de paramètres. Sa réponse est une moyenne de tout ce qu’il a en stock » (p.105) ; « Les principales IA disposent de tellement de données qu’il est peu probable qu’elles appartiennent toutes à leur concepteur. Il y a peu de chances qu’OpenAI possède 1 760 milliards de données – je les prends en exemple mais je doute qu’ils soient les seuls à avoir utilisé des données qui ne leur appartiennent pas » (p.157).
Tout au long du livre, les termes de « données » et de « paramètres » sont employés de façons très imprécises, et semblent parfois interchangeables (par exemple, dans les extraits ci-dessus, le chiffre de 1760 milliards dénombre alternativement les « données » et les « paramètres »). Or, il y a une différence fondamentale entre les deux qu’il est indispensable de restituer clairement dans un ouvrage grand public. Les données sont la matière première de l’apprentissage des systèmes d’intelligence artificielle. Il peut s’agir de textes, d’images, voire de vidéos ou de sons. Elles peuvent avoir été moissonnées sur Internet, être issues de banque de données privées ou avoir été acquises de toutes autres manières (par exemple en filmant des situations réelles de circulation automobile). Les paramètres, de leur côté, sont des valeurs numériques propres aux modèles à l’issue de l’apprentissage. Ils ont été calculés à partir des données pour permettre aux modèles d’exécuter par la suite les tâches qu’on attend d’eux. Les paramètres ne sont en rien des données organisées dans une base et dans lequel le système pourrait aller « puiser » pour « générer sa réponse ». Cette confusion est vraiment surprenante de la part de quelqu’un qui se présente comme spécialiste de l’IA et qui cherche à faire de la vulgarisation.
IA générative ou recherche dans une base de données ?
« Chaque texte généré se fonde sur un texte “équivalent” dans la base de données » (p.55) ; « Si, dans les données, cent sources citaient Zidane et une seule Leboeuf, l’IA répondra la plupart du temps “Zidane” parce qu’elle n’a qu’une chance sur cent une de tomber sur Leboeuf » (p.230) ; « L’IA ne fait que “moyenner” ce qu’elle a dans sa base de données » (p.56) ; « En réalité, lorsque vous posez une question à ChatGPT, il va générer une réponse en puisant dans sa base de données de 1 760 milliards de paramètres. Sa réponse est une moyenne de tout ce qu’il a en stock » (p.105) ; « la machine va juste faire correspondre un texte de sa base de données à ce que je lui dis et générer une réponse à partir de ce qu’elle trouve » (p.110) ; « L’action qui consiste à faire le lien entre ce qu’elle connaît et ce qu’on lui dit s’appelle le pattern matching, qu’on pourrait traduire par “correspondance des modèles” » (p.110) ; « aller chercher des résultats dans d’énormes réservoirs » (p.111).
Les IA génératives (textes, images, vidéos, musiques, etc.) ne sont pas des gigantesques bases de données dans lesquelles les modèles viendraient puiser pour répondre à une requête. C’est là un contre-sens majeur qui ne permet pas de comprendre comment ces systèmes fonctionnent et les problèmes qui en découlent (les hallucinations par exemple). Dans les grands modèles des IA génératives, aucune donnée, aucun texte, aucune connaissance n’est stockée explicitement. Les paramètres calculés lors de l’apprentissage permettent de générer un contenu nouveau à chaque fois. Par ailleurs, il n’y a aucun mécanisme de « pattern matching » dans les grands modèles de langage à la base des IA génératives. La notion de pattern matching renvoie à un type d’IA totalement différent des IA génératives, l’IA dite « symbolique » qui fonctionne effectivement sur un encodage explicite de connaissances acquises (par exemple dans les systèmes experts).
ChatGPT, hallucinations, pertinence : des explications fantaisistes
Hallucinations
« Comme je l’ai dit, que ces IA racontent n’importe quoi est normal. Elles ne cherchent pas à vous raconter la vérité, elles cherchent à vous donner une réponse. Et la réponse, c’est une sorte de moyenne de ce qu’elle trouve sur Internet. On sait bien que tout n’est pas vrai sur Internet » (p. 52) ; « L’IA force la correspondance sur des éléments qui ne sont pas identiques. La correspondance n’étant pas complète, l’IA va dire n’importe quoi et avoir des “hallucinations”. Comme l’algorithme attend un certain type de réponse mais qu’il ne le retrouve pas dans la base de données, alors il fait du remplissage avec n’importe quoi » (p.111).
Ces phrases suggèrent que les hallucinations pourraient être dues au fait que « tout n’est pas vrai sur Internet » et que « la base de données » du système serait incomplète. Nous avons déjà évoqué la question de la base de données : les systèmes d’IA générative n’en comportent aucune, donc sa complétude ou son incomplétude est sans aucun sens. Par ailleurs, le fait que les données ayant servi à l’apprentissage, souvent issues d’Internet, puissent être erronées influence bien entendu le contenu des réponses faites. Mais les hallucinations proviennent plus fondamentalement de l’approche utilisée par ces systèmes, pas des données d’apprentissage. Même à partir d’un corpus de données complètement fiable et validé, le principe même des IA génératives fait qu’elles produisent des résultats, certes plausibles au regard de ce qu’elles ont vu lors de leur phase d’apprentissage, mais qui n’ont aucune raison de principe d’être vraies.
Les erreurs de chatGPT
« L’université de Hong Kong a rédigé un article en février 2023 sur un test de pertinence que des chercheurs ont fait passer à ChatGPT. Pour résumer, ils ont établi une liste de millions de faits avérés et ont voulu évaluer la véracité des informations de l’IA. Ils ont mis ces informations dans des prompts et ont demandé “Est-ce vrai ou faux ?” […] dans 36 % des cas, ChatGPT a répondu n’importe quoi et a démenti une information qui était pourtant vraie » (p. 53).
L’article évoqué [12] avance bien un tel pourcentage, mais Luc Julia se méprend complètement sur ce qu’il désigne. L’étude ne teste pas la capacité de ChatGPT à évaluer la véracité de « millions » d’allégations factuelles, mais à accomplir certains types de raisonnement. Plus précisément, l’article évalue le comportement de ChatGPT sur 634 exercices répartis dans dix catégories de raisonnement : déductif, inductif, mathématiques, temporels, sens commun, etc. (il n’est nulle part question d’une « une liste de millions » de quoi que ce soit). Ces 634 exercices sont tirés de bases de données publiques. Par exemple, pour le raisonnement mathématique (jeu de test MATH [13]), un problème possible, parmi d’autres, est : « Tom a une bille rouge, une bille verte, une bille bleue et trois billes jaunes, combien de groupes différents de deux billes Tom peut-il constituer ? » (la réponse est sept 2). Sur ce type de raisonnement, ChatGPT n’a réussi que 7 des 30 exercices proposés. Sur d’autres types de raisonnement, il atteint des performances de 100 %. Sur les 634 exercices, le système a échoué dans 36 % des cas. Ce chiffre moyen (celui retenu par Luc Julia), outre qu’il ne porte pas sur ce que l’auteur affirme, n’a que peu de sens dans la mesure où le nombre de tests par catégories est très variable (par exemple, la catégorie « sens commun » comporte à elle seule près de la moitié des tests). Enfin, notons que le test a été réalisé sur la version du logiciel au 15 décembre 2022.
Imprévu et explicabilité
« Il y aura toujours des situations imprévues où les IA vont bugger ou diverger (le chatbot Tay, les voitures autonomes de Waymo, les assistants vocaux de Facebook, etc.), où la machine n’agira pas exactement comme on l’avait anticipé car c’est inhérent à la technologie. Ce phénomène d’imprévu (de « boîtes noires ») ne survient que parce que les concepteurs font des erreurs. Dans le cas de Tay, ils ont commis des erreurs de choix de data et d’algorithme », « les créateurs des IA sont capables de comprendre et d’expliquer le fonctionnement de leurs machines » (p.122) ; « On peut certainement créer une IA aussi rapide et puissante pour contrôler une autre IA [celle dont on cherche à expliquer le fonctionnement]. Comme elle pourra concurrencer ses performances, elle ne rencontrera aucune difficulté à suivre ses actions pas à pas » (p.126) ; « les concepteurs d’IA sont ceux qui choisissent les données et les algorithmes, ce qui évacue l’inexplicabilité » (p. 127) ;
L’imprévu est un résultat qui ne correspond pas aux attentes des concepteurs. Mais il est erroné de ramener l’imprévu au seul fait que « les concepteurs font des erreurs » (voir plus haut à propos des hallucinations, un trait caractéristique des IA génératives). Certes, le choix des données d’apprentissage et la capacité à les valider sont des facteurs clés pour réduire les biais, les « imprévus » et les hallucinations, mais ce n’est pas suffisant. Ainsi, trouver la raison d’une conclusion inattendue nécessite de comprendre comment le système a procédé. La question de l’explicabilité devient alors un enjeu majeur de confiance et d’acceptabilité [14].
Affirmer que les concepteurs auraient les moyens d’évacuer tout problème d’explicabilité du fait qu’ils « choisissent les données et les algorithmes » est erroné. C’était vrai dans l’IA symbolique fondée sur un raisonnement déductif et des connaissances explicitement représentés dans la machine (systèmes experts par exemple). Mais ça ne l’est plus dans l’IA connexionniste où il n’y a plus vraiment de « trace de raisonnement » où l’on pourrait suivre les « actions pas à pas » du système. La compréhension fine de ce qui a conduit un programme à produire une conclusion particulière nécessite d’analyser comment les données utilisées lors de l’apprentissage ont façonné le réseau de neurones, c’est-à-dire fixé les milliards de paramètres du système. La connaissance des concepteurs est bien évidemment un élément important : ils connaissent en détail le corpus d’apprentissage utilisé, ils ont conçu l’architecture générale du système et ont accès à certaines valeurs internes. Mais cela n’« évacue » pas le problème fondamental de l’explication dans les IA génératives comme l’affirme Luc Julia. Dès 2015, un vaste programme de recherche a été initié pour des « IA explicables » [15]. Notons par ailleurs qu’une partie des discussions autour de la réglementation de l’intelligence artificielle tourne autour de l’explicabilité et de la mise à disposition de ces connaissances (par exemple, via l’open source ou via des obligations imposées aux fournisseurs de modèles) : ne pas appréhender correctement le problème technique n’aide pas à bien décrire ces enjeux.
La génération de texte et les « transformers »
« Tout part d’un article scientifique de Google publié en 2017, qui présente leur nouvelle création : les “Transformers” […] Le grand avantage de cette innovation est qu’elle permet de prédire le prochain mot d’une phrase, d’où la notion de “génération” […] Cette technologie était inutilisable en 2017 car le temps d’exécution des IA était bien trop long. Il faudra attendre 2020, et l’apparition des CPU et GPU qui travaillent en parallèle pour que la technologie puisse vraiment se développer » (p.33-34).
L’architecture « transformer » proposée par des chercheurs de Google [16] n’est pas le point de départ des IA génératives. Il est difficile de donner une date précise, s’agissant d’une succession de travaux. Mais on peut citer, parmi bien d’autres, les travaux de Yoshua Bengio en 2003 (Prix Turing 2019) [17] ou les réseaux neuronaux récurrents. De plus, il n’a pas fallu attendre des années pour que la technologie devienne utilisable. Elle l’a été immédiatement, avec par exemple GPT1 ou BERT [18]. Enfin, les CPU et GPU qui travaillaient en parallèle existaient bien avant 2020.
Le véhicule autonome
Traverser la place de l’Étoile à Paris
« Mais pourquoi le niveau 5 n’existera-t-il jamais ? Pour le prouver, j’ai deux exemples ». « [Le premier exemple] Si vous mettez une voiture autonome sur une des douze avenues de la place de l’Étoile [à 18h] et que vous lui demandez de la traverser, il y a de grandes chances qu’elle reste immobile. Pour réussir cette prouesse à cette heure, il faut tout sauf respecter le Code de la route » (p.28).
Bien entendu, deux anecdotes ne peuvent pas servir à prouver une impossibilité de principe, ici celle de véhicules de niveau 5 avec les technologies actuelles (le niveau 5 correspond au véhicule entièrement autonome selon la catégorisation de la SAE, société internationale qui établit des normes techniques en ingénierie [19]).
La première anecdote a été invalidée quelques semaines à peine après la sortie du livre de Luc Julia : un véhicule en mode autonome (avec présence d’un contrôleur humain dans le véhicule, mais sans intervention) a bien réussi à traverser la place de l’Étoile [20]. Il n’est pas resté immobile.
Trompée par des faux panneaux de circulation
« Le second exemple nous vient de Waymo, une entreprise qui appartient à la galaxie Alphabet, issue du centre de recherche Google […]. En 2018, le PDG de Waymo de l’époque, un peu las d’entendre Elon Musk raconter n’importe quoi sur les voitures autonomes, a décidé de faire don de toutes les données que sa société avait collectées durant des années aux quatre coins du globe. […] C’est donc 10 millions de miles de conduite capturés en vidéos qu’il décide de mettre en ligne sur YouTube […] il ne m’a fallu […] qu’environ vingt minutes pour trouver ce que j’appelle ma première pépite, c’est-à-dire la preuve qu’on ne pourra jamais avoir de voitures autonomes. […] On y voit une voiture en train de rouler dans les rues de Mountain View, la ville de la Silicon Valley qui abrite le siège de Google. Cette voiture roule donc tranquillement et, tout à coup, la voiture s’arrête au milieu de la route, pourtant totalement libre, sans obstacle apparent. La voiture reste immobilisée pendant 2-3 secondes puis repart ; elle avance de 2 à 3 mètres, s’arrête puis repart ; elle avance de nouveau de 2 à 3 mètres et s’arrête. Elle procède ainsi cinq ou six fois […]. Mais si on scrute attentivement l’enregistrement vidéo, on voit sur le trottoir deux personnes qui marchent dans la même direction que la voiture. Et celle qui est la plus à gauche du trottoir, près de la chaussée, porte sur son épaule un panneau “stop” » (p.28 à 31).
Cette seconde anecdote est, a minima, très romancée. Jamais Waymo n’a rendu publiques ses données portant sur environ 16 millions de kilomètres de conduite, données stratégiques s’il en est. Et on imagine mal que l’entreprise l’aurait fait juste pour arrêter « d’entendre Elon Musk raconter n’importe quoi sur les voitures autonomes ». Ce qu’a réalisé Waymo (en 2019), c’est de mettre quelques données en ligne à des fins de recherche [21]. Nous sommes loin des 16 millions de kilomètres : seulement 1000 segments de 20 secondes, c’est-à-dire un peu plus de six heures de conduite, soit moins de 200 km (conduite urbaine). L’anecdote du « faux panneau stop » est connue et il existe des vidéos la mettant en scène (voir par exemple [22]). Et il en existe bien d’autres, très similaires. Difficile d’imaginer que Luc Julia, s’il a vraiment eu accès à toutes les données de Waymo, soit tombé en vingt minutes sur une telle séquence, une « pépite », dans des enregistrements qui pourraient lui prendre plusieurs années à visionner.
Une partie du problème décrit est cependant réel. En intelligence artificielle, on parle du phénomène de « longue traîne » : des cas rares qui ne peuvent être vus lors de la phase d’apprentissage vont immanquablement se produire quand l’usage sera très fréquent [23]. C’est un problème bien connu des constructeurs de véhicules (incluant Renault, dont le directeur scientifique est pourtant Luc Julia) qui sont confrontés depuis longtemps à cette problématique, avec par exemple, la fonction de reconnaissance de panneaux routiers intégrée dans de nombreux véhicules actuellement commercialisés. Il y a aussi les « attaques adverses », véritable souci pour les systèmes autonome où, par malveillance, on peut induire l’IA en erreur (voir par exemple [24]). Ces problèmes auraient été intéressants à décrire (il existe une abondante littérature scientifique) et plus démonstratifs qu’une anecdote à l’authenticité douteuse. Est-ce pour autant qu’atteindre le niveau 5 est impossible ? Il n’existe pas d’impossibilité de principe, mais des préoccupations éthiques et sociales ayant trait au niveau de fiabilité exigé, et bien entendu des défis techniques à surmonter.
Une histoire approximative ou réécrite de l’intelligence artificielle
La conférence de 1956 à Dartmouth
« Pour resituer le contexte de l’époque, le sujet en vogue était la modélisation mathématique d’un neurone », « Et c’est John McCarthy (un des organisateurs) qui a eu la brillante idée de proposer un nom en formulant un raisonnement scientifique. Voici ce qu’il a présenté aux autres : “Comme on a réussi à modéliser un neurone, pourquoi ne pas faire un réseau de neurones”. Et par extension : “Puisqu’on a fait un réseau de neurones, pourquoi ne pas modéliser un cerveau ?” “Et puisqu’on a modélisé un cerveau, on est maintenant capable de créer de l’intelligence artificielle” », « Le terme IA était né. Je prends bien la peine de vous dire “terme” parce que vous remarquerez que le raisonnement est assez ridicule. Répliquer le “comportement” du cerveau ne suffit pas à dire qu’on a créé l’intelligence. Sa thèse a néanmoins fait l’unanimité lors de la conférence. Et, pour notre plus grand mal, ces mots façonnent encore notre imaginaire collectif soixante-dix ans plus tard » (p.11-12).
La conférence de Dartmouth (en réalité un atelier de recherche sur plusieurs semaines) où le terme « intelligence artificielle » est né est souvent présentée comme l’événement fondateur de la discipline. Mais Luc Julia donne une présentation erronée du contexte de l’époque. La modélisation mathématique des neurones qui allait donner les fondements de l’approche dite connexionniste était un sujet parmi bien d’autres. Ce n’était pas « le sujet en vogue ». Il y avait bien des travaux dans la lignée de ceux de McCulloch et Pitts qui avaient proposé en 1943 les fondements théoriques d’un neurone formel, par analogie aux neurones du cerveau, avec, par exemple, la machine Snarc de Marvin Minsky en 1951. Mais d’autres sujets, bien plus nombreux, étaient abordés : apprentissage symbolique, jeu de dames et jeu d’échecs par des approches logiques (parcours de graphes), traitement automatique des langues naturelles (grammaires de Chomsky), etc. Pour s’en convaincre, il suffit de lire la lettre d’invitation à la conférence [25]. Les réseaux de neurones ne sont qu’un des sept points évoqués, et en des termes plus que prudents : « pour former un concept », « le problème nécessite encore beaucoup de travaux théoriques ».
Toutes les citations entre guillemets que Luc Julia attribue à J. McCarthy sont très probablement fausses (il ne donne d’ailleurs aucune référence) : elles ne correspondent en rien aux idées de J. McCarthy. Lui et ses collègues n’ont pas fondé leur initiative sur l’approche connexionniste. Le programme de la conférence reposait sur « l’hypothèse selon laquelle chaque aspect de l’apprentissage ou toute autre caractéristique de l’intelligence peut en principe être décrit avec une telle précision qu’une machine puisse le simuler » [26] J. McCarthy était un fervent partisan de ce que l’on allait appeler l’« IA symbolique » et très éloigné de l’idée de « modéliser le cerveau » dans l’ordinateur en tentant d’imiter le fonctionnement des neurones. Il travaillait alors sur un langage de programmation, Lisp, qui allait voir le jour en 1958, représentant clair de l’approche symbolique.
Le compte-rendu de la conférence fait à partir des notes prises par l’un des participants, Ray Solomonoff, confirme que ce qui s’est passé à Dartmouth n’a rien à voir avec la vision décrite par Luc Julia [27].
Le choix du terme « intelligence artificielle »
« Quand les savants ont choisi le terme IA, ils pensaient à information, mais malgré eux, le grand public a retenu le sens smartness » (p.13).
On peut discuter de la pertinence du choix du terme « intelligence artificielle » fait en 1956. Mais Luc Julia se livre à une spéculation contraire à tout ce qu’on sait des discussions qui ont eu lieu à cette époque. J. McCarthy ne voulait pas reprendre le mot de « cybernétique » popularisé par Norbert Wiener. Le terme souvent utilisé alors était « machines pensantes » (Alan Turing par exemple dans son article fondateur de 1950 [28]). Mais pour tous, il s’agissait bien de l’intelligence au sens « smartness », avec l’idée de simuler sur ordinateur des raisonnements humains.
Luc Julia entend, dans son ouvrage, faire la promotion du terme « intelligence augmentée » pour l’acronyme IA, et suggérer plutôt la dimension informationnelle que celle liée à l’intelligence. L’idée est pertinente (et il n’en est pas l’inventeur, voir par exemple Douglas C. Engelbart en 1962 [29]), mais il n’est pas besoin de réécrire l’histoire de ce terme pour argumenter en la matière.
Par ailleurs, remarquons que l’affirmation selon laquelle la conférence de Dartmouth aurait utilisé le terme « intelligence » dans le sens d’« information » et non pas de « smartness » est contradictoire avec ce que Luc Julia lui-même affirme à propos de l’initiateur de la conférence, à savoir : « puisqu’on a modélisé un cerveau, on est maintenant capable de créer de l’intelligence artificielle ». C’est bien « smartness » et pas « information ».
Le premier hiver de l’IA
« Ils ont essayé de faire comprendre le langage aux machines alors qu’on sait depuis Aristote que c’est le propre de l’homme », « on est rentré dans ce qui s’appelle le “premier hiver de l’IA” », « l’intelligence artificielle disparaît à la fin des années 1950 » (p.14).
Le premier hiver de l’IA intervient en réalité une quinzaine d’années plus tard. On le date souvent de 1974, suite au rapport Lighthill commandité par le gouvernement britannique qui parle de « déception » et souligne une recherche en IA trop ambitieuse et peu aboutie, et conduit à la réorientation budgétaire de la DARPA aux États-Unis (agence du ministère de la Défense chargée de la recherche et développement) [30]. Mais jusque-là, dans les presque deux décennies qui ont suivi la conférence de Dartmouth, l’IA prospère et des budgets considérables y sont alloués, avec notamment le soutien de la DARPA aux États-Unis, ce qui a parfois fait parler d’âge d’or pour cette période qui a connu des développements majeurs [31],[32].
Des erreurs et des anecdotes à la véracité douteuse
Reconnaître les chats
« Et ce n’est pas tout, les machines peuvent se tromper puisque leur score est de 98 %, alors que ma fille, avec tout juste deux chats, réussit dans 100 % des cas […], « on peut se demander ce qui justifie ces 2 % de différence. […] la machine ne va pas reconnaître les chats dans la pénombre, car personne n’a jamais posté une photo d’un chat en pleine nuit. Cela n’aurait aucun intérêt puisqu’on ne le verrait pas » (p. 19 et 20).
L’origine de ces chiffres de 98 % et de 100 % n’est jamais donnée. Mais sur le fond, l’argument est faible : des photos de chats la nuit, il y en a, et on peut y distinguer l’animal. C’est d’ailleurs pour cela que la fille de Luc Julia peut les reconnaître. Mais surtout, cette explication passe à côté du fond du problème : expliquer les différences entre apprentissage machine et apprentissage humain.
Kasparov contre Deep Blue en 1997
« En 1997, c’était il y a quasiment trente ans, on avait déjà des machines puissantes […]. C’était donc perdu d’avance pour Kasparov. Il n’avait que 5, 6, 10 coups d’avance alors que la machine avait globalement “tous les coups” d’avance » (p.16).
Le programme d’échecs qui a battu G. Kasparov était effectivement un programme issu de l’approche symbolique de l’intelligence artificielle. Il était fondé sur un mélange de situations pré-enregistrées et de parcours intelligents de graphes (un graphe représente l’ensemble des développements possibles à partir d’une position donnée). Deep Blue, la machine conçue par IBM, utilisait sa forte capacité de calcul lui permettant d’explorer un nombre extraordinaire de coups (200 millions par seconde). Mais cela ne représentait qu’une moyenne 3 de 6 à 12 coups d’avance [33], pas « tous les coups ». Examiner tous les coups serait strictement impossible, même pour les ordinateurs les plus puissants d’aujourd’hui. Il faudrait des milliards d’années [34]. Les grands maîtres, quant à eux, ne procèdent pas par une analyse systématique des coups possibles sur une certaine profondeur. Ils mettent en place différents types de stratégies et se fixent des objectifs [35] de telle sorte qu’il est très difficile de ramener leur analyse à « 5, 6, 10 coups d’avance ». Mais ce serait de toutes les façons impossible pour eux s’ils le faisaient pour tous les mouvements possibles (cela représenterait des millions de situations à examiner).
Tay, le chatbot de Microsoft qui déraille
« Tay après seulement seize heures d’opérations : il était devenu le chatbot le plus raciste et sexiste de l’humanité ! », « On suppose qu’il y avait au moins deux bugs dans la conception de Tay. Le premier, c’était un bug de logique : Tay adaptait un peu trop son vocabulaire à celui du public auquel il s’adressait. “Adapter”, qu’est-ce que cela signifie ? En fait, quand on crée un système de dialogue, il y a un facteur d’adaptabilité. Et ce facteur d’adaptabilité peut être réglé sur une échelle de 0 à 100. À 100, il va complètement s’adapter au public et, à 0, il va uniquement considérer les instructions de son créateur ». « Le second bug est beaucoup plus insidieux car c’est un bug de données » ; « il existe une base de données, Switchboard, qui remonte aux années 1950 et qui réunit des millions de conversations téléphoniques » ; « je peux très bien imaginer le stagiaire à qui on a demandé de travailler sur Tay. Il se retrouve face à Switchboard car on lui a dit d’utiliser cette base de données » ; « Étant donné qu’en 2016, on n’avait pas les capacités de calcul pour traiter cette masse d’information, [le stagiaire] s’est dit qu’il devait prendre un sous-ensemble. Fatalement, il a décidé de prendre le début de la base de données, ce qui correspond aux conversations en Alabama dans les années 1950. Quand on connaît un peu l’histoire des États-Unis et de la ségrégation, on sait très bien que cette période n’était pas très accommodante pour les Afro-Américains. Le modèle étant intrinsèquement raciste, il n’a pas fallu grand-chose pour que le système se mette à insulter les Noirs et, tant qu’il y était, les femmes » (p. 25).
Le problème, dans cette explication, c’est qu’elle ne s’appuie sur aucune source et ne correspond en rien aux informations disponibles. Aucun « facteur d’adaptabilité » n’est mentionné dans la littérature sur le sujet. L’explication la plus commune est que Tay, censé apprendre des interactions avec les utilisateurs sur Twitter, a été victime d’une attaque coordonnée d’utilisateurs qui a exploité une fonction « répéter après moi » intégrée à Tay. Combiné à un manque de filtres du logiciel, cela a conduit le chatbot à relayer toutes sortes de propos racistes ou misogynes, et ensuite à les intégrer dans son apprentissage [36].
Quant à l’utilisation de la base Switchboard, elle semble relever de l’invention : Switchboard est une base de données ancienne (datant de 1990, et non pas 1950 [37]) plutôt utilisée pour la reconnaissance vocale [38] et peu adaptée aux finalités de Tay. Quant à l’anecdote du stagiaire et de l’utilisation du « début de la base » du fait des capacités de calcul limitées en 2016, elle n’est en rien crédible. Switchboard contient environ trois millions de mots [39], soit tout au plus quelques centaines de méga-octets (en considérant des données annotées et enrichies), ce qui tient sur une simple clé USB 4. Donc largement dans les capacités de traitement des systèmes de 2016.
Conclusion
Les erreurs, approximations et contre-sens analysés montrent qu’il ne s’agit pas d’erreurs marginales. Même si une grande partie de l’ouvrage est consacrée à des propos généraux sur l’impact de l’IA dans la société, l’auteur manifeste en de nombreux endroits une incompréhension historique et technique qui discrédite l’ensemble de son propos.
Au-delà de la controverse sur l’intelligence artificielle, cette affaire soulève d’autres questions : comment se construit une réputation médiatique et comment les médias auto-alimentent cette réputation ? Et plus généralement, comment les médias, mais aussi les décideurs politiques, choisissent-ils les experts qu’ils consultent ?
Remerciements : Merci à tous les relecteurs du comité de rédaction de Science et pseudo-sciences pour leurs remarques et suggestions. Merci à Damien Siléo pour ses commentaires et sa propre analyse [40] et merci aux différents experts en IA qui ont relu ce texte et ont préféré ne pas être cités. Bien entendu, l’analyse ici publiée n’engage que son auteur.
1 Le prix Turing est souvent considéré comme l’équivalent du prix Nobel pour informatique.
2 Vert-rouge, vert-bleu, rouge-bleu, jaune-rouge, jaune-vert, jaune-bleu et jaune-jaune.
3 C’est une moyenne, la valeur est très variable selon l’avancement de la partie.
4 Switchboard contient aussi des enregistrements vocaux qui n’ont pas d’intérêt ici.
Partager cet article
L'auteur
Jean-Paul Krivine

Rédacteur en chef de la revue Science et pseudo-sciences (depuis 2001). Président de l’Afis en 2019 et 2020. (…)
Plus d'informationsIntelligence Artificielle
L’intelligence artificielle (IA) suscite curiosité, enthousiasme et inquiétude. Elle est présente dans d’innombrables applications, ses prouesses font régulièrement la une des journaux. Dans le même temps, des déclarations médiatisées mettent en garde contre des machines qui pourraient prendre le pouvoir et menacer la place de l’Homme ou, a minima, porter atteinte à certaines de nos libertés. Les performances impressionnantes observées aujourd’hui sont-elles annonciatrices de comportements qui vont vite nous échapper ?
IA génératives, ChatGPT : révolution en cours ou apocalypse annoncée ?
Le 15 juillet 2023
La controverse autour de Luc Julia sur l’intelligence artificielle
Le 2 septembre 2025
IA génératives : une révolution en cours ?
Le 17 octobre 2023
De l’analyse de la langue aux modèles génératifs
Le 11 octobre 2023
Les systèmes d’intelligence artificielle pour la génération d’images
Le 5 octobre 2023