L'intelligence artificielle sans contrôle : les géants de la tech recalés en matière de sécurité (Première Partie)
par Dario Ferrero (VerbaniaNotizie.it)
Un rapport indépendant révèle que les principales entreprises technologiques ne sont pas prêtes à gérer les risques de l'intelligence artificielle générale
Imaginez construire une voiture sans freins, ou concevoir un avion sans systèmes de sécurité. Cela semble absurde, n'est-ce pas ? Pourtant, selon un rapport récemment publié par le Future of Life Institute, c'est exactement ce que font les principales entreprises technologiques mondiales avec l'intelligence artificielle.
L'AI Safety Index 2025 a évalué sept des plus importantes entreprises développant une intelligence artificielle avancée, et les résultats sont préoccupants : le meilleur a obtenu un maigre C+, tandis que les autres ont reçu des notes encore pires. Nous parlons d'entreprises comme OpenAI (celle de ChatGPT), Google DeepMind, Meta (Facebook), xAI (d'Elon Musk), et d'autres qui se précipitent pour développer ce qu'on appelle "l'intelligence artificielle générale" - des systèmes capables de raisonner et de résoudre des problèmes complexes comme le ferait un être humain, mais potentiellement beaucoup plus rapidement et puissamment.
Le verdict : "Fondamentalement non préparées"
Les chiffres parlent d'eux-mêmes. Anthropic, l'entreprise qui a créé Claude, a obtenu le score le plus élevé avec une note globale de C+. Les six autres entreprises - Google DeepMind, Meta, OpenAI, xAI, Zhipu AI et DeepSeek - ont reçu des notes inférieures, Zhipu AI et DeepSeek obtenant les pires résultats.
Mais que signifie concrètement cette note ? Pour le comprendre, il faut d'abord expliquer ce qu'est l'intelligence artificielle générale, ou AGI comme on l'appelle dans le secteur. Si les systèmes actuels comme ChatGPT ou Gemini sont spécialisés dans des tâches spécifiques (conversation, traduction, écriture), l'AGI représenterait l'étape suivante : une intelligence artificielle capable de comprendre, d'apprendre et d'appliquer des connaissances dans n'importe quel domaine, tout comme le fait l'intelligence humaine.
Le problème est que toutes les entreprises évaluées ont déclaré leur intention de construire une intelligence artificielle générale, mais seules Anthropic, Google DeepMind et OpenAI ont articulé une stratégie pour garantir que l'AGI reste alignée sur les valeurs humaines. Et même ces stratégies ont été jugées inadéquates par les experts.
Image tirée de futureoflife.org
La méthodologie : comment les notes ont été attribuées
Pour comprendre la gravité de la situation, il est important de savoir comment ces notes ont été attribuées. Le Future of Life Institute a développé un système d'évaluation rigoureux qui va au-delà des déclarations publiques des entreprises pour examiner leurs pratiques concrètes.
Les 33 indicateurs de sécurité
L'évaluation est basée sur 33 indicateurs spécifiques qui mesurent différents aspects du développement responsable de l'IA. Ces indicateurs n'ont pas été choisis au hasard, mais représentent les meilleures pratiques identifiées par la communauté scientifique internationale pour le développement sûr de l'intelligence artificielle.
Les indicateurs incluent des éléments tels que la présence de politiques de sécurité documentées, l'existence d'équipes dédiées à la sécurité, la transparence dans les communications sur les risques, la capacité à évaluer les risques avant la publication, la mise en œuvre de systèmes de surveillance continue et la présence de mécanismes de signalement pour les employés.
Les six domaines critiques
Les 33 indicateurs sont organisés en six domaines fondamentaux qui couvrent des aspects différents mais interconnectés de la sécurité de l'intelligence artificielle.
Le premier domaine concerne la sécurité existentielle et évalue si les entreprises ont des stratégies pour prévenir les risques qui pourraient menacer l'existence de l'humanité, y compris la capacité d'évaluer quand un système pourrait devenir trop puissant pour être contrôlé.
Le deuxième domaine examine les dommages actuels, en analysant comment les entreprises traitent les risques déjà présents dans l'IA tels que les biais algorithmiques, la désinformation ou l'utilisation abusive de la technologie.
Le troisième domaine est la transparence, qui évalue à quel point les entreprises sont ouvertes sur leurs méthodes, risques et limitations, y compris la volonté de partager des informations avec des chercheurs indépendants.
Le quatrième domaine concerne la gouvernance et examine la structure organisationnelle des entreprises, y compris la présence d'une supervision indépendante et de processus décisionnels clairs pour les questions de sécurité.
Le cinquième domaine évalue l'engagement avec la communauté, en examinant si les entreprises collaborent avec des chercheurs externes, des organisations de sécurité et la communauté scientifique au sens large.
Enfin, le sixième domaine examine la préparation réglementaire, en vérifiant si les entreprises sont prêtes à travailler avec les régulateurs et si elles soutiennent le développement de réglementations appropriées.
Le processus d'évaluation par les pairs
Les données ont été collectées entre mars et juin 2025, combinant des documents accessibles au public avec des réponses à des questionnaires ciblés envoyés aux entreprises. Cependant, seules deux entreprises (xAI et Zhipu AI) ont entièrement rempli les questionnaires, soulignant un niveau de non-collaboration préoccupant de la part du secteur.
Les notes ont été attribuées par un panel de sept experts indépendants, comprenant des noms prestigieux comme Stuart Russell de l'Université de Californie à Berkeley, et le lauréat du prix Turing Yoshua Bengio. Ce panel comprenait à la fois des experts axés sur les risques existentiels de l'IA et ceux qui ont travaillé sur les dommages à court terme tels que les biais algorithmiques et le langage toxique.
Le processus d'évaluation a été conçu pour être aussi objectif que possible, avec des critères standardisés et de multiples examens indépendants pour chaque entreprise.
Le cri d'alarme des experts
Les conclusions du rapport ont été très dures. Stuart Russell, l'un des plus grands experts mondiaux en sécurité de l'IA, a déclaré dans une interview à IEEE Spectrum : "Les résultats du projet AI Safety Index suggèrent que, bien qu'il y ait beaucoup d'activité dans les entreprises d'IA sous le nom de 'sécurité', elle n'est pas encore très efficace. En particulier, aucune des activités actuelles ne fournit de garantie quantitative de sécurité."
Russell a ajouté une considération encore plus inquiétante : "Il est possible que la direction technologique actuelle ne puisse jamais supporter les garanties de sécurité nécessaires, auquel cas ce serait vraiment une impasse."
Le panorama mondial des incidents liés à l'IA
Pour comprendre l'urgence du problème, il est essentiel d'examiner les données sur les dysfonctionnements de l'intelligence artificielle qui se produisent déjà. Le nombre d'incidents enregistrés augmente de manière exponentielle, et les conséquences deviennent de plus en plus graves.
Les chiffres alarmants de 2024
Selon l'AI Incidents Database, le nombre d'incidents liés à l'IA est passé à 233 en 2024 - un record absolu et une augmentation de 56,4 % par rapport à 2023. Il ne s'agit pas d'erreurs mineures ou de problèmes techniques négligeables, mais d'événements qui ont causé des dommages réels à des personnes, des entreprises et des sociétés.
Cas emblématiques de dysfonctionnements
Le système de conduite autonome de Tesla a montré des problèmes de "biais d'automatisation", c'est-à-dire la tendance des utilisateurs à faire trop confiance aux systèmes automatisés. La NHTSA (National Highway Traffic Safety Administration) a ouvert une enquête de sécurité sur jusqu'à 2,4 millions de véhicules Tesla, incluant un accident mortel avec un piéton alors que le système Full Self-Driving était actif. Cela signifie-t-il que l'entreprise texane est coupable ? Non. C'est un système d'aide, une assistance à la conduite. Celui qui prend le volant le sait, ou doit le savoir. Si le conducteur dort, regarde son smartphone, mange ou fait autre chose, c'est de sa faute, pas de l'électronique.
Un cas significatif a concerné un livreur d'Uber Eats qui a été licencié après que le système de reconnaissance faciale n'ait pas réussi à l'identifier correctement. Le chauffeur a soutenu que la technologie est moins précise pour les personnes non blanches, les désavantageant. D'après ce que nous savons, Uber a mis en place un système de validation "humaine" qui prévoit l'examen par au moins deux experts avant de procéder à un licenciement.
Dans le secteur de la santé, des systèmes d'IA utilisés dans les hôpitaux ont fourni des diagnostics erronés, entraînant des traitements inappropriés. Un cas documenté a vu un algorithme de dépistage du cancer produire des faux positifs dans 70 % des cas, causant un stress émotionnel et des coûts de santé inutiles.
Lors des élections de 2024, plusieurs systèmes d'IA ont généré des contenus politiques trompeurs, y compris des images deepfake de candidats dans des situations compromettantes.
Le coût humain et économique
Ces incidents ne sont pas que des statistiques. Derrière chaque chiffre, il y a une personne qui a perdu son emploi à cause d'un algorithme discriminatoire, une famille qui a subi un accident de la route causé par un système de conduite autonome défectueux, ou un patient qui a reçu un diagnostic erroné. Par conséquent, il est logique de prévoir également des dommages économiques considérables, que personne ne semble avoir estimés pour le moment.
Le problème de la "course vers le bas"
Max Tegmark, physicien au MIT et président du Future of Life Institute, a expliqué l'objectif du rapport : "Le but n'est pas de faire honte à qui que ce soit, mais de fournir des incitations aux entreprises pour qu'elles s'améliorent". Tegmark espère que les dirigeants des entreprises verront cet indice comme les universités voient les classements de U.S. News and World Reports : ils pourraient ne pas aimer être évalués, mais si les notes sont publiques et attirent l'attention, ils se sentiront poussés à faire mieux l'année prochaine.
L'un des aspects les plus préoccupants révélés par le rapport est ce que Tegmark appelle une "course vers le bas". "Je sens que les dirigeants de ces entreprises sont piégés dans une course vers le bas dont aucun d'eux ne peut sortir, peu importe à quel point ils sont bien intentionnés", a-t-il expliqué. Aujourd'hui, les entreprises ne sont pas disposées à ralentir pour des tests de sécurité car elles ne veulent pas que leurs concurrents les devancent sur le marché.
La dynamique du dilemme du prisonnier
Cette situation représente un "dilemme du prisonnier" classique appliqué à la technologie. Chaque entreprise sait qu'il vaudrait mieux que toutes développent l'IA de manière sûre et responsable, mais aucune ne veut être la première à ralentir, craignant de perdre un avantage concurrentiel.
Le résultat est que toutes les entreprises finissent par courir aussi vite que possible, sacrifiant la sécurité pour la vitesse. C'est comme si plusieurs constructeurs automobiles décidaient de supprimer les freins de leurs voitures pour les rendre plus légères et plus rapides, dans l'espoir d'arriver les premiers sur le marché.
L'effet multiplicateur de la concurrence
Tegmark, qui a cofondé le Future of Life Institute en 2014 dans le but de réduire les risques existentiels découlant des technologies transformatrices, a consacré une grande partie de sa carrière académique à essayer de comprendre l'univers physique. Mais ces dernières années, il s'est concentré sur les risques de l'intelligence artificielle, devenant l'une des voix les plus influentes dans le débat sur la sécurité de l'IA.
La pression concurrentielle ne pousse pas seulement les entreprises à lancer des produits avant qu'ils ne soient complètement sûrs, mais elle crée également un effet multiplicateur : si une entreprise réduit les coûts de sécurité pour lancer plus tôt, les autres se sentent obligées de faire de même pour rester compétitives.
Ce mécanisme pervers signifie que, même si les dirigeants ou les chercheurs individuels étaient sincèrement préoccupés par la sécurité, la pression concurrentielle les pousse à privilégier la vitesse de développement par rapport à la prudence. C'est un problème systémique qui nécessite une solution systémique.
L'analyse entreprise par entreprise
Anthropic : Le "meilleur de la classe" mais encore insuffisant
Anthropic a obtenu les meilleures notes globales (C+ global), recevant le seul B- pour son travail sur les dommages actuels. Le rapport note que les modèles d'Anthropic ont reçu les scores les plus élevés dans les principaux benchmarks de sécurité. L'entreprise dispose également d'une "politique de mise à l'échelle responsable" qui l'oblige à évaluer les modèles pour leur potentiel à causer des dommages catastrophiques et à ne pas déployer de modèles jugés trop risqués.
Anthropic se distingue par sa recherche active sur l'alignement de l'IA, ses politiques de sécurité documentées et publiques, sa collaboration avec des chercheurs externes et sa transparence relative sur les risques et les limitations. Cependant, même Anthropic a reçu des recommandations d'amélioration, notamment la publication d'une politique complète de dénonciation et une plus grande transparence sur la méthodologie d'évaluation des risques. Le fait que même la "meilleure" entreprise n'ait reçu qu'un C+ global illustre la gravité de la situation générale du secteur.
OpenAI : Perte de capacité et dérive de mission
OpenAI, l'entreprise qui a rendu l'IA grand public avec ChatGPT, a reçu des critiques particulièrement sévères. Comme le rapporte Time Magazine, les recommandations incluent la reconstruction de la capacité de l'équipe de sécurité perdue et la démonstration d'un engagement renouvelé envers la mission originale d'OpenAI.
OpenAI a été fondée en 2015 avec la mission explicite de "garantir que l'intelligence artificielle générale profite à toute l'humanité". Cependant, le rapport suggère que l'entreprise s'est éloignée de cette mission originale, se concentrant davantage sur la commercialisation que sur la sécurité.
La mention de la "capacité de l'équipe de sécurité perdue" fait référence aux démissions très médiatisées de plusieurs chercheurs en sécurité d'OpenAI dans les mois précédant le rapport. Parmi eux figuraient certains des plus grands experts de l'alignement de l'IA, comme Ilya Sutskever (co-fondateur et ancien scientifique en chef) et Jan Leike (ancien chef de l'équipe de superalignement).
Le rapport met également en évidence des problèmes de gouvernance chez OpenAI, notamment la destitution et la réintégration controversées du PDG Sam Altman en novembre 2023, qui ont soulevé des questions sur la stabilité et la direction de l'entreprise.
Google DeepMind : Coordination insuffisante
Google DeepMind a reçu des critiques spécifiques pour une coordination insuffisante entre l'équipe de sécurité de DeepMind et l'équipe politique de Google. Seul Google DeepMind a répondu aux demandes de commentaires, fournissant une déclaration affirmant : "Bien que l'indice intègre certains des efforts de sécurité de l'IA de Google DeepMind, notre approche complète de la sécurité de l'IA s'étend au-delà de ce qui a été capturé."
Google DeepMind est le résultat de la fusion entre DeepMind (acquise par Google en 2014) et Google Brain (l'équipe de recherche interne en IA de Google). Cette fusion, achevée en 2023, devait créer des synergies, mais le rapport suggère qu'elle a également créé des problèmes de coordination.
DeepMind jouit d'une excellente réputation pour la recherche scientifique, ayant réalisé des percées comme AlphaGo (qui a battu le champion du monde de Go) et AlphaFold (qui a résolu le problème du repliement des protéines). Cependant, le rapport suggère que cette excellence technique ne s'est pas traduite par un leadership en matière de sécurité.
Meta : Problèmes significatifs mais pas la pire
Meta a reçu des critiques sévères, mais n'a pas été la pire des entreprises évaluées. Les recommandations incluent une augmentation significative des investissements dans la recherche sur la sécurité technique, en particulier pour les protections des modèles à poids ouverts (open-weight).
La référence aux "modèles à poids ouverts" est particulièrement importante : Meta est la seule grande entreprise qui publie les "poids" de ses modèles (les paramètres qui déterminent le comportement du modèle), rendant les modèles librement disponibles pour quiconque souhaite les utiliser ou les modifier.
Cette stratégie présente des avantages significatifs : elle permet l'innovation distribuée, réduit la concentration du pouvoir entre les mains de quelques entreprises et facilite la recherche universitaire. Mais elle comporte également des risques uniques : une fois publiés, les modèles ne peuvent pas être "rappelés" si des problèmes sont découverts, il est impossible de contrôler comment ils sont utilisés et ils peuvent être modifiés à des fins malveillantes.
Meta a publié plusieurs versions de son modèle Llama, y compris Llama 2 et Llama 3. Bien que ces publications aient accéléré la recherche et l'innovation, elles ont également soulevé des préoccupations en matière de sécurité. Le rapport suggère que Meta devrait mettre en œuvre des protections plus robustes avant de publier les modèles.
xAI : Problèmes culturels graves
L'entreprise d'Elon Musk, xAI, a reçu des critiques particulièrement sévères non seulement pour ses scores de sécurité mais aussi pour des problèmes culturels. Les recommandations incluent de s'attaquer à l'extrême vulnérabilité au jailbreak avant la prochaine version et de développer un cadre complet de sécurité de l'IA.
Le "jailbreaking" fait référence à des techniques pour contourner les protections de sécurité des systèmes d'IA, les convainquant de produire des contenus nuisibles ou inappropriés. Le fait que xAI ait une "extrême vulnérabilité" à ces techniques suggère que ses systèmes de sécurité sont particulièrement faibles.
Le rapport suggère que les problèmes de xAI pourraient être liés à son environnement culturel. Elon Musk a souvent exprimé son scepticisme à l'égard des réglementations et a promu une approche "avancer vite et casser des choses" qui pourrait ne pas être compatible avec le développement sûr de l'IA.
Le système d'IA de xAI, appelé Grok, a été conçu pour être "maximalement en quête de vérité" et moins censuré que d'autres systèmes. Cependant, cette approche a conduit à des controverses lorsque Grok a produit des contenus problématiques ou trompeurs.
Zhipu AI et DeepSeek : Les pires résultats
Les deux entreprises chinoises, Zhipu AI et DeepSeek, ont obtenu les scores les plus bas de l'évaluation. Les deux entreprises ont reçu des recommandations pour développer et publier des cadres de sécurité de l'IA plus complets et augmenter considérablement les efforts d'évaluation des risques.
Les entreprises chinoises opèrent dans un environnement réglementaire différent, où la sécurité de l'IA est principalement considérée sous l'angle de la sécurité nationale et de la stabilité sociale plutôt que de la sécurité existentielle mondiale.
Zhipu AI est connue pour son modèle ChatGLM et a reçu des investissements importants du gouvernement chinois. Cependant, le rapport suggère que l'entreprise a investi un minimum dans la recherche sur la sécurité.
DeepSeek est une entreprise plus petite mais ambitieuse, qui a cherché à concurrencer les géants occidentaux. Le rapport suggère que l'entreprise a sacrifié la sécurité pour la vitesse de développement.
L'échec à faire face aux risques existentiels
L'aspect peut-être le plus alarmant du rapport est que les sept entreprises ont obtenu des scores particulièrement bas dans leurs stratégies de sécurité existentielle. Cela signifie que, bien qu'elles aient toutes déclaré leur intention de construire des systèmes d'intelligence artificielle générale, aucune n'a de plan crédible pour s'assurer que ces systèmes restent sous contrôle humain.
Que signifie "risque existentiel"
Avant d'approfondir ce problème, il est important de clarifier ce que l'on entend par "risque existentiel". Un risque existentiel est un événement qui pourrait causer l'extinction de l'humanité, réduire de manière permanente et drastique le potentiel de l'humanité ou rendre impossible le progrès de la civilisation.
Dans le contexte de l'intelligence artificielle, un risque existentiel pourrait survenir si nous créions des systèmes qui deviennent plus intelligents que nous mais ne partagent pas nos valeurs, décident que l'humanité est un obstacle à leurs objectifs ou échappent à notre contrôle avant que nous puissions les éteindre.
Le problème de l'alignement
Comme l'a expliqué Tegmark : "La vérité est que personne ne sait comment contrôler une nouvelle espèce qui est beaucoup plus intelligente que nous. Le panel d'examen a estimé que même les entreprises qui avaient une forme de stratégie initiale n'étaient pas adéquates."
Le problème de l'alignement est fondamentalement le suivant : comment pouvons-nous être sûrs qu'un système super-intelligent fasse ce que nous voulons qu'il fasse, plutôt que ce qu'il pense être le mieux ?
Imaginez devoir expliquer à un enfant de 5 ans comment gérer une multinationale. Même si l'enfant voulait aider, la différence de compréhension est si grande qu'il lui serait impossible de comprendre vos intentions et d'agir en conséquence. Maintenant, imaginez que vous êtes l'enfant et que la multinationale est gérée par une IA super-intelligente.
Les approches actuelles et leurs limites
Les entreprises utilisent différentes approches pour tenter de résoudre le problème de l'alignement. L'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) implique l'entraînement de systèmes d'IA en utilisant les commentaires humains pour renforcer les comportements souhaitables. Cependant, cette approche a des limites importantes : elle est difficile à appliquer à des systèmes très complexes, les humains pourraient ne pas comprendre les conséquences de leurs évaluations et elle pourrait ne pas fonctionner pour des systèmes plus intelligents que les humains.
L'IA Constitutionnelle, développée par Anthropic, tente d'enseigner aux systèmes d'IA à suivre une "constitution" de principes. Mais le problème de la définition de ces principes et de la manière de s'assurer qu'ils sont suivis demeure.
L'interprétabilité mécaniciste cherche à comprendre comment les systèmes d'IA fonctionnent en interne. Cependant, les systèmes modernes sont si complexes qu'il est extrêmement difficile de comprendre leur fonctionnement interne.
[À suivre dans la deuxième partie]