
In this article (4)
Air Canada et son chatbot devant les tribunaux. Le modèle était correct. La gouvernance, non.
Key Takeaways
- Les échecs en production de l'IA sont presque toujours des échecs de gouvernance : l'absence de couches de révision, un périmètre mal défini et l'inexistence de supervision humaine permettent à des erreurs normales du modèle de se transformer en pertes juridiques et financières.
- Avant de déployer toute IA orientée client, définissez explicitement ce que le système peut s'engager à faire, qui examine les résultats à enjeux élevés et ce qui se passe lorsque le modèle se trompe.
- La recherche en IA en entreprise se concentre de plus en plus sur le travail en amont du déploiement, laissant les risques liés au déploiement — comme les hallucinations et les biais — insuffisamment étudiés, ce qui signifie que les praticiens ne peuvent pas attendre que l'académie résolve ce problème à leur place.
Cinq échecs réels de l'IA montrent que lorsque les déploiements tournent mal, le coupable n'est presque jamais le modèle lui-même.
Imaginez une compagnie aérienne qui déploie un chatbot pour gérer les demandes de ses clients, le regarde inventer avec assurance une politique de réduction qui n'existe pas, puis soutient devant un tribunal que le chatbot était en quelque sorte sa propre entité et donc pas vraiment son problème. Cet argument n'a pas convaincu. Air Canada a été tenue responsable d'un remboursement que son chatbot avait promis en vertu d'une politique de tarif de deuil que le chatbot avait tout simplement inventée. Le terme technique pour cela est hallucination. Le terme juridique et opérationnel pour ce qui a suivi est : entièrement évitable. Et la leçon plus profonde, celle qui s'applique à chaque équipe déployant de l'IA dans un rôle en contact avec la clientèle, c'est que le chatbot a fait exactement ce que font les modèles de langage. L'échec s'est produit un niveau plus haut, en l'absence de toute structure de gouvernance pour le détecter.
Quand le modèle fonctionne bien et que tout va quand même de travers
Le cas Air Canada illustre clairement un schéma que l'analyse de NineTwoThree sur les grands échecs de l'IA documente directement : l'écart entre le battage médiatique autour de l'IA et sa mise en œuvre est précisément là où se situent les véritables dommages. Selon cette analyse, la grande majorité des initiatives d'IA en entreprise en 2025 n'ont pas atteint la production ou n'ont pas généré de flux de trésorerie positif. Le chatbot d'Air Canada, reconnaissons-le, a bien atteint la production. Il a simplement généré des flux de trésorerie négatifs en perdant une décision judiciaire, ce qui le place dans la catégorie des échecs les plus instructifs : ceux qui vous apprennent quelque chose de précis.
Le rapport « Five AI Fails » de la MITRE Corporation propose un cadre que les praticiens devraient enregistrer quelque part où ils le liront vraiment. Les systèmes d'IA ne sont pas des composants indépendants, soutient MITRE, mais des parties d'un écosystème complexe qui interagit avec le comportement humain et la prise de décision et les influence. Mesurer le système uniquement au niveau du modèle passe à côté de l'impact plus large qu'il a sur les humains et les institutions qui l'entourent.
Un chatbot qui produit des réponses confiantes et erronées est une observation au niveau du modèle. Une entreprise qui comparaît devant un tribunal parce que personne n'a examiné ce que le chatbot était autorisé à promettre est un échec au niveau de la gouvernance. Ce sont des problèmes catégoriquement différents, et les confondre, c'est ainsi que les équipes se retrouvent surprises.
La taxonomie de ce qui se casse vraiment
Des chercheurs de l'Université Saints-Cyrille-et-Méthode et du Metropolitan College de l'Université de Boston ont récemment publié une taxonomie fondée sur des données portant sur les échecs réels de l'IA, en s'appuyant sur un corpus de 9 705 articles de presse sur des incidents liés à l'IA et en extrayant des actions d'atténuation explicites de 6 893 de ces textes. Leur article sur arXiv constate que les défaillances des LLM dans les flux de travail à enjeux élevés se propagent au-delà des erreurs isolées du modèle pour donner lieu à des pannes systémiques qui entraînent une exposition juridique, des atteintes à la réputation et des pertes financières matérielles.
Le mot clé ici est systémique. Le modèle a commis une erreur ; le système ne disposait d'aucun disjoncteur.
Une étude distincte sur arXiv portant sur les développeurs en aval, réalisée par des entretiens et des enquêtes à méthodes mixtes, a révélé que les praticiens qui construisent sur des modèles pré-entraînés sous-estiment fréquemment les modes de défaillance tels que les fuites de données et les sorties biaisées, et que ces risques sont parfois involontairement négligés dans les déploiements réels plutôt qu'activement atténués.
Ce « involontairement » a une importance considérable. Ce n'est pas de la malveillance. C'est le résultat naturel d'équipes qui optimisent la vitesse de livraison et traitent la gouvernance comme une préoccupation après le lancement.
Le manque de recherche qui aggrave les choses
Voici un fait structurel inconfortable. Un article d'arXiv analysant 9 439 articles de recherche sur l'IA générative publiés entre janvier 2020 et mars 2025, comparant les productions des grandes entreprises d'IA (Anthropic, Google DeepMind, Meta, Microsoft et OpenAI) et des universités de premier plan (CMU, MIT, NYU, Stanford, UC Berkeley et l'Université de Washington), a constaté que la recherche en IA des entreprises se concentre de plus en plus sur les travaux en amont du déploiement, notamment l'alignement des modèles et les tests et évaluations. L'attention portée aux problèmes liés à la phase de déploiement, comme les biais des modèles, a en réalité diminué.
L'article identifie des lacunes importantes dans la recherche sur les domaines de déploiement à risque élevé, notamment les soins de santé, la finance, les hallucinations et le droit d'auteur, et recommande d'élargir l'accès des chercheurs externes aux données de déploiement et d'assurer une observabilité systématique des comportements de l'IA sur le marché.
Ainsi, les personnes qui construisent les modèles les plus performants accordent, d'après leurs propres productions de recherche, moins d'attention à ce qui se passe après que ces modèles sont mis en circulation.
Le Harvard Safra Center for Ethics présente cela comme un schéma plus large : les échecs de l'IA sont des rappels édifiants des dangers pratiques du développement et du déploiement de l'IA, et les examiner constitue des repères essentiels pour les décideurs politiques, les technologues et les parties prenantes afin d'identifier les risques qui devraient influencer d'autres initiatives d'IA. Vous pouvez lire cela comme une observation académique ou comme une instruction directe pour votre prochaine réunion de planification de sprint. Les deux lectures sont valides.
Ce que les praticiens peuvent concrètement faire
Le cadre de retour d'expérience de MITRE propose quatre réponses concrètes qui restent pertinentes en tant que liste de contrôle pour les praticiens : élargir les réflexions en début de projet pour inclure les modes de défaillance avant la première ligne de code de production ; intégrer la résilience à la fois dans l'IA et dans l'organisation qui l'entoure ; calibrer la confiance accordée à l'IA et aux données sur lesquelles elle s'appuie ; et élargir les façons d'évaluer l'impact du système au-delà des métriques de précision.
Rien de tout cela ne nécessite un nouveau modèle. Cela demande de traiter le déploiement comme une discipline d'ingénierie avec ses propres exigences, et non comme un tour d'honneur après l'entraînement.
L'analyse d'AIMutiple sur les causes profondes des échecs de l'IA ajoute un éclairage complémentaire : de nombreux échecs remontent à des objectifs mal alignés, à une mauvaise qualité des données et à une supervision humaine insuffisante dans la boucle, et non à l'architecture du modèle lui-même.
Si votre chatbot peut prendre des engagements contraignants envers les clients sans aucune étape de vérification humaine, vous n'avez pas déployé un système d'IA. Vous avez déployé un passif.
Pour les apprenants qui se préparent à des rôles en production, le cas Air Canada vaut la peine d'être mis en signet, non pas parce qu'il est scandaleux, mais parce qu'il est éclairant. Tout déploiement d'IA en contact avec la clientèle a besoin d'une réponse explicite à trois questions avant sa mise en service : à quoi ce système peut-il s'engager au nom de l'organisation, qui examine les résultats à enjeux élevés avant qu'ils n'atteignent les utilisateurs, et quel est le chemin d'escalade lorsque le modèle se trompe. Les équipes qui répondent à ces questions lors de la conception n'auront pas à y répondre devant un tribunal.
Soyez attentifs aux cadres de gouvernance émergents issus du calendrier de mise en œuvre de la loi européenne sur l'IA et des engagements volontaires des grands développeurs d'IA : la prochaine vague d'échecs en production concernera probablement des systèmes agentiques dotés d'une prise de décision encore plus autonome, ce qui fait de la couche de gouvernance non pas un atout facultatif, mais le défi d'ingénierie central.
Le chatbot d'Air Canada se contentait de donner de mauvais conseils. La prochaine génération de systèmes agira en conséquence.