
In this article (4)
Air Canada Perdeu no Tribunal por Causa do Seu Chatbot. O Modelo Estava Bem. A Governança Não Estava.
Key Takeaways
- As falhas de produção em IA são quase sempre falhas de governança: camadas de revisão ausentes, escopo pouco definido e ausência de supervisão humana no processo permitem que erros comuns do modelo se transformem em prejuízos legais e financeiros.
- Antes de implantar qualquer IA voltada ao cliente, defina explicitamente o que o sistema pode comprometer, quem revisa os resultados de alto risco e o que acontece quando o modelo erra.
- A pesquisa corporativa em IA está cada vez mais focada no trabalho pré-implantação, deixando os riscos da fase de implantação — como alucinações e viés — pouco estudados, portanto os profissionais não podem esperar que a academia resolva isso por eles.
Cinco falhas reais de IA mostram que, quando implantações dão errado, o culpado quase nunca é o modelo em si.
Cinco falhas reais de IA mostram que, quando as implementações dão errado, o culpado quase nunca é o modelo em si.
Imagine uma companhia aérea que implanta um chatbot para atender dúvidas de clientes, observa ele inventar com toda a confiança uma política de desconto que não existe, e depois argumenta diante de um tribunal que o chatbot era basicamente uma entidade própria e, portanto, não era bem um problema da empresa. Esse argumento não funcionou. A Air Canada foi responsabilizada por um reembolso que seu chatbot havia prometido com base em uma política de tarifa de luto que o chatbot simplesmente inventou. O termo técnico para isso é alucinação. O termo jurídico e operacional para o que se seguiu é: totalmente evitável. E a lição mais profunda — aquela que se aplica a toda equipe que implanta IA em funções de atendimento ao cliente — é que o chatbot fez exatamente o que modelos de linguagem fazem. A falha aconteceu um nível acima, na ausência de qualquer estrutura de governança para interceptá-la.
Quando o Modelo Funciona Bem e Tudo Ainda Dá Errado
O caso da Air Canada é uma ilustração clara de um padrão que a análise da NineTwoThree sobre grandes falhas de IA documenta diretamente: a lacuna entre o hype da IA e a implementação da IA é exatamente onde os danos reais se concentram. Segundo essa análise, a grande maioria das iniciativas corporativas de IA em 2025 não chegou à produção nem gerou fluxo de caixa positivo. O chatbot da Air Canada, para ser justo, chegou à produção. Ele simplesmente gerou fluxo de caixa negativo ao perder uma decisão judicial, o que o coloca na categoria mais instrutiva de falhas: aquelas que ensinam algo específico.
O relatório "Five AI Fails" da MITRE Corporation oferece um enquadramento que profissionais deveriam salvar em algum lugar onde realmente vão ler. Sistemas de IA não são componentes independentes, argumenta a MITRE, mas partes de um ecossistema complexo que interage com o comportamento e a tomada de decisão humanos e os influencia. Medir o sistema apenas no nível do modelo ignora o impacto mais amplo que ele exerce sobre as pessoas e instituições ao redor.
Um chatbot que produz respostas confiantes e erradas é uma observação de nível de modelo. Uma empresa que comparece a um tribunal porque ninguém revisou o que o chatbot estava autorizado a prometer é uma falha de nível de governança. São problemas categoricamente diferentes, e confundi-los é como equipes acabam sendo pegas de surpresa.
A Taxonomia do Que Realmente Quebra
Pesquisadores da Universidade Ss. Cyril and Methodius e do Metropolitan College da Boston University publicaram recentemente uma taxonomia baseada em dados de falhas reais de IA, a partir de um corpus de 9.705 artigos de mídia sobre incidentes com IA e com extração de ações explícitas de mitigação em 6.893 desses textos. O artigo no arXiv constata que falhas de LLM em fluxos de trabalho de alto risco se propagam além de erros isolados do modelo e se transformam em colapsos sistêmicos que geram exposição jurídica, danos à reputação e perdas financeiras materiais.
A palavra-chave aqui é sistêmico. O modelo cometeu um erro; o sistema não tinha nenhum disjuntor.
Um estudo separado no arXiv sobre desenvolvedores downstream, conduzido por meio de entrevistas e pesquisas de método misto, constatou que profissionais que constroem sobre modelos pré-treinados frequentemente subestimam modos de falha como vazamento de dados e saídas tendenciosas, e que esses riscos às vezes são inadvertidamente negligenciados em implantações reais, em vez de ativamente mitigados.
Esse "inadvertidamente" carrega um peso significativo. Não é má-fé. É o resultado natural de equipes que otimizam para velocidade de entrega e tratam a governança como uma preocupação pós-lançamento.
A Lacuna de Pesquisa Que Piora Tudo
Aqui está um fato estrutural desconfortável. Um artigo no arXiv que analisou 9.439 artigos de pesquisa em IA generativa publicados entre janeiro de 2020 e março de 2025 — comparando produções de grandes empresas de IA (Anthropic, Google DeepMind, Meta, Microsoft e OpenAI) e universidades de ponta (CMU, MIT, NYU, Stanford, UC Berkeley e University of Washington) — constatou que a pesquisa corporativa em IA está cada vez mais concentrada em trabalhos de pré-implantação, especificamente alinhamento de modelos, testes e avaliação. A atenção a questões de estágio de implantação, como viés em modelos, na verdade diminuiu.
O artigo identifica lacunas significativas de pesquisa em domínios de implantação de alto risco, incluindo saúde, finanças, alucinações e direitos autorais, e recomenda ampliar o acesso de pesquisadores externos a dados de implantação e a observabilidade sistemática de comportamentos de IA no mercado.
Ou seja, as pessoas que constroem os modelos mais capazes estão, pelas próprias produções de pesquisa, prestando menos atenção ao que acontece depois que esses modelos são lançados.
O Harvard Safra Center for Ethics enquadra isso como um padrão mais amplo: as falhas de IA são lembretes cautelares dos perigos práticos do desenvolvimento e da implantação de IA, e examiná-las serve como um ponto de referência crucial para formuladores de políticas, tecnólogos e partes interessadas na identificação de riscos que devem influenciar outras iniciativas de IA.
Você pode ler isso como uma observação acadêmica ou como uma instrução direta para sua próxima reunião de planejamento de sprint. Ambas as leituras são válidas.
O Que Profissionais Podem Fazer na Prática
O framework de lições aprendidas da MITRE propõe quatro respostas concretas que funcionam bem como uma lista de verificação para profissionais: ampliar as considerações iniciais do projeto para incluir modos de falha antes da primeira linha de código em produção; construir resiliência tanto na IA quanto na organização ao redor dela; calibrar a confiança na IA e nos dados dos quais ela depende; e ampliar as formas de avaliar o impacto do sistema além de métricas de precisão.
Nada disso exige um novo modelo. Exige tratar a implantação como uma disciplina de engenharia com seus próprios requisitos, não como uma volta olímpica depois do treinamento.
A análise da AIMutiple sobre as causas raiz de falhas de IA acrescenta uma perspectiva complementar: muitas falhas remontam a objetivos desalinhados, má qualidade de dados e supervisão humana insuficiente no processo — não à arquitetura do modelo em si.
Se o seu chatbot pode fazer promessas vinculantes a clientes sem nenhuma etapa de revisão humana, você não implantou um sistema de IA. Você implantou um passivo.
Para quem está se preparando para funções de produção, o caso da Air Canada vale a pena ser marcado como referência — não porque seja escandaloso, mas porque é esclarecedor. Toda implantação de IA voltada ao cliente precisa de uma resposta explícita para três perguntas antes de ir ao ar: o que esse sistema pode se comprometer em nome da organização, quem revisa saídas de alto risco antes que cheguem aos usuários, e qual é o caminho de escalonamento quando o modelo erra.
Equipes que respondem a essas perguntas no design não precisarão respondê-las diante de um tribunal.
Fique atento aos frameworks de governança emergentes do cronograma de implementação do EU AI Act e dos compromissos voluntários de grandes desenvolvedores de IA: a próxima onda de falhas em produção provavelmente envolverá sistemas agênticos com tomada de decisão ainda mais autônoma, o que torna a camada de governança não um diferencial desejável, mas o desafio central de engenharia. O chatbot da Air Canada apenas deu conselhos ruins. A próxima geração de sistemas vai agir com base neles.