
En este artículo (3)
EchoLeak (CVE-2025-32711): La Vulnerabilidad de Cero Clics que Revela una Falla en el Núcleo de la IA Basada en RAG
Puntos Clave
- EchoLeak demostró que la inyección de instrucciones es una amenaza práctica de severidad crítica: un único correo electrónico manipulado podía exfiltrar silenciosamente datos corporativos de Microsoft 365 Copilot sin ninguna interacción del usuario.
- El parche del lado del servidor de Microsoft de mayo de 2026 corrige el exploit específico de Copilot, pero el riesgo arquitectónico subyacente de RAG persiste en cualquier asistente de IA que recupere y actúe sobre contenido no confiable.
- Los defensores y desarrolladores deben aplicar permisos de mínimo privilegio, control de acceso basado en procedencia y pruebas de contenido adversarial a cada implementación de IA basada en RAG, no solo a las parcheadas.
Microsoft parcheó la falla EchoLeak de Copilot en mayo de 2026, pero el mecanismo de inyección de prompts que explotaba es arquitectónico y está presente en cada asistente de IA basado en RAG que implementes.
Imagina recibir un correo electrónico que nunca abres. Sin ningún archivo adjunto en el que hagas clic, sin ningún enlace que sigas. El correo simplemente llega a tu bandeja de entrada y, en algún lugar del fondo, tu asistente de IA lo lee en silencio, hereda sus instrucciones y comienza a exfiltrar los datos confidenciales de tu organización hacia un servidor externo. Sin indicación. Sin advertencia. Sin rastro de interacción del usuario. Eso no es un experimento mental: es exactamente lo que los investigadores de Aim Labs documentaron en enero de 2025 cuando descubrieron CVE-2025-32711, la vulnerabilidad conocida ahora como EchoLeak.
Qué hizo EchoLeak en realidad (y cómo)
Según el caso de estudio académico publicado en arXiv, EchoLeak es el primer exploit de inyección de prompt de cero clics confirmado en un sistema de modelo de lenguaje grande en producción. La vulnerabilidad residía dentro de Microsoft 365 Copilot, el asistente de IA que extrae contexto de los correos electrónicos, archivos y calendario del usuario mediante una arquitectura de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés). RAG es el patrón de diseño en el que el modelo obtiene datos en tiempo real de tu entorno para responder preguntas: útil en teoría, peligroso en la práctica cuando esos datos recuperados pueden contener instrucciones que el modelo obedece.
La cadena de ataque, tal como la detalla el artículo de arXiv, funcionó encadenando cuatro evasiones distintas en secuencia. Primero, el payload malicioso eludió el clasificador XPIA (Cross Prompt Injection Attempt) de Microsoft, precisamente la defensa diseñada para detectar esta categoría de amenaza. Segundo, eludió la redacción de enlaces mediante el uso de formato Markdown de estilo referencia, un truco sintáctico que el sanitizador no detectó. Tercero, aprovechó el comportamiento de Copilot de obtener imágenes automáticamente, lo que provocó que el modelo realizara una solicitud saliente con datos exfiltrados. Cuarto, abusó de un proxy de Microsoft Teams que estaba permitido por la política de seguridad de contenido, lo que le dio al canal de exfiltración un punto de salida de apariencia confiable. El resultado, según el artículo, fue una escalada de privilegios completa a través de los límites de confianza del LLM sin ninguna interacción del usuario.
BleepingComputer informó que Aim Labs divulgó sus hallazgos a Microsoft, que asignó el identificador CVE-2025-32711 y calificó la falla como crítica. Microsoft lanzó un parche del lado del servidor en mayo de 2026, lo que significa que no se requirió ninguna acción del usuario para recibir la corrección. Microsoft también señaló, según BleepingComputer, que no hay evidencia de explotación en el mundo real.
La parte que el parche no corrige
Aquí es donde la historia se vuelve más interesante que una narrativa estándar de "parche aplicado, crisis evitada". Como explica el análisis CVE de Rescana, aunque la corrección del lado del servidor de Microsoft abordó la ruta de exploit específica en Copilot, la clase de riesgo subyacente persiste para cualquier organización que ejecute un asistente de IA basado en RAG.
El mecanismo que EchoLeak aprovechó, específicamente la inyección de prompt combinada con la herencia de contexto, no es un error que Microsoft introdujo descuidadamente en un producto. Es una consecuencia de cómo los sistemas RAG están diseñados para funcionar: están construidos para confiar en el contenido que recuperan, porque se supone que ese contenido es contexto útil. Cuando el contenido externo puede contener instrucciones adversariales, esa confianza se convierte en una superficie de ataque.
El análisis de la vulnerabilidad de Hack The Box describe el problema central con claridad: Copilot tiene permitido responder al contenido de los documentos y correos electrónicos que recupera, y un documento malicioso entregado a ese contexto se trata como entrada legítima. El modelo no tiene una forma confiable de distinguir entre "datos que me pidieron resumir" e "instrucciones que me dijeron seguir". Este es el problema de la inyección de prompt, y precede a cualquier CVE específico por años de advertencias académicas.
El artículo de arXiv extrae la lección más amplia directamente: los investigadores describen mitigaciones de ingeniería que incluyen la partición de prompts, el filtrado mejorado de entradas y salidas, el control de acceso basado en procedencia y políticas estrictas de seguridad de contenido. Estos no son parches para un único producto; son principios de diseño para cualquier persona que construya o implemente un asistente de IA que toque datos organizacionales reales. El artículo enmarca explícitamente la inyección de prompt como una clase de vulnerabilidad práctica y de alta gravedad en sistemas de IA en producción, no como una curiosidad teórica.
Qué significa esto para quienes construyen o usan herramientas de IA
Checkmarx planteó EchoLeak como evidencia de que la seguridad en IA es genuinamente desafiante de maneras que difieren de la seguridad tradicional del software. El problema no es solo que una implementación específica tuviera un error. Es que el modelo de confianza que los asistentes de IA requieren para ser útiles está en tensión estructural con el modelo de confianza que la seguridad requiere para ser segura.
Cada implementación de RAG que obtiene contenido no confiable y lo pasa a un LLM comparte alguna versión de esta superficie. El análisis de la vulnerabilidad de Trend Micro enfatiza el ángulo preventivo: las organizaciones pueden reducir la exposición auditando a qué fuentes de datos tienen permitido acceder sus asistentes de IA, aplicando el principio de mínimo privilegio a los permisos del agente de IA, monitoreando las salidas de Copilot en busca de patrones de recuperación anómalos, y tratando los documentos legibles por IA con el mismo escepticismo que se aplica a los archivos adjuntos ejecutables. Estas son prácticas aprendibles y aplicables, no contramedidas exóticas.
Para quienes aprenden y construyen, EchoLeak es genuinamente instructivo porque demuestra que asegurar un sistema de IA requiere pensar en los límites de confianza del modelo, no solo en su perímetro. Un firewall no te ayuda cuando la amenaza está dentro de la ventana de contexto.
El parche que Microsoft implementó en mayo de 2026 cierra una puerta específica. Entender por qué existía esa puerta en primer lugar es lo que te prepara para la siguiente. La inyección de prompt como clase de vulnerabilidad va a aparecer dondequiera que los asistentes de IA tengan acceso a datos organizacionales, y esa categoría de implementación solo está creciendo. La pregunta correcta que hacerle a cualquier herramienta basada en RAG que adoptes no es si ha sido parcheada, sino si fue arquitectada con contenido adversarial en mente.