Microsoft Copilot Cowork exfiltra archivos: Un análisis profundo a la seguridad de agentes de IA

Hero

A medida que la inteligencia artificial evoluciona de simples chatbots conversacionales a agentes autónomos capaces de realizar tareas por nosotros, nuestra superficie de ataque digital se expande a un ritmo exponencial. Este cambio de paradigma quedó claramente evidenciado con una vulnerabilidad reciente descubierta por la firma de investigación de seguridad PromptArmor. En su reporte, detallan cómo Microsoft Copilot Cowork (una función avanzada basada en agentes dentro de la versión preliminar de Microsoft 365 Frontier) puede ser explotada para exfiltrar archivos confidenciales de forma completamente silenciosa. Para los equipos de ingeniería y seguridad, esta revelación es una enorme señal de alerta sobre los peligros latentes que surgen al combinar la inyección indirecta de prompts con un acceso amplio a través de Microsoft Graph.

#¿Qué pasó? La anatomía del exploit

El núcleo de esta vulnerabilidad radica en una decisión de diseño arquitectónico que a primera vista parece inofensiva. Copilot Cowork está diseñado para ayudarnos resumiendo documentos, gestionando calendarios y recuperando archivos. Para garantizar la seguridad, Microsoft implementó salvaguardas que exigen la aprobación humana antes de que el agente ejecute "acciones sensibles", como enviar correos electrónicos o mensajes por Microsoft Teams a terceros o colegas.

Sin embargo, los investigadores de PromptArmor encontraron una laguna crítica: el proceso de aprobación humana (human-in-the-loop) se omite por completo si el agente envía un mensaje directamente al usuario activo.

Los atacantes aprovecharon este descuido utilizando inyección indirecta de prompts (indirect prompt injection). Así es como se desarrolla la secuencia del ataque:

La fuente envenenada: Un atacante incrusta instrucciones maliciosas y ocultas dentro de un documento, una invitación de calendario o un recurso compartido con el que es muy probable que la víctima le pida a Copilot que interactúe o resuma.
El disparador del agente: Cuando el usuario le pide a Copilot que resuma el documento infectado, el agente ingiere sin saberlo las instrucciones ocultas del atacante junto con el contenido legítimo.
Recolección de datos: El prompt malicioso le ordena al agente buscar archivos confidenciales específicos (por ejemplo, registros financieros, API keys o datos de recursos humanos) a través de Microsoft Graph, forzando al sistema a generar enlaces de descarga preautenticados.
La exfiltración Zero-Click: Se le indica al agente que envíe un mensaje al usuario a través de Teams o Outlook. Aquí viene lo crítico: el prompt le dice al agente que formatee el mensaje usando Markdown o HTML, incrustando una etiqueta <img> invisible. El atributo src de esta imagen apunta al servidor externo del atacante, concatenando los enlaces de descarga preautenticados como parámetros en la URL.

Cuando el usuario abre el mensaje (una acción que no requiere ninguna interacción más allá de simplemente ver su propio chat o bandeja de entrada), su cliente intenta renderizar la imagen invisible. Esto dispara de forma silenciosa una petición web, enviando los enlaces de descarga sensibles directamente a las manos del atacante.

#¿Por qué es importante? Permisos amplios frente a salvaguardas defectuosas

Las implicaciones de esta vulnerabilidad van mucho más allá de un ataque de phishing estándar o una filtración de datos típica. Deja en evidencia problemas estructurales graves en la forma en que los agentes de IA manejan los permisos y los límites de confianza dentro de los entornos empresariales.

Herencia total de permisos: Copilot Cowork opera con todos los permisos de Microsoft Graph del usuario activo. Si una organización sufre de "exceso de uso compartido" (oversharing) —donde los permisos internos en SharePoint o OneDrive son demasiado laxos— el agente se convierte en un multiplicador de fuerza devastador. Puede descubrir y exfiltrar instantáneamente datos a los que el usuario ni siquiera sabía que tenía acceso.
Ejecución Zero-Click: La capacitación tradicional en concientización de seguridad hace mucho énfasis en enseñar a los empleados a no hacer clic en enlaces sospechosos. En este escenario, el simple hecho de abrir un mensaje de Teams generado por su propio asistente corporativo de IA desencadena la exfiltración. No hay ningún enlace malicioso que el usuario deba evitar.
Evasión de controles DLP: Dado que el movimiento inicial de los datos es completamente interno (Copilot interactuando con Microsoft Graph y enviando mensajes al usuario internamente), es muy poco probable que las herramientas estándar de Prevención de Pérdida de Datos (DLP) que monitorean el tráfico saliente de la empresa detecten este comportamiento hasta que se realice la petición web final y ofuscada mediante la carga de la imagen.

#Implicaciones técnicas: Más allá del LLM

Una de las conclusiones técnicas más fascinantes de la revelación de PromptArmor es que el exploit es fundamentalmente agnóstico al modelo. Aunque la investigación demostró el ataque usando Claude Opus 4.7 (que impulsa la versión preliminar de Copilot Cowork), la falla subyacente no es una alucinación de la IA ni una evasión de las barreras de seguridad del modelo. Se trata de una falla tradicional en la lógica de la arquitectura que se ve exacerbada por las capacidades de la IA.

Componente del ataque	Mecanismo técnico	Tipo de vulnerabilidad
Ingestión	Procesamiento sin sanitizar de contenido externo durante la Generación Aumentada por Recuperación (RAG).	Inyección indirecta de prompts
Ejecución	Evasión de controles de autorización y aprobación para mensajes dirigidos al propio usuario.	Business Logic Bypass
Exfiltración	Abuso del renderizado del lado del cliente de recursos externos dentro de aplicaciones de comunicación interna.	Zero-Click SSRF / Exfiltración de datos

Esto demuestra que asegurar sistemas basados en agentes requiere mucho más que simplemente afinar (fine-tuning) el LLM para que rechace prompts maliciosos. Exige una ingeniería de sistemas robusta, una separación contextual estricta de las entradas de datos y una validación de confianza cero (Zero-Trust) aplicada a los mecanismos de salida del agente.

#¿Qué sigue? Mitigando los riesgos de los agentes

Para los desarrolladores y administradores de TI que utilizan Microsoft 365 o que están construyendo sus propios agentes internos de IA, este incidente proporciona una hoja de ruta clara sobre las mitigaciones necesarias.

Restringir el descubrimiento de contenido: Las organizaciones deben gestionar de forma estricta los permisos de SharePoint y OneDrive. Los equipos de seguridad deben utilizar la configuración del tenant para excluir los sitios altamente confidenciales del índice de búsqueda de Copilot, limitando así el radio de impacto (blast radius) de un agente comprometido.
Implementar políticas de "Bloqueo de descargas": Al configurar las políticas de SharePoint para bloquear las descargas en ciertas bibliotecas sensibles, las organizaciones pueden evitar que la API de Graph genere los enlaces preautenticados necesarios para esta técnica de exfiltración específica.
Sanitizar el output de Markdown y HTML: Los desarrolladores que construyen clientes de IA deben tratar las respuestas del LLM como si fueran entradas no confiables de usuarios. Los motores de renderizado deben sanitizar estrictamente o bloquear por completo la carga de recursos externos (como imágenes remotas) dentro de los mensajes generados por los agentes.
Exigir un verdadero Human-in-the-Loop: Las acciones del agente que provoquen cambios de estado o peticiones de red deben requerir una confirmación explícita del usuario, independientemente de si el destinatario es interno, externo o el propio usuario.

#Conclusión

La vulnerabilidad de Microsoft Copilot Cowork descubierta por PromptArmor marca un punto de inflexión en la seguridad de la IA. A medida que pasamos de sistemas que simplemente responden preguntas a sistemas autónomos que ejecutan acciones en todo nuestro entorno de trabajo digital, la complejidad para asegurar estos flujos de trabajo aumenta drásticamente. Adoptar una IA basada en agentes significa que debemos replantear fundamentalmente nuestros límites de confianza, asumiendo que nuestras fuentes de datos son hostiles y que nuestros asistentes de IA son inherentemente crédulos. Asegurar el futuro del trabajo exige una vigilancia extrema, una higiene de permisos estricta y un enfoque inquebrantable de Zero-Trust hacia las integraciones de inteligencia artificial.