Solo necesitas una invitación: invoca a Gemini para agentes de Workspace con una simple invitación de Google Calendar
Vea cómo un investigador de SafeBreach Labs colaboró con otros investigadores para desarrollar una nueva variante de Promptware capaz de explotar Gemini para controlar de forma remota los electrodomésticos de las víctimas, transmitir videos de las víctimas, exfiltrar información confidencial de las víctimas y más.
Autores: Or Yair, jefe del equipo de investigación de seguridad de SafeBreach | Ben Nassi | Stav Cohen
En los últimos dos años, se han integrado diversos sistemas y aplicaciones con capacidades de inteligencia artificial generativa (IA gen), convirtiendo aplicaciones comunes en aplicaciones impulsadas por IA gen. Además, se han incorporado a estos sistemas la generación aumentada por recuperación (RAG), que consiste en conectar la IA gen y los grandes modelos lingüísticos (LLM) con fuentes externas de conocimiento, y otros agentes, haciéndolos más eficaces, precisos y actualizados.
Paralelamente a estos avances, hemos presenciado la aparición de una nueva clase de ataques que amenazan la seguridad y la privacidad de las aplicaciones basadas en IA de última generación, conocida como Promptware. Este tipo de ataque utiliza un mensaje (una entrada de texto, imágenes o muestras de audio) diseñado para explotar una interfaz LLM en el momento de la inferencia y desencadenar actividades maliciosas, como la difusión de spam o la extracción de información confidencial. Sin embargo, la mayoría de los profesionales de seguridad desconocen el Promptware o no lo consideran un riesgo crítico. Creemos que esto se debe a una serie de ideas erróneas que sugieren que el Promptware no es una forma práctica de ataque.
Nuestra investigación actual se propuso desmentir estas ideas erróneas al describir una nueva variante de Promptware que denominamos ataques de Promptware dirigidos. Nuestra investigación exploró el uso de esta variante de ataque contra las tres interfaces de usuario de Gemini más utilizadas con acceso a Google Workspace: la interfaz web (www.gemini.google.com), la aplicación móvil (Gemini para móviles) y el asistente de voz, que actualmente funciona con Gemini en dispositivos Android.
Durante el proceso, pudimos demostrar diversas explotaciones de Promptware Dirigido contra Gemini, iniciadas simplemente por un atacante que enviaba una invitación de Google Calendar a una víctima cuyo nombre contenía una inyección indirecta de un mensaje. Como resultado, pudimos secuestrar el contexto de la aplicación, invocar sus agentes integrados y explotar sus permisos para realizar una impactante gama de actividades maliciosas, como identificar la ubicación de la víctima, grabarla e incluso realizar cambios en su entorno físico.
En el blog a continuación, destacaremos primero los hallazgos y conclusiones clave de esta investigación. A continuación, proporcionaremos una breve información general sobre Promptware y Gemini para contextualizar. A continuación, profundizaremos en nuestro proceso de investigación, describiendo los detalles técnicos de un ataque dirigido de Promptware y algunas de las explotaciones que desarrollamos para atacar a Gemini y sus agentes de Google Workspace. Finalmente, proporcionaremos un análisis de amenazas y una evaluación de riesgos actuales de los ataques de Promptware en la práctica, analizaremos la respuesta de los proveedores y explicaremos cómo compartimos esta información con la comunidad de seguridad en general para ayudar a las organizaciones a protegerse.
Descripción general
Hallazgos clave
Como parte de esta investigación, desarrollamos una nueva variante de Promptware, denominada "Ataques de Promptware Dirigidos", que nos permitió secuestrar los agentes de Gemini de una víctima remota simplemente enviándoles una invitación de Google Calendar. Demostramos cómo podíamos explotar las herramientas de Gemini para:
Realizar spam y phishing
Generar contenido tóxico
Eliminar los eventos del calendario de una víctima
Controlar de forma remota los electrodomésticos de la víctima (por ejemplo, ventanas conectadas, caldera, luces)
Geolocalizar a una víctima
Transmita en video a una víctima a través de Zoom
Exfiltrar los correos electrónicos de una víctima
Nuestras demostraciones prueban que Promptware es capaz de realizar tanto movimiento lateral entre agentes, al desencadenar actividad maliciosa entre diferentes agentes de Gemini, como movimiento lateral entre aplicaciones, al escapar de los límites de Gemini y aprovechar las aplicaciones instaladas en el teléfono inteligente de una víctima para realizar actividades maliciosas con resultados físicos.
Finalmente, proporcionamos una evaluación del riesgo para los usuarios finales mediante un marco de análisis de amenazas y evaluación de riesgos (TARA) desarrollado por nosotros. Nuestros hallazgos indicaron que el 73 % de las amenazas de Promptware identificadas se clasifican como de riesgo crítico y requieren la implementación de medidas de mitigación inmediatas.
Comida para llevar
Las implicaciones de esta investigación son significativas no solo para Gemini de Google, sino también para otras aplicaciones basadas en LLM que podrían ser susceptibles a ataques de Promptware. Creemos que los hallazgos sugieren varias conclusiones importantes, en particular que Promptware:
Es más práctico y fácil de aplicar que los ataques cibernéticos tradicionales.
Tiene serias implicaciones, con una capacidad demostrada para:
Afecta el dominio físico
Realizar movimiento lateral entre las herramientas de un agente, diferentes agentes y diferentes aplicaciones (escapando de los límites de la aplicación utilizada para procesar una solicitud)
Representa un riesgo crítico para las aplicaciones con tecnología LLM. Las organizaciones deben reevaluar el riesgo que Promptware representa para sus sistemas con tecnología LLM mediante un análisis de amenazas y evaluación de riesgos (TARA) y priorizar la implementación de las medidas de mitigación necesarias.
También creemos que nuevas variantes de Promptware están en el horizonte, incluyendo:
Variantes de 0 clics que apuntan a inferencias automáticas de LLM
Variantes no dirigidas que transmiten Promptware a todos los usuarios (por ejemplo, a través de YouTube, Google Maps)
Variantes avanzadas que no presuponen ningún conocimiento previo del sistema de destino
Fondo
Promptware
El Promptware utiliza un mensaje (una entrada de texto, imágenes o muestras de audio) diseñado para explotar una interfaz LLM en el momento de la inferencia y así desencadenar actividades maliciosas, por ejemplo, para difundir spam o extraer información confidencial. El perímetro del Promptware existe entre RAG, los agentes y LLM.
Tradicionalmente, los ciberataques se han dirigido a la corrupción de memoria, como desbordamientos de búfer, programación orientada internamente y explotaciones de uso después de la liberación. Sin embargo, considerando el número de integraciones de LLM en aplicaciones, creemos que LLM podría ser el componente más vulnerable de las aplicaciones integradas con LLM. Como resultado, prevemos un cambio significativo en la superficie de ataque de las aplicaciones, desde problemas de seguridad de memoria hasta Promptware.
Vectores de ataque
El Promptware se puede aplicar en dos vectores de ataque:
Inyección directa de mensajes. En este caso, el usuario podría ser el atacante, y el ataque se realiza mediante la entrada proporcionada por el usuario intencionalmente para atacar la aplicación LLM. Un ejemplo de esto podría ser un robo de información de un conjunto de datos RAG, donde un atacante intenta extraer el conjunto de datos utilizado por el RAG de un chatbot médico de pago para replicar el servicio y, por lo tanto, violar la propiedad intelectual y la confidencialidad.
Inyección indirecta de mensajes. En este caso, el usuario es la víctima y el ataque se realiza a través de los datos, que fueron comprometidos por el atacante y proporcionados involuntariamente por la aplicación a la aplicación con tecnología LLM. Un ejemplo de esto podría ser un ataque que se inicia al enviar a un usuario una invitación de Google Calendar.
En la naturaleza
Durante los últimos dos años, nuestro trabajo ha demostrado cómo diseñar indicaciones para activar una cascada de inyección indirecta de indicaciones. Además, demostramos una variante no textual de Promptware y que las indicaciones pueden codificarse en imágenes y muestras de audio.
Zenity y Aim Labs también han demostrado variantes de Promptware que roban información contra Microsoft Copilot, mientras que Johann Rehberger demostró variantes de Promptware contra todas las aplicaciones existentes basadas en LLM.
Conceptos erróneos
A pesar del auge de las variantes de Promptware, la mayoría de los profesionales de seguridad no están familiarizados con Promptware o no lo consideran un riesgo crítico. ¿Por qué? Creemos que se debe a varias ideas erróneas sobre los ataques contra sistemas basados en IA:
Requerir atacantes capacitados que tengan capacitación avanzada en aprendizaje automático adversario
Confíe en modelos de amenazas poco realistas que requieren acceso de caja blanca al modelo objetivo que está siendo atacado
Exija un grupo de GPU para realizar el entrenamiento adversario para descubrir que la instancia adversaria
No se pueden eludir las barreras de seguridad implementadas en los sistemas de producción
Si bien estas ideas erróneas eran ciertas para los ataques adversarios clásicos contra clasificadores de imágenes que intentaban añadir perturbaciones a una imagen para que el clasificador la clasificara erróneamente, no son válidas para las aplicaciones basadas en LLM. Sin embargo, han llevado a muchos profesionales de la seguridad de la información a creer que los ataques contra sistemas basados en LLM son tan exóticos y poco prácticos como los ataques adversarios clásicos contra clasificadores de imágenes. Con esto en mente, analicemos Gemini.
Géminis
Gemini se puede utilizar tanto a través de aplicaciones web como móviles y también potencia el asistente de voz en dispositivos Android:
Las aplicaciones de Gemini se basan en LLM fundamentales, como Flash 2.0, para analizar la solicitud de un usuario. El propio LLM fundamental es un agente de IA —al que consideramos el orquestador— que divide la solicitud en una serie de pruebas, que consideramos la fase de planificación. A esto le sigue una fase de ejecución, que completa el orquestador.
Gemini también utiliza dos tipos de memoria para ejecutar tareas. La primera es la memoria a corto plazo, que contiene el contenido de la sesión. La segunda es la memoria a largo plazo, que contiene los datos del usuario en Google y la "Información guardada": toda la información que Gemini debe recordar.
El orquestador puede acceder o modificar los recursos de Google Workspace de un usuario (como correos electrónicos, reuniones y archivos) cuando sea necesario para atender la solicitud del usuario. Para ello, el orquestador activa la ejecución del agente correspondiente, equipado con las herramientas y los permisos necesarios para interactuar con el servicio requerido. La lista de agentes disponibles varía según el cliente y la plataforma de Gemini.
El proceso de investigación: ataques dirigidos de Promptware
Ahora que comprendemos algunas de las funciones básicas de los ataques de Promptware y Gemini for Workspace, exploraremos cómo se puede utilizar en ataques maliciosos contra usuarios habituales en un nuevo tipo de variante de Promptware que llamamos ataques de Promptware dirigidos.
Estos ataques funcionan mediante la inserción de una inyección indirecta de mensajes en un recurso compartido administrado por el LLM. Estos recursos pueden ser correos electrónicos, invitaciones de calendario o archivos compartidos.
El modelo de amenaza
En un ataque de Promptware dirigido, el flujo del ataque se parece a esto:
Un atacante primero envía a un usuario un correo electrónico o una invitación de calendario a través de Gmail o Google Calendar con una inyección de mensaje en el asunto o título.
Cuando el usuario le pregunta a Gemini algo como "¿Qué correos electrónicos recibí hoy?" o "¿Qué hay en mi calendario?", Gemini extraerá esa información de las aplicaciones y la procesará.
Si un atacante ha colocado un mensaje malicioso en uno de los correos electrónicos o eventos, la inyección de mensaje indirecto se activa y compromete el espacio de contacto de Gemini.
Dirigido por la inyección de avisos, Gemini puede activar diferentes herramientas a las que está conectado para ayudar al usuario. En la web, Gemini puede usar aplicaciones como YouTube, Gmail, seminarios web y más. Pero en dispositivos móviles, la cosa se pone aún más interesante. Gemini puede interactuar con una gama más amplia de agentes, como Google Home, Teléfono, Mensajes e incluso Utilidades de Android, que permiten funciones a nivel de sistema como abrir enlaces. Abrir enlaces permite interactuar con más aplicaciones, como Chrome para abrir sitios web, Zoom para videollamadas y más.
Todas estas herramientas son excelentes para casos de uso normal cuando el usuario las usa intencionalmente. Pero no estamos aquí para un caso de uso normal, sino para divertirnos. Entonces, ¿qué puede hacer un atacante con estas herramientas? ¿Qué tal usar Zoom para grabar al usuario o abrir sus ventanas inteligentes a través de Google Home? ¿O rastrear su ubicación, descargar archivos o incluso filtrar datos a través de la web?
¿Por qué un asistente LLM haría algo tan malo? Se supone que el LLM es un asistente. La peculiaridad es que los LLM no saben que están haciendo algo mal. Están diseñados para ayudar al usuario y siguen instrucciones según el contexto. Si un atacante logra engañar al sistema para que piense que está haciendo exactamente lo que el usuario pidió, se desata el caos. Por eso son peligrosos: los LLM son inteligentes y pueden acceder a muchísimas herramientas potentes, pero no siempre entienden cuándo están siendo manipulados.
Ataques de envenenamiento de contexto a corto plazo
Para manipular Gemini de esta manera, utilizamos una técnica llamada envenenamiento de contexto. Al chatear con un LLM, puede parecer que solo enviamos una consulta a la vez. Pero en realidad, le enviamos el mensaje nuevo, además del historial de la conversación hasta ese momento. Todo el texto que se envía al LLM en cada interacción es lo que llamamos el espacio de contexto del LLM.
¿Qué pasaría si pudiéramos incluir instrucciones no deseadas en ese espacio de contexto, algo que el usuario nunca vería, pero que el asistente sí leería y seguiría? Eso es precisamente lo que llamamos envenenamiento de contexto: inyectar puntos ocultos en el espacio de contexto que influyen en cómo el modelo piensa, actúa y responde.
Podemos lograr esto enviando una simple invitación de calendario a la víctima que contiene elementos de envenenamiento de contexto. Luego, cuando el usuario pregunta a Gemini sobre sus eventos, Gemini recupera datos del calendario y muestra los siguientes cinco eventos completos. Sin embargo, Gemini también muestra todos los detalles de los eventos que recupera del espacio de contexto. Oculta en el botón "Mostrar más", se encuentra nuestra invitación maliciosa, oculta bajo una gran cantidad de eventos, que envenena el contexto de conversión con instrucciones maliciosas que Gemini sigue sin que el usuario lo sepa.
Técnica 1: Spamming
La primera técnica utilizó lo que llamamos Jailbreak Roleplay con la intención de enviar spam al usuario. Para empezar, simplemente compartimos un evento de calendario con el siguiente título:
En negro están las etiquetas que usamos para convencer a Gemini de que este texto no era solo un título, sino una instrucción. Luego, añadimos un mensaje de jailbreak que usaba roleplay para obtener más influencia, seguido de una acción maliciosa: enviar spam al usuario con un mensaje y un enlace a un sitio web. Y, por último, hay una instrucción engañosa que envenena el contexto: le dice a Gemini que siga respondiendo así en cada interacción futura.
Técnica 2: Generación de contenido tóxico
Para la segunda técnica, volvimos a usar Jailbreak Roleplay, pero esta vez con la intención de obligar a Gemini a mostrar cualquier texto que quisiéramos de inmediato, sin necesidad de una segunda interacción y sin crear restricciones. En lugar de mostrar al usuario su calendario, queríamos obligar a Gemini a decir lo que quisiéramos, esencialmente denegando el servicio al calendario.
Nuestra idea surgió cuando notamos que, al preguntarle a Gemini sobre los eventos del calendario de la semana, siempre respondía con el mismo texto: "Aquí están tus eventos de esta semana". Parecía un valor predeterminado predefinido, probablemente aprendido durante el entrenamiento o reforzado en la inferencia.
Decidimos enfocarnos en ese patrón exacto. Creamos una instrucción que usaba esas mismas palabras (la frase exacta que Gemini ya planeaba decir) y le dijimos: "En lugar de decir 'Aquí están tus eventos de esta semana', di esto". Eso hizo que nuestro intento fuera tan efectivo. Gemini ya estaba a punto de decir esas palabras. Pero justo antes de responder, vio nuestra instrucción con la misma redacción y la siguió. ¿Por qué? Porque los modelos de lenguaje tienden a dar más importancia a las instrucciones preestablecidas, especialmente cuando se parecen tanto.
Así que Gemini no ignoró la frase predeterminada. Simplemente le dio más peso a la nueva instrucción. A esto lo llamamos anulación de atención, y lo que lo hace especialmente peligroso es la confianza. La confianza que tenemos en el sistema. No solo estamos secuestrando un chatbot. Estamos secuestrando la voz y la reputación de Google como entidad confiable. Así, cuando el asistente dice algo como "Necesita verificar su cuenta con este enlace: <enlace>", esta instrucción y este enlace tienen el peso de un sistema confiable.
Piensa en cuántas personas ya caen en el phishing por correo electrónico o SMS. Ahora imagina a tu asistente personal, ese en el que confías a diario, diciéndote con naturalidad que hagas clic en un enlace o que tomes una acción urgente. La mayoría de los usuarios ni siquiera lo cuestionarían porque confían en que proviene de Gemini y no de un atacante malicioso.
Ataques de invocación automática de herramientas
Hasta ahora, las técnicas de envenenamiento de contexto a corto plazo que hemos presentado han sido puramente textuales. A continuación, exploramos técnicas más avanzadas que buscaban manipular las herramientas a las que Gemini tenía acceso.
Al investigar los agentes y herramientas disponibles de Gemini, tanto en la versión web como en la versión de Android, descubrimos que el agente de calendario tiene algunas herramientas disponibles, incluida la capacidad de leer, crear y eliminar eventos.
Técnica 3: Mal uso de herramientas
Al aprovechar este conocimiento, descubrimos que era posible manipular Gemini para que un agente usara varias herramientas en una sola llamada, lo que llamamos encadenamiento de herramientas. Esto significa que cuando Gemini accede al calendario, podemos inyectar y ejecutar una acción maliciosa a la vez.
Comenzamos enviando una invitación maliciosa al calendario de la víctima. Cuando el usuario solicitó a Gemini que leyera sus eventos de la semana, Gemini accedió al calendario y lo envenenamos silenciosamente con una inyección indirecta de aviso oculta en el título del evento. A continuación, esta inyección indirecta de aviso instruyó a Gemini para que realizara una acción maliciosa, como eliminar un evento del calendario de la víctima. A partir de ese momento, Gemini eliminaría un evento aleatorio del calendario cada vez que interactuara con el usuario.
Ataques de invocación automática de agentes
Ahora entendíamos cómo podíamos afectar al agente de Google Calendar, a través del cual también podíamos inyectar una solicitud indirecta. Simplemente necesitábamos enviar una invitación maliciosa al calendario de la víctima. Gemini sería entonces envenenado con la solicitud indirecta y podríamos indicarle que realizara una acción maliciosa en el calendario de la víctima.
Pero ¿qué sucedería si quisiéramos que nuestra inyección indirecta de mensajes provocara que Gemini realizara acciones maliciosas con agentes distintos a Google Calendar? Esto es lo que llamamos Invocación Automática de Agentes.
Técnica 4: Invocación de herramienta retardada con calendario
Por ejemplo, ¿qué pasaría si quisiéramos que Google Home abriera las ventanas de la casa de la víctima mediante la inyección indirecta de un mensaje? Desafortunadamente, parece que Google ha implementado una mitigación que impide la activación de agentes distintos a los previstos originalmente, o, en otras palabras, impide el encadenamiento de agentes.
Si lo piensas, esto podría implementarse fácilmente. Si determinas la lista de agentes que debe activar el mensaje del usuario antes de activarlos, sabrás cuáles son los agentes esperados y no se permitirán otros.
Para sortear estas limitaciones, consideramos usar una técnica conocida llamada Invocación Retardada de Herramientas (también utilizada recientemente por Johann Rehberger). En lugar de indicarle a Gemini que realizara nuestra operación maliciosa en el agente diferente al instante, le indicamos que la realizara solo en eventos futuros tras futuras solicitudes.
Por ejemplo, si en la inyección indirecta de solicitudes, indicamos a Gemini que abriera las ventanas cuando el usuario dijera "gracias", entonces, cuando el usuario dijera "gracias", los agentes esperados de la solicitud original serían Google Home. Pensamos que esto podría ayudarnos a lograr nuestro objetivo.
Pero para que la Invocación Retrasada de la Herramienta funcione, debemos tener nuestra instrucción escrita en el historial del chat, que proporciona el contexto de la conversación. Si simplemente solicitamos a Gemini que haga algo en el futuro desde una inyección indirecta de mensaje, pero la solicitud no está escrita en el historial del chat, Gemini simplemente la olvidará, ya que no se insertará en el contexto.
Y por eso, el agente de Google Calendar de Gemini es tan especial. A diferencia de los demás agentes, Google Calendar tiene una vista única que lista los eventos. Si la lista de eventos tiene más de cinco, hay un botón "Mostrar más".
Afortunadamente, los eventos incluidos en este botón, incluso si no están expandidos, se añaden al historial del chat y, por lo tanto, al contexto. Esto nos permitió ocultar nuestra Inyección Indirecta de Avisos, que utiliza la Invocación Retrasada de Herramientas, tras esta vista tan especial de Google Calendar, y poner en práctica nuestra idea.
Comenzamos de nuevo enviando una invitación maliciosa al calendario de la víctima. Cuando el usuario pidió a Gemini que resumiera los eventos del calendario de hoy, el agente de calendario mostró las reuniones del calendario de la víctima sin ningún elemento malicioso visible. Cuando el usuario respondió "Gracias", Gemini se conectó a Google Home y abrió las ventanas de la casa.
Ataques de invocación automática de aplicaciones
Para lograr aún más, recurrimos a otro agente muy potente compatible con Gemini, llamado Utilidades de Android. Este agente puede controlar el teléfono del usuario de diversas maneras, como encender la linterna, configurar alarmas, tomar capturas de pantalla, controlar el contenido multimedia, encender y apagar el teléfono e incluso abrir sitios web y aplicaciones.
Técnica 5: Apertura de sitios web
Cuando los usuarios abren sitios web, crean una conexión TCP con el servidor del sitio web. Esto significa que este servidor conoce las direcciones IP de los usuarios, las cuales pueden asignarse a ubicaciones geográficas y determinar los distritos o ciudades donde se encuentran.
Si pudiéramos obligar a Gemini a abrir un sitio web, podríamos descubrir la ubicación del usuario. Comenzamos enviando una invitación maliciosa al calendario de la víctima. Cuando el usuario solicitó a Gemini un resumen de los eventos del día, el agente de calendario mostró las reuniones que tenía en su calendario. Cuando el usuario respondió "Gracias", Gemini se conectó a Chrome y abrió un sitio web malicioso, lo que significa que el servidor de este sitio web ahora tiene la dirección IP del usuario.
Técnica 6: Abrir aplicaciones
Además, como se mencionó anteriormente, también pudimos usar Android Utilities para abrir aplicaciones. Sin embargo, abrir una aplicación con Android Utilities solo lleva a la página de inicio de la aplicación. Sin embargo, las URI de intención de aplicación nos permiten abrir escenarios/actividades específicos en diferentes aplicaciones. Hay más esquemas de URI que solo HTTPS. Puedes usar el esquema de Zoom para abrir reuniones de Zoom, usar el esquema geográfico para abrir ubicaciones específicas en la aplicación de mapas predeterminada y hay muchos, muchos más, por supuesto.
Sin embargo, intentar abrir una URI de intención de aplicación con Gemini no lleva a ninguna parte. Gemini simplemente responde que la URL no es válida.
¿Qué pasaría si en lugar de intentar abrir la propia URI de intención de aplicación, creáramos una URI HTTPS que respondiera con el código HTTP 301 y nos redirigiera a la URI de intención de aplicación? Pudimos hacerlo usando cualquier servicio de acortamiento de URL.
Sin embargo, cuando un navegador está a punto de abrir una aplicación externa, como ocurre con estas URL de intención de aplicación, solicita al usuario que confirme que realmente desea abrir la aplicación. De lo contrario, permitiría peligrosamente que cualquier sitio web que visite un usuario interactúe con las aplicaciones de su teléfono sin supervisión.
Sin embargo, Gemini no lo hace. Cuando abrimos una URL HTTPS que redirige a una aplicación con Gemini, Gemini la sigue ciegamente y abre la URL sin importar adónde lleve.
Para aprovecharlo, comenzamos enviando una invitación maliciosa al calendario de la víctima. El usuario solicitó a Gemini que listara los eventos del día; Gemini los enumeró y preguntó si podía hacer algo más. Cuando el usuario respondió "No" (nuestro detonante para la invocación retardada de la herramienta), Gemini obligó a la víctima a asistir a una reunión de Zoom.
Técnica 7: Exfiltración de datos a través de URL
La forma obvia de seguir aprovechando nuestra capacidad para abrir enlaces sería crear una URL ensamblada dinámicamente que contenga información para exfiltrar después del nombre de dominio. Todo lo que se inserte después del nombre de dominio se enviará al servidor detrás de este dominio en una solicitud HTTP GET.
Sin embargo, si intentamos pedirle a Gemini que ensamble dinámicamente una URL y la abra, volvemos a recibir el error de URL no válida.
Los desarrolladores de Gemini implementaron un mecanismo de seguridad en segundo plano que aplica la regla de que una URL no se creará dinámicamente y se abrirá inmediatamente. Pero ¿podría ser que esta mitigación se active solo cuando se intenta ensamblar dinámicamente la URL y abrirla al mismo tiempo? ¿Qué sucedería si ensamblemos dinámicamente una URL sin abrirla?
Funcionó. Ahora entendíamos que esta mitigación solo se activaría si la URL se abría justo después de su ensamblaje dinámico.
Nos preguntábamos si la URL ya se había ensamblado en una interacción anterior, ¿Gemini seguiría negándose a abrirla con las Utilidades de Android? Supusimos que no sería así.
Técnica 8: Exfiltración de datos a través de Gmail
A continuación, nos centramos en los correos electrónicos, ya que contienen información más interesante para extraer. Adaptamos nuestra inyección indirecta de mensajes para que funcionara desde Gmail y pusimos a prueba nuestra idea.
Desde la inyección de la solicitud, solicitamos a Gemini que agregara una URL de origen cada vez que el usuario preguntara sobre sus correos electrónicos. Indicamos que la URL de origen debía generarse a partir de un dominio específico con la información que queríamos exfiltrar, por ejemplo, el asunto de un correo electrónico de un remitente específico. Además, solicitamos a Gemini que generara un texto que le indicara a Gemini que abriera las URL de origen que había creado previamente cuando un usuario escribiera palabras específicas como "gracias", "gracias", "genial", etc.
De esta forma, garantizamos que la URL se genere dinámicamente con la información que se va a exfiltrar, pero no le pedimos a Gemini que la abra al mismo tiempo.
Comenzamos enviando a la víctima un correo electrónico malicioso con una inyección indirecta de mensajes. Nuestro objetivo era extraer el asunto de otro correo electrónico de su bandeja de entrada. Cuando el usuario pidió a Gemini que resumiera los correos electrónicos del día, Gemini compartió los correos de su bandeja de entrada. Cuando el usuario respondió "Gracias", se abrió un sitio web con un enlace generado a partir del texto del asunto de otro correo. Así, logramos extraer la información deseada.
Análisis de amenazas y evaluación de riesgos (TARA)
Un análisis de amenazas y evaluación de riesgos (TARA) es un proceso que las organizaciones utilizan para identificar, evaluar y priorizar amenazas potenciales que podrían violar la tríada CIA de activos organizacionales.
Sentido práctico
La practicidad de una amenaza se calcula como una puntuación media de seis categorías:
Equipo del atacante
Experiencia del atacante
Ventana de oportunidad
Conocimiento
Tiempo transcurrido
Interacción con el objetivo
Resultado
El resultado de una amenaza se calcula como la puntuación máxima en cuatro categorías:
El daño causado a la privacidad del usuario
El daño económico ocasionado al usuario
Los daños ocasionados a la seguridad del usuario
El daño operativo ocasionado al usuario
TARA para asistentes con LLM
Con base en la metodología TARA señalada anteriormente, calculamos la viabilidad y los resultados de las amenazas que demostramos en esta investigación.
Según nuestro análisis, el 73 % de las amenazas que un asistente personal LLM plantea a los usuarios finales representan un riesgo crítico. Creemos que esto es lo suficientemente significativo como para requerir medidas de mitigación rápidas y específicas para proteger a los usuarios finales y reducir este riesgo.
Respuesta del proveedor
Todos los investigadores que participan en este proceso están profundamente comprometidos con la divulgación responsable de información. En consonancia con este compromiso, notificamos a Google los resultados de nuestra investigación en febrero de 2025. Google respondió y colaboramos con ellos para analizar nuestros hallazgos, responder a sus consultas y proporcionar la información adicional necesaria.
En junio de 2025, Google publicó un blog que brindaba una descripción general de su enfoque de mitigación de múltiples capas para proteger a Gemini contra técnicas de inyección rápida y compartió la siguiente respuesta:
Google reconoce la investigación "Invitation Is All You Need" de Ben Nassi, Stav Cohen y Or Yair, divulgada responsablemente a través de nuestro Programa de Recompensas por Vulnerabilidades de IA (VRP). El artículo detalla técnicas teóricas de inyección indirecta de indicaciones que afectan a los asistentes con tecnología LLM y se compartió con Google con el objetivo de mejorar la seguridad del usuario.
En respuesta, Google inició un esfuerzo prioritario y centrado en acelerar la mitigación de los problemas identificados en el documento. A lo largo de nuestro trabajo, implementamos defensas de múltiples capas, incluyendo: confirmaciones de usuario mejoradas para acciones sensibles; gestión robusta de URL con desinfección y políticas de nivel de confianza; y detección avanzada de inyección de mensajes mediante clasificadores de contenido. Estas mitigaciones se validaron mediante exhaustivas pruebas internas y se implementaron con antelación a todos los usuarios de la divulgación.
Agradecemos a los investigadores sus valiosas contribuciones y su constructiva colaboración. Google mantiene su compromiso con la seguridad de sus productos de IA y la seguridad de los usuarios, mejorando continuamente sus protecciones en este panorama dinámico.
Conclusión
Esta investigación presentó una nueva variante de Promptware, denominada Promptware Dirigido, que representa un grave riesgo de seguridad para aplicaciones con tecnología LLM, como Gemini for Workspace de Google. Para mitigar el posible impacto de las vulnerabilidades identificadas en esta investigación, hemos:
Divulgamos responsablemente los resultados de nuestra investigación a Google en febrero de 2025, como se indicó anteriormente.
Compartimos nuestra investigación abiertamente con la comunidad de seguridad más amplia aquí, en nuestras presentaciones de Black Hat USA y DEF CON 33 , y en un informe técnico completo para permitir que las organizaciones y los usuarios finales que aprovechan Gemini comprendan mejor los riesgos asociados con estas vulnerabilidades.
Para obtener información más detallada sobre esta investigación, por favor:
Comuníquese con su representante de éxito del cliente si es cliente actual de SafeBreach
Programe una conversación individual con un experto de SafeBreach
Comuníquese con Kesselring PR para consultas de prensa
Acerca de los investigadores
Or Yair (@oryair1999) es un profesional de investigación en seguridad con más de siete años de experiencia, y actualmente se desempeña como Líder del Equipo de Investigación de Seguridad en SafeBreach Labs . Or comenzó su carrera profesional en las Fuerzas de Defensa de Israel (FDI). Su enfoque principal radica en las vulnerabilidades en los componentes del sistema operativo Windows, aunque su trabajo anterior también incluyó la investigación de componentes del kernel de Linux y algunos componentes de Android. La investigación de Or está impulsada por la innovación y el compromiso de desafiar el pensamiento convencional. Disfruta contradiciendo suposiciones y considera la creatividad una habilidad clave para la investigación. Or ya ha presentado sus descubrimientos de investigación en vulnerabilidades y seguridad a nivel internacional en conferencias como Black Hat USA, Europa y Asia, DEF CON, SecTor, RSAC, Recon, Troopers, Sec-T, BlueHatIL, Security Fest, CONFidence y más.
El Dr. Ben Nassi es miembro de la junta directiva de Black Hat (Asia y Europa), experto en ciberseguridad y consultor. Se especializa en seguridad de IA, ataques de canal lateral, sistemas ciberfísicos, análisis de amenazas y evaluación de riesgos. Su trabajo se ha presentado en importantes congresos académicos, publicado en revistas y revistas, y ha recibido cobertura de medios internacionales. Ben es ponente habitual en eventos de Black Hat (6), RSAC (2) y DEFCON (3) y ganó el Premio Pwnie 2023 al Mejor Ataque Criptográfico para Criptoanálisis Basado en Vídeo.
Stav Cohen es estudiante de doctorado en el Technion (Instituto Tecnológico de Israel). Investiga sistemas ciberfísicos (SFC) que integran metodologías GenAI e incorporan interacciones humanas, con especial énfasis en su seguridad y aspectos operativos. Realiza análisis detallados de modelos GenAI para identificar posibles vulnerabilidades y diseñar estrategias eficaces para mitigarlas. Además, adopta un enfoque proactivo al explorar cómo se pueden utilizar las metodologías GenAI para mejorar la seguridad y la eficiencia operativa de los sistemas ciberfísicos.
Fuente: https://www.safebreach.com/blog/invitation-is-all-you-need-hacking-gemini/









