La evolución en clones de voz por IA: voces muy realistas y riesgos más desafiantes
La clonación de voz impulsada por inteligencia artificial está alcanzando niveles de realismo sorprendentes. Lo que comenzó como una herramienta de accesibilidad o asistencia, ahora plantea escenarios complejos: desde ataques de suplantación y fraudes hasta la creciente dificultad de distinguir una voz real con una generada por máquinas.
Vishing en tiempo real: la voz como arma de ingeniería social
El vishing (estafas telefónicas que buscan obtener información) ha encontrado un aliado poderoso en los clones de voz por IA. Investigadores de NCC Group demostraron que es posible crear voces digitales en tiempo real a partir de apenas unos minutos de grabaciones de la víctima, permitiendo conversaciones simuladas que parecen totalmente naturales. Esto eleva los riesgos para empresas, empleados y particulares.
Antes, los clones solo podían reproducir fragmentos pregrabados, lo que generaba retrasos o respuestas poco convincentes. Hoy, los modelos permiten tomar las palabras de una persona y reproducirlas inmediatamente en otra voz, sin levantar sospechas, abriendo la puerta a ataques sofisticados y difíciles de detectar.
Estos ataques ya se han probado contra organizaciones reales, logrando obtener información confidencial y demostrando cómo incluso ejecutivos o personal clave pueden ser engañados para ejecutar acciones en nombre de los atacantes. La recomendación es clara: no confiar ciegamente en la autenticación por voz y reforzar la verificación con múltiples capas de seguridad.
Cada vez reconocemos menos las voces reales
Un estudio reciente de Queen Mary University of London y University College London revela que las personas ya no pueden diferenciar de manera confiable entre voces reales y clones de IA. En pruebas con 80 muestras de audio, los oyentes identificaron correctamente voces reales solo en un 62 % de los casos, mientras que los clones generados a partir de unas pocas grabaciones engañaron al 58 % de los participantes.
Incluso las voces generadas completamente desde texto a voz, sin entrenamiento previo con grabaciones reales, fueron confundidas en un 41 % de los casos, demostrando que la tecnología ha alcanzado un nivel de realismo alarmante.
Esto implica que escuchar una voz ya no garantiza que estemos frente a un humano, aumentando los riesgos de fraudes, estafas telefónicas y desinformación. La línea entre lo digital y lo real se difumina, y los sistemas de verificación tradicionales podrían quedarse obsoletos si no se adaptan.
El caso de Microsoft y los riesgos de Speak for Me
Microsoft experimentó de primera mano los desafíos de la clonación de voz con su proyecto Speak for Me (S4M), concebido como herramienta de accesibilidad para personas que perdían la voz. La idea era permitir a los usuarios escribir lo que querían decir y escucharlo replicado de manera realista, evitando la voz “robótica” habitual.
Sin embargo, durante el desarrollo, se descubrieron múltiples vulnerabilidades, desde el acceso no autorizado a los modelos de voz hasta la posibilidad de crear clones repetidamente, con impacto económico y de seguridad. La combinación de estos riesgos y la dificultad de garantizar protección completa llevó a Microsoft a abandonar la herramienta para uso general, dejando claro que la clonación de voz es potente, pero requiere precauciones extremas antes de lanzarla de forma masiva.
La IA que habla como estrella de Bollywood
La actriz de Bollywood Deepika Padukone se ha convertido en la nueva voz del asistente de IA de Meta en India y otros cinco países. Los usuarios pueden interactuar con Meta AI escuchando la voz de la actriz, en lo que la empresa ha descrito como “una experiencia más local y cercana”.
Esta implementación, junto con la de Speak For Me, demuestra cómo la clonación de voz ha evolucionado hasta ser una herramienta flexible, que permite personalizar asistentes virtuales con voces reconocibles por los usuarios.
Si esa flexibilidad llega a manos equivocadas, nos encontraremos en un ecosistema donde la convivencia con voces no humanas será parte de nuestra rutina, y tendremos que desarrollar nuevas técnicas y estrategias para brindar confianza a nuestras llamadas telefónicas.



