La IA ya puede desenmascarar cuentas anónimas con precisión sorprendente
El anonimato en Internet nunca fue perfecto, pero durante años fue suficiente. Hoy, esa barrera parece estar debilitándose rápidamente. Un nuevo estudio, difundido por Ars Technica, revela que los modelos de lenguaje de gran tamaño (LLMs) pueden desenmascarar usuarios seudónimos con una precisión y escala inéditas, a través de la correlación entre publicaciones en distintas plataformas sociales sin necesidad de bases de datos estructuradas complejas ni investigaciones manuales exhaustivas.
Los resultados son contundentes. La tasa de usuarios correctamente identificados alcanzó hasta el 68 %, mientras que la precisión llegó al 90 %. A diferencia de métodos clásicos de desanonimización, que dependían de conjuntos de datos cuidadosamente estructurados, los LLM pueden partir simplemente de texto libre (por ejemplo, publicaciones o entrevistas anonimizadas) y reconstruir posibles identidades navegando e interactuando con la web de forma similar a un humano.
En uno de los experimentos, los investigadores vincularon publicaciones de Hacker News con perfiles de LinkedIn, eliminando referencias directas antes de ejecutar el modelo. En otro caso, analizaron respuestas a cuestionarios de uso de IA y lograron identificar positivamente al 7 % de los participantes. Aunque esa cifra pueda parecer baja, demuestra que incluso información general puede convertirse en una huella identificable cuando es procesada por sistemas avanzados de IA.
El análisis más revelador se centró en usuarios de Reddit que comentaban sobre cine en comunidades, particularmente en el subreddit r/movies. Los resultados mostraron que cuantos más datos compartía una persona (por ejemplo, películas comentadas) mayor era la probabilidad de identificarla con alta precisión. Con más de diez películas en común, la tasa de identificación alcanzó el 48,1 % con 90 % de precisión y 17 % con 99 % de precisión. En paralelo, los LLM superaron ampliamente a los métodos clásicos, manteniendo niveles de precisión estables incluso al aumentar el número de intentos.
Los investigadores advierten que este avance tiene implicaciones profundas: gobiernos podrían identificar críticos anónimos, empresas podrían crear perfiles para publicidad hipersegmentada y ciberdelincuentes podrían perfeccionar campañas de ingeniería social personalizadas. Como posibles mitigaciones, proponen que las plataformas limiten el acceso masivo a datos y detecten scraping automatizado, mientras que los proveedores de IA implementen barreras para evitar usos destinados a la desanonimización.
Los LLM no solo están transformando la ciberseguridad ofensiva, también están redefiniendo los límites de la privacidad digital. Si su capacidad para identificar personas a partir de fragmentos dispersos de información continúa mejorando, el concepto de seudonimato tal como lo conocemos hoy, podría desaparecer.


