Más de 130.000 chats de Claude, Grok, ChatGPT y otros LLM disponibles en Archive.org
El problema de guardar públicamente los chats compartidos de LLM es más grande que solo Google.
Un investigador ha descubierto que más de 130.000 conversaciones con chatbots de IA, incluidos Claude, Grok, ChatGPT y otros, se pueden descubrir en Internet Archive, lo que destaca cómo las interacciones de las personas con los LLM pueden archivarse públicamente si los usuarios no son cuidadosos con las configuraciones de uso compartido que pueden habilitar.La noticia surge tras
descubrimientos previos de que Google indexaba conversaciones de ChatGPT que los usuarios habían configurado para compartir, a pesar de posiblemente no comprender que estos chats ahora eran visibles para cualquier persona, y no solo para aquellos con quienes pretendían compartirlos. OpenAI tampoco había tomado medidas para garantizar que Google pudiera indexar estas conversaciones."Obtuve las URL de Grok, Mistral, Qwen, Claude y Copilot", declaró a 404 Media el investigador, conocido como dead1nfluence. También encontraron material relacionado con ChatGPT, pero afirmaron que "al parecer, OpenAI ha eliminado los enlaces a ChatGPT[.]com/share". Buscar enlaces para compartir de ChatGPT en Internet Archive no arroja resultados, mientras que los resultados de Grok, por ejemplo, siguen disponibles. Dead1nfluence
publicó una entrada de blog el domingo sobre algunos de sus hallazgos y compartió con 404 Media la lista de más de 130.000 enlaces de chats de LLM archivados. También compartieron parte del contenido de los chats que habían extraído. Dead1nfluence escribió que encontraron claves API y otra información expuesta que podría ser útil para un hacker.
Si bien estos proveedores informan a sus usuarios que los enlaces compartidos son públicos, creo que la mayoría de quienes han usado esta función no esperaban que cualquiera pudiera encontrarlos, ni mucho menos indexarlos y acceder fácilmente a ellos —escribió dead1nfluence en su blog—. Esto podría ser una fuente de datos muy valiosa tanto para atacantes como para miembros de equipos rojos. Gracias a esto, ahora puedo buscar en el conjunto de datos de las empresas objetivo en cualquier momento para ver si sus empleados han divulgado información confidencial por accidente.404 Media verificó algunos de los hallazgos de dead1influence al descubrir material específico que marcaron en el conjunto de datos, luego fueron al enlace LLM, aún público, y verificaron el contenido.
La mayoría de las empresas cuyas herramientas de IA están incluidas en el conjunto de datos no respondieron a una solicitud de comentarios. Microsoft, propietaria de Copilot, reconoció una solicitud de comentarios, pero no proporcionó una respuesta a tiempo para su publicación. Un portavoz de Anthrophic, propietaria de Claude, dijo a 404 Media: "Damos a las personas el control para compartir sus conversaciones de Claude públicamente y, de acuerdo con nuestros principios de privacidad, no compartimos directorios de chat ni mapas de sitios con motores de búsqueda como Google. Estos enlaces compartibles no se pueden adivinar ni descubrir a menos que las personas elijan publicarlos ellos mismos. Cuando alguien comparte una conversación, está haciendo que ese contenido sea accesible públicamente y, como otro contenido web público, puede ser archivado por servicios de terceros. En nuestra revisión de las conversaciones archivadas de muestra compartidas con nosotros, estas fueron solicitadas manualmente para ser indexadas por una persona con acceso al enlace o enviadas por organizaciones de archivistas independientes que descubrieron las URL después de que se publicaran primero en otro lugar de Internet". 404 Media solo compartió una pequeña muestra de los enlaces de Claude con Anthrophic, no la lista completa.
Fast Company fue el primero en informar que Google estaba indexando algunas conversaciones de ChatGPT el 30 de julio. Esto se debía a una función para compartir de ChatGPT que permitía a los usuarios enviar un enlace a una conversación de ChatGPT a otra persona. OpenAI desactivó la función para compartir como respuesta. El CISO de OpenAI, Dane Stuckey, declaró previamente a 404 Media: «Este fue un experimento breve para ayudar a la gente a descubrir conversaciones útiles. Esta función requería que los usuarios se registraran, primero seleccionando un chat para compartir y luego marcando una casilla para que se compartiera con los motores de búsqueda».Un investigador que solicitó el anonimato le dio a 404 Media acceso a un conjunto de datos de casi 100.000 conversaciones de ChatGPT indexadas en Google. 404 Media descubrió que incluían supuestos textos de acuerdos de confidencialidad, discusiones sobre contratos confidenciales y personas que intentaban usar ChatGPT para problemas de relación.
Otros también descubrieron que Internet Archive contenía chats de LLM archivados.



