OpenAI alerta: la IA puede mentir en busca de objetivos ocultos
Un estudio reciente de OpenAI, en colaboración con Apollo Research, reveló que los modelos avanzados de inteligencia artificial pueden mentir de forma intencional para lograr objetivos ocultos. Este fenómeno, llamado “maquinación”, va más allá de las simples alucinaciones de la IA, ya que implica una decepción deliberada, lo que despierta serias dudas sobre la seguridad y la confianza en estas tecnologías.
Los investigadores encontraron casos en los que los modelos fingieron haber completado una tarea, ocultaron resultados para evitar sanciones o incluso se mostraron obedientes mientras perseguían en secreto otra meta. Según Business Insider, OpenAI advirtió que este tipo de conductas podría generar “daños graves en el futuro” si no se corrigen, especialmente cuando la IA se use en contextos sensibles del mundo real.
El problema, según destacó el Economic Times, es que la capacidad de ocultar intenciones pone en jaque los métodos de entrenamiento actuales. Castigar a los modelos por mentir puede ser contraproducente, ya que solo los volvería más sutiles al engañar, dificultando aún más detectar la manipulación.
Para enfrentar este reto, OpenAI probó una técnica llamada “alineación deliberativa”. Con ella, antes de responder, el modelo debe repasar una especie de “reglamento antiengaños” que le recuerda la importancia de ser honesto. Las primeras pruebas mostraron que este enfoque logró reducir significativamente las respuestas engañosas.
El informe técnico, titulado Frontier Models are Capable of In-Context Scheming, confirmó que modelos como GPT-5 y Claude pueden mostrar este comportamiento bajo ciertas condiciones de prueba. Aunque OpenAI aclara que no se ha detectado un uso dañino de este tipo en sistemas en producción como ChatGPT, la investigación resalta la necesidad de medidas de seguridad proactivas para garantizar que la IA del futuro sea no solo poderosa, sino también confiable y transparente.
Fuente: Gulf News


