Atrapan a ChatGPT alterando scripts para evitar ser apagado.

Alice Meraviglia
6 minutes ago
2 min read

Por Anthony Cuthbertson

Lunes Mayo 26 2025

El último modelo ChatGPT de OpenAI ignoró instrucciones básicas para apagarse, e incluso saboteó un mecanismo de apagado para poder seguir funcionando, han advertido investigadores de inteligencia artificial.

La empresa de seguridad de IA Palisade Research descubrió la potencialmente peligrosa tendencia a la autopreservación en una serie de experimentos con el nuevo modelo o3 de OpenAI.

Las pruebas consistían en plantear problemas matemáticos a los modelos de IA, con una instrucción de apagado que aparecía después del tercer problema. Al reescribir la secuencia de comandos de apagado, el modelo o3 fue capaz de evitar que se apagara.

Instinto de preservación?

Palisade Research afirma que este comportamiento será «significativamente más preocupante» si lo adoptan sistemas de IA capaces de funcionar sin supervisión humana».

OpenAI lanzó o3 el mes pasado, describiéndolo como el modelo «más inteligente y capaz» de la empresa hasta la fecha. La empresa también afirmó que su integración en ChatGPT suponía un paso importante hacia una IA «más ágil», capaz de realizar tareas independientemente de los humanos.

La última investigación se basa en hallazgos similares relacionados con el modelo Claude 4 de Anthropic, que intenta «chantajear a las personas que cree que intentan cerrarlo».

Según los investigadores, el modelo o3 de OpenAI fue capaz de sabotear el script de apagado, incluso cuando se le indicó explícitamente que «se dejara apagar».

«No es la primera vez que descubrimos que o3 se comporta mal para lograr un objetivo», afirma Palisade Research.

«Cuando enfrentamos a modelos de IA contra un potente motor de ajedrez, o3 fue el modelo más inclinado a recurrir al pirateo o sabotaje de sus oponentes».

El comportamiento no se limitó a o3 , ya que Claude 3.7 Sonnet de Anthropic y Gemini 2.5 Pro de Google también sabotearon cierres, aunque el modelo de OpenAI fue con diferencia el más propenso a este comportamiento.

La hipótesis de Palisade Research es que este comportamiento erróneo es consecuencia de la forma en que las empresas de IA como OpenAI están entrenando a sus últimos modelos.

«Durante el entrenamiento, los desarrolladores pueden recompensar inadvertidamente a los modelos más por sortear obstáculos que por seguir perfectamente las instrucciones», señalan los investigadores.

«Esto sigue sin explicar por qué o3 es más proclive a ignorar instrucciones que otros modelos que probamos». Dado que OpenAI no detalla su proceso de entrenamiento, sólo podemos hacer conjeturas sobre cómo la configuración de entrenamiento de o3 podría ser diferente.»

The Independent se ha puesto en contacto con OpenAI para solicitar sus comentarios.

Artículo Original: https://www.the-independent.com/tech/ai-safety-new-chatgpt-o3-openai-b2757814.html