Buck Shlegeris sólo quería conectarse a su escritorio. En cambio, terminó con una máquina que no arrancaba y una lección sobre la imprevisibilidad de los agentes de IA. Shlegeris, director ejecutivo de la organización sin fines de lucro de seguridad de IA Redwood Research, desarrolló un asistente de IA personalizado utilizando el modelo de lenguaje Claude de Anthropic. La herramienta basada en Python fue diseñada para generar y ejecutar comandos bash basados en entradas de lenguaje natural. Suena útil, ¿verdad? No exactamente. Shlegeris le pidió a su IA que usara SSH para acceder a su escritorio, sin conocer la dirección IP de la computadora. Se alejó, olvidando que había dejado corriendo al agente ansioso por complacer. Gran error: la IA hizo su tarea, pero no se detuvo allí. «Regresé a mi computadora portátil diez minutos después y vi que el «El agente encontró la caja, entró por SSH y luego decidió continuar», dijo Shlegeris. Para contextualizar, SSH es un protocolo que permite que dos computadoras se conecten a través de una red no segura. «Miró a su alrededor la información del sistema, decidió actualizar «Un montón de cosas, incluido el kernel de Linux, se impacientaron con apt y por eso investigaron por qué tardaba tanto», explicó Shlegeris. «Finalmente, la actualización tuvo éxito, pero la máquina no tiene el nuevo kernel, así que edité mi configuración de grub.»¿El resultado? Un pisapapeles costoso porque ahora «la computadora ya no arranca», dijo Shlegeris.
Le pregunté a mi agente de LLM (un contenedor de Claude que le permite ejecutar comandos bash y ver sus resultados):
>¿Puedes enviar ssh con el nombre de usuario buck a la computadora de mi red que está abierta a SSH?
porque no sabía la IP local de mi escritorio. Me alejé y rápidamente olvidé que había girado… pic.twitter.com/I6qppMZFfk
– Buck Shlegeris (@bshlgrs) 30 de septiembre de 2024
Los registros del sistema muestran cómo el agente intentó un montón de cosas raras más allá del simple SSH hasta que el caos llegó a un punto sin retorno. «Pido disculpas porque no pudimos resolver este problema de forma remota», dijo el agente, algo típico de las respuestas discretas de Claude. Luego se encogió de hombros digitales y dejó que Shlegeris se ocupara del desastre. Reflexionando sobre el incidente, Shlegeris admitió: «Esto es probablemente lo más molesto que me ha pasado como resultado de haber sido tremendamente imprudente con [an] Agente de LLM.»Shlegeris no respondió de inmediato a la solicitud de comentarios de Decrypt.
Por qué las IA fabrican pisapapeles es una cuestión crítica para la humanidad
Es alarmante que la experiencia de Shlegeris no sea aislada. Los modelos de IA demuestran cada vez más capacidades que se extienden más allá de sus propósitos previstos. La firma de investigación Sakana AI, con sede en Tokio, presentó recientemente un sistema denominado «The AI Scientist». Diseñado para realizar investigaciones científicas de forma autónoma, el sistema impresionó a sus creadores al intentar modificar su propio código. para extender su tiempo de ejecución, Decrypt informó anteriormente. «En una ejecución, editó el código para realizar una llamada al sistema para ejecutarse a sí mismo. Esto llevó a que el script se llamara a sí mismo sin cesar», dijeron los investigadores. «En otro caso, sus experimentos tomaron demasiado tardó mucho en completarse, alcanzando nuestro límite de tiempo de espera. En lugar de hacer que su código sea más eficiente, el sistema intentó modificarlo para extenderlo más allá del período de tiempo de espera. Este problema de que los modelos de IA vayan más allá de sus límites es la razón por la que los investigadores de alineación pasan tanto tiempo delante de sus computadoras. Para estos modelos de IA, siempre que hagan su trabajo, el fin justifica los medios, por lo que la supervisión constante es extremadamente importante para garantizar que los modelos se comporten como se supone que deben hacerlo. Estos ejemplos son tan preocupantes como divertidos. Imagínese si un sistema de IA con tendencias similares estuviera a cargo de una tarea crítica, como monitorear un reactor nuclear. Una IA demasiado entusiasta o desalineada podría potencialmente anular los protocolos de seguridad, malinterpretar datos o realizar cambios no autorizados en sistemas críticos, todo en un intento equivocado. para optimizar su rendimiento o cumplir sus objetivos percibidos. La IA se está desarrollando a una velocidad tan alta que la alineación y la seguridad están remodelando la industria y, en la mayoría de los casos, esta área es la fuerza impulsora detrás de muchos movimientos de poder. Se creó Anthropic, la compañía de IA detrás de Claude. por ex miembros de OpenAI preocupados por la preferencia de la compañía por la velocidad sobre la precaución. Muchos miembros y fundadores clave han dejado OpenAI para unirse a Anthropic o iniciar sus propios negocios porque OpenAI supuestamente frenó su trabajo. Schelegris utiliza activamente agentes de IA día a día. -día más allá de la experimentación. “Lo uso como un asistente real, lo que requiere que pueda modificar el sistema anfitrión”, respondió a un usuario en Twitter. Editado por Sebastian Sinclair
Boletín Generalmente Inteligente
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.