En las últimas semanas, investigadores de Google y Sakana dieron a conocer dos diseños de redes neuronales de vanguardia que podrían revolucionar la industria de la IA. Estas tecnologías tienen como objetivo desafiar el dominio de los transformadores, un tipo de red neuronal que conecta entradas y salidas según el contexto, el tecnología que ha definido la IA durante los últimos seis años. Los nuevos enfoques son los «Titanes» de Google y «Transformers Squared», que fue diseñado por Sakana, una startup de IA de Tokio conocida por utilizar la naturaleza como modelo para soluciones tecnológicas. De hecho, tanto Google como Sakana abordaron el problema de los transformadores estudiando el cerebro humano. Básicamente, sus transformadores utilizan diferentes etapas de memoria y activan diferentes módulos expertos de forma independiente, en lugar de involucrar a todo el modelo a la vez para cada problema. El resultado neto hace que los sistemas de IA sean más inteligentes, más rápidos y más versátiles que nunca sin hacerlos necesariamente más grandes o más. costoso de ejecutar. Por contexto, la arquitectura transformadora, la tecnología que le dio a ChatGPT la 'T' en su nombre, está diseñada para tareas de secuencia a secuencia, como modelado de lenguaje, traducción y procesamiento de imágenes. Los transformadores dependen de «mecanismos de atención», o herramientas para comprender la importancia de un concepto dependiendo de un contexto, para modelar dependencias entre tokens de entrada, lo que les permite procesar datos en paralelo en lugar de secuencialmente como las llamadas redes neuronales recurrentes, la tecnología dominante. en IA antes de que aparecieran los transformadores. Esta tecnología proporcionó a los modelos comprensión del contexto y marcó un antes y un después en el desarrollo de la IA. Sin embargo, a pesar de su notable éxito, los transformadores enfrentaron importantes desafíos en materia de escalabilidad y adaptabilidad. Para que los modelos sean más flexibles y versátiles, también deben ser más potentes. Entonces, una vez capacitados, no se pueden mejorar a menos que los desarrolladores elaboren un nuevo modelo o los usuarios confíen en herramientas de terceros. Es por eso que hoy en día, en la IA, «cuanto más grande, mejor» es una regla general. Pero esto puede cambiar pronto, gracias a Google y Sakana.
Titanes: una nueva arquitectura de memoria para una IA tonta
La arquitectura Titans de Google Research adopta un enfoque diferente para mejorar la adaptabilidad de la IA. En lugar de modificar la forma en que los modelos procesan la información, Titans se centra en cambiar la forma en que la almacenan y acceden a ella. La arquitectura introduce un módulo neuronal de memoria a largo plazo que aprende a memorizar en el momento de la prueba, de forma similar a cómo funciona la memoria humana. Actualmente, los modelos leen todo el mensaje y la salida, predicen un token, leen todo nuevamente, predicen el siguiente token, etc. hasta que encuentren la respuesta. Tienen una memoria a corto plazo increíble, pero apestan en memoria a largo plazo. Pídales que recuerden cosas fuera de su ventana de contexto, o información muy específica entre mucho ruido, y probablemente fallarán. Titanes, por otro lado, combina tres tipos de sistemas de memoria: memoria a corto plazo (similar a los transformadores tradicionales) , memoria a largo plazo (para almacenar contexto histórico) y memoria persistente (para conocimiento de tareas específicas). Este enfoque de múltiples niveles permite que el modelo maneje secuencias de más de 2 millones de tokens de longitud, mucho más allá de lo que los transformadores de corriente pueden procesar de manera eficiente.Imagen: Google Según el artículo de investigación, Titans muestra mejoras significativas en diversas tareas, incluido el modelado del lenguaje, el razonamiento de sentido común y la genómica. La arquitectura ha demostrado ser particularmente eficaz en tareas de «aguja en un pajar», donde necesita localizar información específica dentro de contextos muy largos. El sistema imita cómo el cerebro humano activa regiones específicas para diferentes tareas y reconfigura dinámicamente sus redes en función de las demandas cambiantes. En otras palabras, de manera similar a cómo las diferentes neuronas en su cerebro se especializan para distintas funciones y se activan en función de la tarea que están realizando, los titanes emulan esta idea al incorporar sistemas de memoria interconectados. Estos sistemas (memorias a corto plazo, a largo plazo y persistentes) trabajan juntos para almacenar, recuperar y procesar información dinámicamente en función de la tarea en cuestión.
Transformer Squared: la IA autoadaptable ya está aquí
Apenas dos semanas después del artículo de Google, un equipo de investigadores de Sakana AI y el Instituto de Ciencias de Tokio presentaron Transformer Squared, un marco que permite a los modelos de IA modificar su comportamiento en tiempo real según la tarea en cuestión. El sistema funciona ajustando selectivamente sólo los componentes singulares de sus matrices de peso durante la inferencia, lo que lo hace más eficiente que los métodos de ajuste fino tradicionales. Transformer Squared “emplea un mecanismo de dos pasos: primero, un sistema de despacho identifica las propiedades de la tarea y luego Los vectores 'expertos' específicos de la tarea, entrenados mediante el aprendizaje por refuerzo, se mezclan dinámicamente para obtener un comportamiento objetivo para el mensaje entrante», según el artículo de investigación. Sacrifica el tiempo de inferencia (piensa más) por la especialización (saber qué experiencia usar). aplicar).Imagen: Sakana AI Lo que hace que Transformer Squared sea particularmente innovador es su capacidad de adaptarse sin requerir un reentrenamiento extenso. El sistema utiliza lo que los investigadores llaman Singular Value Fine-tuning (SVF), que se centra en modificar sólo los componentes esenciales necesarios para una tarea específica. Este enfoque reduce significativamente las demandas computacionales al tiempo que mantiene o mejora el rendimiento en comparación con los métodos actuales. En las pruebas, Transformer de Sakana demostró una versatilidad notable en diferentes tareas y arquitecturas de modelos. El marco se mostró particularmente prometedor en el manejo de aplicaciones fuera de distribución, lo que sugiere que podría ayudar a que los sistemas de IA se vuelvan más flexibles y receptivos a situaciones novedosas. Aquí está nuestro intento de hacer una analogía. Tu cerebro forma nuevas conexiones neuronales cuando aprende una nueva habilidad sin tener que volver a cablear todo. Cuando aprendes a tocar el piano, por ejemplo, tu cerebro no necesita reescribir todo su conocimiento: adapta circuitos neuronales específicos para esa tarea mientras mantiene otras capacidades. La idea de Sakana era que los desarrolladores no necesitan volver a entrenar toda la red del modelo para adaptarse a nuevas tareas. En cambio, el modelo ajusta selectivamente componentes específicos (a través del ajuste de valor singular) para volverse más eficiente en tareas particulares mientras mantiene sus capacidades generales. En general, la era en la que las empresas de IA se jactaban del enorme tamaño de sus modelos pronto podría ser una reliquia del pasado. Si esta nueva generación de redes neuronales gana terreno, entonces los modelos futuros no necesitarán depender de escalas masivas para lograr una mayor versatilidad y rendimiento. Hoy en día, los transformadores dominan el panorama, a menudo complementados con herramientas externas como la generación aumentada de recuperación (RAG) o LoRA para mejorar sus capacidades. Pero en la veloz industria de la IA, solo se necesita una implementación innovadora para preparar el escenario para un cambio sísmico, y una vez que eso suceda, el resto del campo seguramente seguirá el mismo camino.Editado por Andrew Hayward
Boletín Generalmente Inteligente
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.