Ha sido una buena semana para la IA de código abierto. El miércoles, Meta anunció una actualización de su modelo de lenguaje grande de última generación, Llama 3.2, y no sólo habla: ve. Más intrigantes, algunas versiones puede caber en su teléfono inteligente sin perder calidad, lo que significa que podría tener interacciones, aplicaciones y personalizaciones locales privadas de IA sin enviar sus datos a servidores de terceros. Presentado el miércoles durante Meta Connect, Llama 3.2 viene en cuatro versiones, cada una con un impacto diferente. . Los contendientes de peso pesado (modelos de parámetros 11B y 90B) demuestran sus músculos con capacidades de procesamiento de imágenes y texto. Pueden abordar tareas complejas como analizar gráficos, subtitular imágenes e incluso señalar objetos en imágenes basándose en descripciones en lenguaje natural. Llama 3.2 llegó la misma semana que Molmo del Instituto Allen, que afirmó ser el mejor LLM de visión multimodal de código abierto en pruebas comparativas sintéticas, con un desempeño en nuestras pruebas a la par con GPT-4o, Claude 3.5 Sonnet y Reka Core. La compañía de Zuckerberg también presentó dos nuevos campeones de peso mosca. : un par de modelos de parámetros 1B y 3B diseñados para brindar eficiencia, velocidad y tareas limitadas pero repetitivas que no requieren demasiado cálculo. Estos pequeños modelos son maestros de texto multilingües con una habilidad especial para «llamar herramientas», lo que significa que pueden integrar mejor con herramientas de programación. A pesar de su diminuto tamaño, cuentan con una impresionante ventana de contexto de token de 128 KB, la misma que GPT4o y otros modelos potentes, lo que los hace ideales para resumir en el dispositivo, seguir instrucciones y reescribir tareas. El equipo de ingeniería de Meta realizó una seria gimnasia digital para lograr esto suceda. Primero, utilizaron poda estructurada para recortar los datos innecesarios de modelos más grandes, luego emplearon la destilación de conocimiento (transfiriendo conocimiento de modelos grandes a modelos más pequeños) para obtener inteligencia adicional. El resultado fue un conjunto de modelos compactos que superaron a sus competidores en su peso. clase, superando modelos como el Gemma 2 2.6B de Google y el Phi-2 2.7B de Microsoft en varios puntos de referencia.Meta también está trabajando arduamente para impulsar la IA en el dispositivo. Han forjado alianzas con los titanes del hardware Qualcomm, MediaTek y Arm para garantizar que Llama 3.2 funcione bien con los chips móviles desde el primer día. Los gigantes de la computación en la nube tampoco se quedan fuera: AWS, Google Cloud, Microsoft Azure y muchos otros ofrecen acceso instantáneo a los nuevos modelos en sus plataformas. Bajo el capó, las capacidades de visión de Llama 3.2 provienen de ajustes arquitectónicos inteligentes. . Los ingenieros de Meta incorporaron pesos adaptadores al modelo de lenguaje existente, creando un puente entre los codificadores de imágenes previamente entrenados y el núcleo de procesamiento de texto. En otras palabras, las capacidades de visión del modelo no se obtienen a expensas de su competencia en procesamiento de texto, por lo que los usuarios pueden esperar resultados de texto similares o mejores en comparación con Llama 3.1. La versión Llama 3.2 es de código abierto, al menos según los estándares de Meta. Meta está poniendo los modelos a disposición para su descarga en Llama.com y Hugging Face, así como a través de su extenso ecosistema de socios. Aquellos interesados en ejecutarlo en la nube pueden usar su propio Google Collab Notebook o usar Groq para interacciones basadas en texto, generando casi 5000 tokens en menos de 3 segundos.
montando la llama
Pusimos a prueba Llama 3.2, probando rápidamente sus capacidades en diversas tareas. En interacciones basadas en texto, el modelo funciona a la par con sus predecesores. Sin embargo, sus capacidades de codificación arrojaron resultados mixtos. Cuando se probó en la plataforma de Groq, Llama 3.2 generó con éxito código para juegos populares y programas simples. Sin embargo, el modelo 70B más pequeño tropezó cuando se le pidió que creara un código funcional para un juego personalizado que ideamos. El 90B, más potente, sin embargo, fue mucho más eficiente y generó un juego funcional en el primer intento.Puedes ver el código completo generado por Llama-3.2 y todos los demás modelos que probamos haciendo clic en este enlace. Identificación de estilos y elementos subjetivos en imágenes.
Llama 3.2 sobresale en la identificación de elementos subjetivos en imágenes. Cuando se le presentó una imagen futurista de estilo cyberpunk y se le preguntó si encajaba con la estética steampunk, la modelo identificó con precisión el estilo y sus elementos. Proporcionó una explicación satisfactoria, señalando que la imagen no se alineaba con el steampunk debido a la ausencia de elementos clave asociados con ese género.
Análisis de gráficos (y reconocimiento de imágenes SD)El análisis de gráficos es otro punto fuerte de Llama 3.2, aunque requiere imágenes de alta resolución para un rendimiento óptimo. Cuando ingresamos una captura de pantalla que contiene un gráfico, uno que otros modelos como Molmo o Reka podrían interpretar, las capacidades de visión de Llama fallaron. La modelo se disculpó y explicó que no podía leer las letras correctamente debido a la calidad de la imagen.
Identificación de texto en imagenSi bien Llama 3.2 tuvo problemas con el texto pequeño en nuestro gráfico, funcionó perfectamente al leer texto en imágenes más grandes. Le mostramos una diapositiva de presentación que presentaba a una persona y el modelo entendió con éxito el contexto, distinguiendo entre el nombre y el puesto de trabajo sin ningún error.
Veredicto En general, Llama 3.2 es una gran mejora con respecto a su generación anterior y es una gran adición a la industria de la IA de código abierto. Sus puntos fuertes están en la interpretación de imágenes y el reconocimiento de texto de gran tamaño, con algunas áreas de mejora potencial, particularmente en el procesamiento de imágenes de menor calidad y la realización de tareas de codificación complejas y personalizadas. La promesa de compatibilidad en el dispositivo también es buena para el futuro de las empresas privadas y privadas. Tareas locales de IA y es un gran contrapeso para cerrar ofertas como Gemini Nano y los modelos propietarios de Apple. Editado por Josh Quittner y Sebastian Sinclair
Boletín Generalmente Inteligente
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.