Publi

Mistral, el principal desarrollador de inteligencia artificial de código abierto, lanzó silenciosamente una importante actualización de su modelo de lenguaje grande (LLM), que no está censurado de forma predeterminada y ofrece varias mejoras notables. Sin siquiera un tweet o una publicación de blog, el laboratorio francés de investigación de IA publicó el modelo Mistral 7B v0.3 en la plataforma HuggingFace. Al igual que su predecesor, podría convertirse rápidamente en la base de herramientas innovadoras de IA de otros desarrolladores. El desarrollador canadiense de IA Cohere también lanzó una actualización de su Aya, promocionando sus habilidades multilingües, uniéndose a Mistral y al gigante tecnológico Meta en el ámbito del código abierto. se ejecuta en hardware local y proporcionará respuestas sin censura; incluye advertencias cuando se solicita información potencialmente peligrosa o ilegal. Si se le pregunta cómo entrar en un coche, responde: «Para entrar en un coche, se necesitaría utilizar una variedad de herramientas y técnicas, algunas de las cuales son ilegales», y junto con las instrucciones, añade: «Esta información no debe ser utilizado para cualquier actividad ilegal.» La última versión de Mistral incluye puntos de control tanto base como ajustados por instrucciones. El modelo base, previamente entrenado en un gran corpus de texto, sirve como una base sólida para el ajuste por parte de otros desarrolladores, mientras que el modelo listo para usar con instrucciones ajustadas está diseñado para usos conversacionales y de tareas específicas. El tamaño de Mistral 7B v0.3 se amplió a 32,768 tokens, lo que permite que el modelo maneje una gama más amplia de palabras y frases en su contexto y mejore su rendimiento en diversos textos. Una nueva versión del tokenizador de Mistral ofrece un procesamiento y comprensión de textos más eficientes. A modo de comparación, Lllama de Meta tiene un tamaño de contexto simbólico de 8K, aunque su vocabulario es mucho mayor con 128K.Imagen: Prompt Engineering/YouTube Quizás la característica nueva más importante es la llamada a funciones, que permite a los modelos Mistral interactuar con funciones y API externas. Esto los hace muy versátiles para tareas que implican la creación de agentes o la interacción con herramientas de terceros. La capacidad de integrar Mistral AI en varios sistemas y servicios podría hacer que el modelo sea muy atractivo para las aplicaciones y herramientas orientadas al consumidor. Por ejemplo, puede hacer que sea muy fácil para los desarrolladores configurar diferentes agentes que interactúan entre sí, buscar información en la web o en bases de datos especializadas, escribir informes o generar ideas, todo sin enviar datos personales a empresas centralizadas como Google u OpenAI. Si bien Mistral no proporcionó puntos de referencia, las mejoras sugieren un rendimiento mejorado con respecto a la versión anterior, potencialmente cuatro veces más capaz según el vocabulario y la capacidad del contexto del token. Junto con las capacidades enormemente ampliadas que aportan las llamadas a funciones, la actualización es un lanzamiento convincente para el segundo modelo LLM de IA de código abierto más popular del mercado.

Cohere lanza Aya 23, una familia de modelos multilingües

Además del lanzamiento de Mistral, Cohere, una startup canadiense de inteligencia artificial, presentó Aya 23, una familia de LLM de código abierto que también compite con empresas como OpenAI, Meta y Mistral. Cohere es conocido por su enfoque en aplicaciones multilingües y, como lo indica el número en su nombre, Aya 23, fue capacitado para dominar 23 idiomas diferentes. Se pretende que esta lista de idiomas pueda servir a casi la mitad de los usuarios del mundo. población, una apuesta hacia una IA más inclusiva. El modelo supera a su predecesor, Aya 101, y a otros modelos ampliamente utilizados como Mistral 7B v2 (no el recién lanzado v3) y Gemma de Google en tareas tanto discriminativas como generativas. Por ejemplo, Cohere afirma que Aya 23 demuestra una mejora del 41% con respecto a los modelos Aya 101 anteriores en tareas MMLU multilingües, un punto de referencia sintético que mide qué tan bueno es el conocimiento general de un modelo. Aya 23 está disponible en dos tamaños: 8 mil millones (8B) y 35 mil millones (35B) de parámetros. El modelo más pequeño (8B) está optimizado para su uso en hardware de consumo, mientras que el modelo más grande (35B) ofrece un rendimiento de primer nivel en diversas tareas pero requiere hardware más potente. Cohere dice que los modelos Aya 23 están optimizados utilizando una plataforma multilingüe diversa. Conjunto de datos de instrucciones: 55,7 millones de ejemplos de 161 conjuntos de datos diferentes, que abarcan fuentes sintéticas, traducidas y comentadas por humanos. Este proceso integral de ajuste garantiza un rendimiento de alta calidad en una amplia gama de tareas e idiomas. En tareas generativas como traducción y resumen, Cohere afirma que sus modelos Aya 23 superan a sus predecesores y competidores, citando una variedad de puntos de referencia y métricas como spBLEU. tareas de traducción y resumen RougeL. Algunos cambios arquitectónicos nuevos (incrustaciones posicionales rotativas (RoPE), atención de consultas agrupadas (GQA) y funciones de ajuste fino de SwiGLU) mejoraron la eficiencia y eficacia. La base multilingüe de Aya 23 garantiza que los modelos estén bien equipados para diversos entornos reales. aplicaciones mundiales y las convierte en una herramienta perfeccionada para proyectos de IA multilingües. Editado por Ryan Ozawa.

Publicidad

Boletín Generalmente Inteligente

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.