Publi


El panorama generativo de la IA se ha transformado en un campo de batalla de alto riesgo en 2024, con un ejército de advenedizos asaltando el castillo que alguna vez estuvo gobernado por OpenAI. Todos y su abuela, experta en tecnología, parecen estar compitiendo por una porción del pastel de la IA, cocinando el lenguaje. modelos, IA agentes, generadores de imágenes e incluso una o dos monedas de memes de IA. Los puntos de referencia están cambiando más rápido que nuestra capacidad humana para mantenerse al día. Apenas pasa una semana sin que algún juguete nuevo y brillante llegue al mercado: un LLM actualizado aquí, un generador de imágenes turboalimentado allá o una IA de próxima generación que muestra alguna técnica de entrenamiento exótica. Pero aquí en Decrypt, nos hemos arremangado y Los probamos todos. Hemos pateado los neumáticos, presionado los botones y profundizado en el funcionamiento interno y los resultados proporcionados por los modelos de IA más populares, y algunos que no son tan conocidos. Ahora que está claro que OpenAI es no es el Como único sheriff de la ciudad, hemos compilado una lista de lo mejor de lo mejor: los modelos de IA generativa que nos han cautivado, desconcertado y ocasionalmente nos han hecho escupir el café.

Chatbots

Un chatbot es un programa informático diseñado para simular una conversación con usuarios humanos. Utiliza procesamiento de lenguaje natural e inteligencia artificial para comprender las entradas del usuario y generar respuestas adecuadas. Por lo general, la gente confunde los chatbots con LLM o grandes modelos de lenguaje. Hoy en día, los chatbots son un poco más complejos, con capacidades que se extienden más allá de la generación de texto. Ahora pueden navegar por la web, generar y comprender imágenes, hablar con el usuario, etc. Aquí está nuestra lista de los mejores chatbots que deberías probar:Medalla de oro: ChatGPT de OpenAIChatGPT ofrece una amplia gama de funciones por $20 al mes, incluida la creación de agentes personalizados con lenguaje natural, una interfaz limpia, búsqueda web y múltiples modelos (razonamiento, escritura, visión, voz y generación de imágenes).Medalla de plata: Claude, de Anthropic, un superior. LLM con una interfaz de usuario intuitiva que presenta artefactos de pantalla dividida para razonamiento y generación de código, Claude admite contexto de millones de tokens y agentes personalizados. Sin embargo, carece de búsqueda web y generación de imágenes y, a menudo, enfrenta problemas de capacidad, lo que obliga a los usuarios a cambiar a un modelo más débil o generar respuestas más breves y “concisas”. Por eso no puede ser el mejor todavía.Medalla de bronce: LeChat de Mistral AIEsta plataforma gratuita funciona con Mistral Large, que ofrece generación de imágenes Flux de primer nivel y búsqueda web superior; la mejor, en nuestra opinión, incluso superando a SearchGPT. Admite la comprensión de documentos/imágenes y agentes de inteligencia artificial de código abierto, aunque la calidad del texto va por detrás de la competencia. Sin embargo, Mistral Large LLM no es tan sólido como sus competidores, lo que lo hace ideal para usuarios avanzados que desean cambiar la calidad del texto por funciones.Menciones Honoríficas: Meta AI, Gemini (del estudio de IA de Google, no del sitio principal), Hugging Chat, Reka, Grok-2

Publicidad

Grandes modelos de lenguaje

Un modelo de lenguaje grande o LLM es un sistema de inteligencia artificial entrenado con grandes cantidades de datos de texto para comprender y generar un lenguaje similar al humano. Puedes verlo como un autocompletado glorificado. Están diseñados para predecir cuál es el token más probable (piense en palabras, aunque es una comparación inexacta) en un grupo. El resultado es un texto natural que se siente humano porque, bueno, se parece a lo que harían los humanos. Aquí está nuestra lista de los mejores LLM hasta la fecha:Mejor generalista: GPT-4o de OpenAIEquilibra la escritura creativa, la codificación y el razonamiento con una función «Lienzo» personalizable, aunque su estilo puede parecer predecible. La última versión (del 20 de noviembre) también logró el primer puesto en el LLM Arena con una puntuación ELO de 1366, superando a una versión experimental de Google Gemini lanzada el 21 de noviembre.Lo mejor para escribir: Claude 3.5 Sonnet de Anthropic Iguala o supera el GPT-4o en muchas áreas con una producción más creativa y similar a la humana, aunque es propenso a sufrir alucinaciones.Lo mejor para contar historias: LongwriterGenera historias de más de 10.000 palabras en cuestión de minutos. ¿Necesitamos decir más?Más versátil: Meta's Llama-3.1El modelo líder de código abierto con amplia personalización, creación de LoRA y opciones de ajuste, disponible en tamaños que van desde 7 mil millones a 405 mil millones de parámetros para que los usuarios puedan ejecutarlo en sus máquinas locales o servidores en la nube según sus necesidades. Nvidia desarrolló una versión personalizada llamada «Nemotron», que causó sensación en la comunidad y vale la pena echarle un vistazo.La mayor decepción: Reflection Llama-3.1 70BAnunciado con grandes expectativas, el modelo afirmó vencer al GPT-4o gracias a su Cadena de Pensamiento integrada. Terminó siendo un gran fiasco con puntos de referencia falsos, llamadas API ocultas a Claude AI y una gran controversia.

Generadores de imágenes

Un generador de imágenes es esencialmente un modelo que obtiene una entrada de texto y proporciona una salida asociada con esa entrada de texto. Entonces, por ejemplo, dices “Caballo verde con cara de dragón” y el modelo generará una foto de un caballo verde con cara de dragón. También puedes ingresar algo como «waifu tetona», pero no es para eso. Estos son algunos de los mejores generadores de imágenes disponibles actualmente.Mejor generalista: FlujoFlux domina la última generación de modelos de IA con una personalización sustancial, compatibilidad con LoRA/ControlNet y capacidades de generación de texto. Requiere hardware potente, pero muestra un estilo característico con bokeh extremo y detalles de piel floja que los usuarios aún están tratando de abordar. Viene en tres versiones: Pro (código cerrado, el modelo más potente), Dev (licencia no comercial) y Schnell (una versión destilada de código abierto). Los tres ofrecen excelentes capacidades de generación de imágenes y el techo aumentará si se consideran ajustes finos.Lo mejor para el realismo: Recraft v3Ofrece un realismo inigualable, ofrece ajustes preestablecidos versátiles y un mejor valor que las alternativas patentadas como MidJourney. Tiene un nivel gratuito que ofrece la misma calidad, aunque Recraft posee generaciones.Lo mejor para el anime: MidJourney NijiCalidad inigualable para imágenes de estilo anime; un ajuste fino de Difusión estable es una opción secundaria.Más versátil: Difusión estable 3.5Stable Diffusion 3.5 es una mejora importante con respecto a SD3 con mejores licencias, resultados detallados y soporte para complementos. Es más eficiente en cuanto a recursos que Flux para realizar ajustes y es un modelo completo, a diferencia de Flux Schnell, que es una versión destilada. lo que lo convierte en la mejor opción para modelos personalizados. Sin embargo, salió un poco tarde y se ha visto eclipsado por la popularidad de Flux.Mayor decepción: SD 3 MedioTodo el mundo esperaba que este nuevo modelo fuera el nuevo rey de los generadores de imágenes, superando al SDXL y a todos los demás modelos. Terminó siendo un modelo pobre, famoso por su horrible licencia y sus espantosas aberraciones al intentar generar personas sobre el césped.

Generadores de vídeo

Los generadores de vídeo llevan la generación de imágenes un paso más allá. Generan cada cuadro y lo utilizan como entrada para generar el siguiente con consistencia de imagen y alta adherencia a las indicaciones. Esto todavía es un trabajo en progreso y los modelos solo pueden generar unos pocos segundos de video. A continuación se muestra una lista de algunos de los mejores que puede probar.Mejor generalista: KlingMejorando rápidamente el modelo chino, superando a Sora en algunos casos. Admite el entrenamiento de modelos faciales y genera constantemente escenas de alta calidad que muestran una gran versatilidad en términos de estilos, realismo y movimiento de cámara.Mejor contendiente: Runway Gen 3Aplicación de vídeo generativo pionera con un sólido conocimiento del entorno, pero que tiene problemas con escenas de ritmo rápido.Lo mejor para contar historias: ShowRunnerNo podemos contarte mucho sobre este. Sin embargo, en pruebas confidenciales, ha demostrado un inmenso potencial.Mejor código abierto: Genmo Mochi 1Es un gran lanzamiento que supera a competidores como Rhymes Allegro y Stable Video Diffusion con un realismo superior y consistencia de fotogramas.La mayor decepción: OpenAI SoraAnunciado con grandes expectativas como un “modelo mundial” revolucionario más allá de cualquier generación de video, sigue sin estar disponible hoy en día debido a resultados filtrados decepcionantes.Mención de honor: Google VeoVeo de Google se lanzó el 3 de diciembre. No lo hemos probado, pero las generaciones compartidas por Google se ven bastante bien. Por supuesto, estamos en la lista de espera para probar el modelo y usted será el primero en conocer nuestra opinión tan pronto como tengamos acceso.

Generadores de música

Al igual que los generadores de vídeo, los generadores de música crean canciones. Sin embargo, es diferente de los generadores de audio, ya que las salidas están más especializadas en salidas melódicas que no son ruido, voces simples o efectos de audio. Los usuarios pueden confiar en un LLM separado para generar la letra de una canción o ingresar la letra manualmente y configurarla. algunos parámetros, como el estilo de la canción, y luego el modelo generará música relevante desde cero. Estos son los dos mejores, además de una alternativa de código abierto.Mejor generalista: Suno v4Sobresale en voces y letras, diversidad de estilos y consistencia en las versiones largas. Su predecesor, Suno v3.5, no es gratuito pero sigue siendo una alternativa sólida.Mejor contendiente: UdioEl mayor rival de Suno. Ofrece una precisión de composición impresionante, casi rivalizando con Suno v4 en voces. Algunas generaciones superan a Suno v3 en estilo subjetivo.Mejor código abierto: Stable Audio 2La escena del código abierto no está haciendo mucho en esta área. Stable Audio 2 parece ser el mejor modelo, pero va por detrás de sus competidores de código cerrado en todos los campos. AudioCraft y MusicGen de Meta son alternativas, pero están lejos de ser líderes en la industria. Los perfeccionadores no han prestado atención y, por lo general, son las personas detrás de la guinda que hace que los modelos de código abierto sean tan geniales. Editado por Andrew Hayward

Boletín Generalmente Inteligente

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.