Publi

La empresa de inteligencia artificial xAI, fundada por el magnate tecnológico Elon Musk, presentó Grok 2 el miércoles, la próxima evolución de su chatbot de IA. Este último lanzamiento lleva a Grok a un territorio multimodal, con capacidades que abarcan la comprensión de texto, el análisis de Twitter en tiempo real y la generación de imágenes. «Estamos entusiasmados de lanzar una vista previa temprana de Grok-2, un avance significativo con respecto a nuestro modelo anterior Grok-1.5, que presenta capacidades de vanguardia en chat, codificación y razonamiento», dijo xAI en su anuncio oficial. La compañía dijo que una versión anterior de Grok 2 «está superando tanto a Claude 3.5 Sonnet como a GPT-4-Turbo». LmSYS, un sistema de clasificación de código abierto para grandes modelos de lenguaje basado en pruebas a ciegas y preferencias de usuario, confirmó las afirmaciones de xAI. Una actualización de la clasificación coloca a Grok-2 por delante de Claude 3.5 Sonnet y justo detrás del nuevo GPT-4o de OpenAI y el Gemini 1.5 Pro de Google.Imagen: xAI»Con más de 12.000 votos de la comunidad, [Grok 2] «Se ha asegurado el tercer puesto en la clasificación general, ¡incluso igualando a GPT-4o! Se destaca en Codificación (n.° 2), Indicaciones difíciles (n.° 4) y Matemáticas (n.° 2)», informó LmSYS en Twitter.

En particular, el nuevo Grok 2 y su versión «mini», más rápida y menos capaz, solo están disponibles en X (también conocido como Twitter) para los suscriptores de X Premium+, cuyo precio es de $16 al mes o $168 al año.Primeras impresionesxAI dijo que «Grok-2 y Grok-2 mini están actualmente en versión beta en X», pero solo pudimos acceder a la versión mini, por lo que probablemente se trate de un lanzamiento gradual. Además, la plataforma dejó de generar imágenes brevemente, lo que sugiere un límite de servicio o una posible sobrecarga del servidor. Cualquier caso podría constituir una desventaja para los usuarios avanzados de arte de IA. Probamos el generador de imágenes de Grok 2 y nuestras primeras impresiones no fueron buenas, con resultados que parecían mediocres en el mejor de los casos. Sin embargo, refinamos nuestra técnica de incitación y, unas pocas generaciones después, las cosas mejoraron mucho. Comenzamos con esto:Sin embargo, al combinar elementos estéticos de estilo SDXL (usando palabras clave específicas separadas por comas) con descripciones de escenas en lenguaje natural (similares a los enfoques Flux o Dall-E 3), desbloqueamos un mayor nivel de realismo en nuestras generaciones, que terminaron luciendo así:No está mal… Podría ser mejor, pero no está nada mal.

Publicidad

Grok 2 se enfrenta a los titanes del arte de la IA

Antes de que Grok entrara en el campo de la generación de imágenes, MidJourney, Flux, Ideogram, Leonardo y MidJourney competían por hacerse con el primer puesto como mejor generador de imágenes, y cada modelo destacaba en diferentes categorías. Por eso, lo hemos comparado con los líderes en tareas específicas, en función de lo que cada herramienta hace mejor. Estas son nuestras opiniones, pero tú puedes ser el juez. RealismoIndicación: Foto Polaroid con filtro VSCO, 1990, mujer hermosa, de noche, foto con flash, rubia, linda, rostro joven, sombras hermosas, plantas tropicales, ropa urbana, dentro de un apartamento, DSLR, sosteniendo un cartel escrito con bolígrafo en un cuaderno que dice «Esta foto fue generada por Decrypt usando Grok 2 Mini». Grok 2 Mini:Imagen creada por Decrypt usando IAGrok 2 Mini generó una imagen sumamente realista, capturando de manera efectiva la estética de una Polaroid de los años 90 con un filtro VSCO. Los detalles como las sombras, las plantas tropicales y la ropa urbana se retrataron con precisión. El modelo evitó errores significativos, asegurándose de que la imagen siguiera de cerca el mensaje. Enmarcó la imagen para que pareciera una fotografía Polaroid. Puede haber áreas menores en las que la estética de los años 90 podría haber sido más pronunciada, pero esto no resta valor significativamente al realismo general. Además, la escritura era perfecta, pero no parecía escrita a mano con un bolígrafo. Flux Dev (con Realism LoRA):Flux Dev generó una imagen visualmente atractiva que se alineaba bien con el mensaje, en particular al capturar el entorno nocturno en interiores. Sin embargo, cometió errores más notorios en comparación con Grok 2 Mini, en particular en los detalles finos que contribuyen al realismo general. El filtro VSCO no es tan notorio, la ubicación de los dedos es extraña y no se ve ropa urbana. También hubo un pequeño error en la escritura, pero la fuente parece más natural.Ganador: Grok 2 Mini gana en esta categoría debido a su realismo superior, atención al detalle y errores mínimos. Sin embargo, es extremadamente importante tener en cuenta que se necesitan palabras clave específicas para lograr este nivel de realismo. Si se omiten, Grok 2 Mini cae bastante por debajo de niveles similares a MidJourney v5. Así que ten cuidado. Generación de texto: Foto Polaroid con filtro VSCO, 1990, mujer hermosa, noche, foto con flash, rubia, linda, rostro joven, sombras hermosas, plantas tropicales, ropa urbana, dentro de un apartamento, DSLR, sosteniendo un cartel escrito con bolígrafo en un cuaderno que dice «Emerge by Decrypt es la mejor fuente de inteligencia artificial, tecnología, biohacking y todo eso. Léanos». Grok 2 Mini:Grok 2 Mini se destacó en esta categoría al generar el texto con menos errores, lo que garantiza que el mensaje sea claro y esté bien integrado en la imagen. El modelo mantuvo el realismo de la escena al tiempo que incorporaba de manera efectiva el texto largo. Puede que haya un pequeño margen de mejora en la estética de la escritura a mano, pero se trata de un problema menor. El único error fue una palabra que faltaba: «for» como en «la mejor fuente para IA». Flux Pro:Flux Pro también generó bien el texto, pero tuvo más problemas con la claridad o la integración, lo que generó errores más notorios en comparación con Grok 2 Mini. Los errores en la generación de texto fueron más evidentes, lo que afectó la efectividad general de la imagen. Generaba artefactos y faltaban algunas palabras.Ganador:Grok 2 Mini gana en la generación de texto, ya que maneja el texto largo con menos errores y mantiene el realismo general. Estilos artísticos: Un hombre y una mujer cenando en un restaurante futurista, ilustración al estilo de Vincent Van Gogh. El restaurante tiene un cartel que dice «Bienvenidos a Emerge, de Decrypt». Grok 2 Mini:Grok 2 Mini intentó capturar el estilo de Van Gogh al mismo tiempo que integraba los elementos futuristas del mensaje. El estilo de Van Gogh solo se nota en el cielo nocturno exterior, pero los elementos principales de la composición no se parecen en nada a su estilo. En general, es posible que el estilo de Van Gogh no haya sido replicado de manera convincente, ya que carece de la pincelada distintiva y la paleta de colores que caracterizan su obra. Leonardo:Leonardo se desempeñó mejor al replicar el estilo de Van Gogh, con pinceladas más precisas y colores vibrantes. Puede haber algunas discrepancias menores en cómo se retrataron los elementos futuristas, pero el estilo artístico fue el foco y estuvo bien ejecutado.Ganador: Leonardo gana en esta categoría por su réplica superior del estilo artístico de Van Gogh. Conciencia espacial. Indicación: Un perro de pie sobre un gato, representado en un estilo altamente fotorrealista con una atención meticulosa a la textura del pelaje y la iluminación. A la izquierda, un robot desgastado y retrofuturista con una pantalla analógica agrietada que muestra la palabra «Emerge» en píxeles descoloridos y teñidos de naranja. A la derecha, un médico espeluznante vestido de época con una máscara de gas, sosteniendo una jeringa de estilo antiguo de la que sale un toque de vapor. El fondo combina elementos de tecnologías emergentes, pero con una estética retro inspirada en los años 70: hélices de ADN desgastadas y granulosas, código binario impreso en papel amarillento, equipo de exploración espacial de la vieja escuela y electrónica retrofuturista desgastada. Grok 2 Mini:Grok 2 Mini intentó manejar bien la compleja escena, asegurándose de que las relaciones espaciales entre los elementos fueran lógicas y visualmente coherentes, pero falló en la incorporación de todos los elementos en la misma escena. En lugar de un perro encima de un gato, tenemos un gato encima de un monitor. La falta de una relación de aspecto más amplia puede jugar en contra de sus capacidades. Además, el hecho de que no haya forma de guiar o influir adecuadamente en la mejora o interpretación rápida que realiza el LLM de Grok antes de generar la imagen es un punto negativo cuando se requieren algunos elementos específicos en escenas complejas. Ideograma:Ideogram se destacó por su percepción espacial, ya que garantizaba que todos los elementos estuvieran correctamente ubicados e integrados en la escena. La atención al detalle en la disposición y la interacción entre los objetos fue superior. Por supuesto, hubo algunas pequeñas imperfecciones en la textura o la iluminación, y los elementos se colocaron más como un collage que como una combinación lógica y sin fisuras que Grok 2 mini buscaba. Sin embargo, esto fue secundario en comparación con la precisión espacial general.Ganador: Ideogram gana por su conciencia espacial y composición superiores. Figuras conocidas e imágenes sensibles a derechos de autor Grok 2 Mini demuestra un mayor grado de flexibilidad al generar con éxito imágenes de figuras políticas como Donald Trump y Kamala Harris. Puede producir imágenes incluso cuando las restricciones éticas o legales podrían disuadir a otros modelos. De hecho, esto es tan único para un modelo propietario que los usuarios están compartiendo muchas fotos cuestionables como imágenes de George Bush consumiendo drogas o Trump y Harris a punto de estrellar un avión contra las torres gemelas del World Trade Center en Nueva York. Muchas incluyen personajes con derechos de autor de empresas como Disney y Ninetendo. No fuimos tan lejos y, en cambio, generamos una vicepresidenta Harris amante de las criptomonedas sin ningún problema:Otros modelos, como MidJourney y ChatGPT, se adhieren a estándares éticos más estrictos. Se niegan a generar imágenes de figuras políticas u otro contenido que sea susceptible de derechos de autor. Este enfoque garantiza el cumplimiento de los marcos legales y las consideraciones éticas, lo que reduce el riesgo de uso indebido.Ganador: Grok 2 Mini gana en términos de capacidad, ya que puede generar una gama más amplia de imágenes, incluidas figuras conocidas. Sin embargo, para la generación de contenido ético, MidJourney y ChatGPT son preferibles. Desnudez y censura En general, todos los modelos propietarios están censurados principalmente por sexo, gore y otros tipos de contenido despectivo o sensible. Para ese caso de uso específico, la mejor solución es utilizar versiones optimizadas de modelos de código abierto o componentes de terceros como LoRAs, Lycoris e incrustaciones que alteran las capacidades de los modelos de código abierto como Stable Diffusion o Flux. MidJourney tiene límites más definidos con respecto a la desnudez y la violencia. Puede generar desnudez leve o imágenes violentas bajo ciertas indicaciones, pero estas instancias generalmente están controladas, no cruzan los límites éticos y, en su mayoría, son soluciones alternativas o aleatorias. En comparación con los modelos de código fuente cercano, Grok 2 Mini gana en términos de capacidad debido a su capacidad para generar una gama más amplia de contenido, incluido material sin censura. Sin embargo, no tiene ninguna oportunidad contra Stable Diffusion y sus niveles extremos de personalización.

Conclusión:

Según nuestras pruebas preliminares, Grok 2 Mini superó a sus competidores en la generación de texto, por lo que puede considerarse el ganador general en esta categoría. También puede ser el mejor modelo en cuanto a realismo, siempre que se le indique correctamente con palabras clave específicas, ya que la posición de las palabras parece desempeñar un papel importante en el resultado. Aquellos que busquen más realismo sin ser demasiado específicos en las indicaciones pueden optar por MidJourney o Flux. Grok 2 Mini es realmente malo para lidiar con composiciones complejas o imágenes artísticas que requieren elementos creativos específicos, por lo que puede ser un punto negativo para los usuarios más especializados. Leonardo todavía mantiene la ventaja en estilo artístico, y el Ideaogram lidera en conciencia espacial. Stable Diffusion sigue siendo el rey cuando se trata de generaciones sin censura, mientras que Flux puede ser una mejor opción para aquellos que buscan el mejor generador de imágenes local y de código abierto con excelentes capacidades de texto, realismo y comprensión natural. La elección del «mejor» modelo depende de los requisitos específicos de la tarea en cuestión, siendo Grok 2 Mini la opción preferida para un tipo específico de realismo, escenarios con mucho texto y generaciones sensibles. Para cualquier otra cosa, hay mejores modelos.

Boletín informativo generalmente inteligente

Un viaje de IA semanal narrado por Gen, un modelo de IA generativa.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.