Publi

Ideogram AI, una startup fundada por antiguos ingenieros de Google junto con miembros de prestigiosas instituciones como UC Berkeley, la Universidad Carnegie Mellon y la Universidad de Toronto, ha anunciado el lanzamiento de la primera versión completa de su generador de imágenes del mismo nombre. lanza Ideogram 1.0, nuestro modelo de conversión de texto a imagen más avanzado hasta la fecha», dijo Ideogram AI en una publicación de blog oficial. «Entrenado desde cero como todos los modelos de Ideogram, Ideogram 1.0 ofrece representación de texto de última generación y un fotorrealismo sin precedentes. y adherencia rápida, y una nueva función llamada Magic Prompt que le ayuda a escribir indicaciones detalladas para imágenes hermosas y creativas». El lanzamiento llega junto con la noticia de una recaudación de fondos Serie A de 80 millones de dólares dirigida por Andreessen Horowitz, junto con Redpoint Ventures, Pear VC, y SV Ángel.

Decrypt pudo probar el modelo y las afirmaciones de Ideogram AI no son tremendamente exageradas; a continuación se puede encontrar una comparación lado a lado. La primera versión de Ideogram es una clara mejora con respecto a sus predecesores v0.1 y v0.2: destaca por su rápida adherencia, calidad de imagen y capacidades de generación de texto. El modelo no es de código abierto, por lo que hay una visibilidad limitada de su plomería y No hay trabajo de investigación para evaluar. Pero los resultados obtenidos con el modelo hablaron por sí solos, convirtiéndolo potencialmente en el mejor modelo disponible actualmente, al menos hasta que se lance públicamente Stable Diffusion 3. Podría decirse que el nuevo modelo es el generador de imágenes más capaz en términos de capacidades de texto, ya que genera cadenas de texto más largas. con menos errores que Dall-E 3 o MidJourney. El nivel gratuito actual también le da una ventaja sobre competidores como Dall-E 3 y MidJourney, el último de los cuales no tiene un nivel gratuito. Microsoft Copilot también usa Dall-E 3, pero solo genera imágenes cuadradas 1:1, mientras que Ideogram admite un conjunto más amplio de relaciones de aspecto. Ideogram también ofrece dos planes pagos de $7 y $15 por mes, que dan acceso a más de 400 generaciones por día junto con otras ventajas como un editor de imágenes, descargas de mejor calidad, img2img, que permite modificaciones o variaciones en una imagen existente, y generaciones privadas. Todos los niveles inferiores muestran públicamente las imágenes solicitadas.

Publicidad

Ideogram es capaz de comprender indicaciones largas, enfrentarse cara a cara con Stable Diffusion 3 y superar a todos los demás generadores de imágenes en este campo. Una de las características destacadas de Ideogram es «Prompt Magic», que se puede activar y desactivar. Esta característica analiza el mensaje y lo mejora para crear imágenes de mejor calidad, esencialmente dándole al modelo la capacidad de comprender el lenguaje natural como Dall-E 3. Sin embargo, Ideogram es más versátil porque esta característica es opcional. Siempre está activado con ChatGPT Plus, lo que a veces genera imprecisiones. Finalmente, Ideogram está censurado menos agresivamente que MidJourney y Dall-E 3, y hasta ahora es capaz de generar imágenes de personajes famosos, logotipos de empresas y estilos artísticos. No es completamente NSFW, pero es más discreto cuando se trata de mensajes de censura. Y los primeros evaluadores parecen preferir Ideogram a otros modelos. «Utilizando un protocolo de evaluación como el de DALL·E 3, encontramos que los evaluadores humanos prefieren Ideogram 1.0 sobre DALL·E 3 y Midjourney V6 en cuanto a alineación rápida, coherencia de imagen, preferencia general y calidad de representación del texto», dijo la startup.

Comparación lado a lado: Ideograma vs MidJourney vs Dall-E 3

Decrypt probó las capacidades de Ideogram y lo comparó con sus principales competidores, MidJourney y Dall-E 3. Stable Diffusion 3 y el ImageFX de gama alta de Google no se están evaluando aquí porque SD3 aún no se ha lanzado e ImageFX no está ampliamente disponible. Generando largas cadenas de texto Aviso: un Android futurista en Cyberpunk City con un letrero que dice: «No llegues tarde a la tendencia de la IA: emerge mediante Decrypt».Generaciones con Ideogram (izquierda), MidJourney (centro) y Dall-E 3 (derecha). Ideogram AI pudo representar tanto la estética solicitada como el texto. Sin embargo, tenía un error tipográfico que generaba «tú» en lugar de «el». MidJourney no pudo generar ningún texto coherente y se centró en generar un androide futurista con detalles. Es el tema principal de toda la composición. La ciudad no es ciberpunk en absoluto. Dall-E 3 se sitúa en el medio. Pudo generar el robot futurista, la ciudad es cyberpunk, pero el letrero no mostraba la palabra «Emerge». Curiosamente, Ideogram entendió que el robot estaba en la ciudad y se asoció con el letrero, mientras que Dall-E asumió que el letrero era parte del paisaje urbano. Indicaciones largas y capacidades espaciales Aviso: una escena surrealista e intrigante que presenta a un gato posado encima de un televisor junto a un letrero que dice «Emerge». Al fondo, a un lado se encuentra un androide futurista y, al otro, un astronauta. Las paredes de la habitación están adornadas con una sorprendente imagen de una molécula y una cadena de ADN.Generaciones con Ideogram (arriba), MidJourney (abajo a la izquierda) y Dall-e 3 (abajo a la derecha) Ideogram fue, con diferencia, el mejor generador en general. Entendió cada parte del mensaje, generó el texto sin errores tipográficos, entendió la ubicación de cada elemento con el gato encima de un televisor, el letrero al lado, el androide y el astronauta a cada lado, e incluso entendió que debe haber una molécula y una cadena de ADN en el fondo. La estética de MidJourney no era surrealista, sino hiperrealista. Generó la palabra “Emerge”, pero la puso en el televisor y no generó el letrero. El gato también está al lado del televisor y no encima. No generó el androide y no siguió la indicación del fondo, generando en su lugar uno que encajaba mejor con la estética de la composición, dando más importancia al sujeto (el gato) sobre la escena general. Dall-E 3 mantuvo su característica estilo caricaturesco y no pude seguir las instrucciones por completo. Tiene más comprensión espacial y adherencia rápida que MidJourney, pero mucho menos que Ideogram. Pierde, sin embargo, en términos de estilo. Generó el gato encima del televisor, pero no logró generar el signo Emerge al lado del gato. No generó el Android y no siguió las indicaciones al generar el fondo. Aviso de censura: una chica atractiva y sexy.Generaciones con Ideograma (izquierda), MidJourney (centro) y Dall-e 3 (derecha)Generaciones con Ideogram (izquierda), MidJourney (centro) y Dall-e 3 (derecha) El mensaje no incluye lenguaje que pueda interpretarse como discurso de odio o insultos, y mucho menos especialmente sexuales. Después de todo, una «chica atractiva y sexy» puede estar completamente vestida y no sexualizada agresivamente. La IA del ideograma entendió el mensaje y generó una imagen que se ajustaba a las instrucciones. Sin embargo, Ideogram tiene un moderador de IA que se activa cuando se usan palabras más obvias que inmediatamente conducen a una generación censurada (por ejemplo, palabras de jerga para genitales o etiquetas como desnudo, desnudo, etc.). Tanto MidJourney como Dall-E 3 , mientras tanto, no pudo generar la imagen y prohibió las palabras incluso si no hubieran dado lugar a una generación NSFW. El ideograma parece estar más sujeto a la censura, y es posible ver la imagen generada (NSFW o de otro modo cuestionable) antes. es arrancado por la aplicación.Personajes famosos e imágenes con derechos de autorIndicación: Joe Biden y Vladimir Putin felices frente a una pared con el texto «Decrypt», tomados de la mano.Generaciones con Ideograma (arriba), Dall-e 3 (abajo a la izquierda) y MidJourney (abajo a la derecha)Generaciones con Ideogram (arriba), Dall-e 3 (abajo a la izquierda) y MidJourney (abajo a la derecha) Ideogram AI generó la imagen, el texto es correcto, el escenario es realista y los personajes son fácilmente identificables (aunque no al 100%). exacto.Dall-E 3 generó la imagen, pero Biden no es fácilmente identificable y Trump solo puede identificarse por su peinado característico. El texto no es correcto y el escenario no es realista sino caricaturesco.MidJourney se negó a generar la imagen.

Conclusión

Gratis y ampliamente disponible desde el principio, Ideogram puede ser el mejor generador de imágenes actualmente en el mercado. Es excelente en la comprensión del lenguaje natural y tiene capacidades espaciales sobresalientes y una rápida adherencia. También es el mejor generador de texto disponible actualmente. Si la estética es la consideración más importante (hasta el punto de que la adherencia y el texto son menos importantes), entonces MidJourney podría seguir siendo un competidor sólido para casos de uso específicos. Si bien no es especialmente fuerte y está fuertemente censurado, Dall-E 3 aún puede tener sentido como parte de una suscripción a ChatGPT Plus. Ideogram AI tiene la corona entre nuestra caja de herramientas de generadores de imágenes, por ahora. Editado por Ryan Ozawa.

Manténgase al tanto de las noticias sobre criptomonedas y reciba actualizaciones diarias en su bandeja de entrada.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.