¿Estás listo para difuminar la línea entre la realidad y el arte generado por IA? Si sigues el espacio de la IA generativa, y la generación de imágenes en particular, probablemente estés familiarizado con Stable Diffusion. Esta plataforma de inteligencia artificial de código abierto ha iniciado una revolución creativa, permitiendo a artistas y entusiastas explorar los reinos de la creatividad humana, todo en sus propias computadoras, de forma gratuita. Con cualquier simple indicación, puedes obtener un paisaje pintoresco, una ilustración de fantasía, una criatura 3D o una caricatura. Pero las verdaderas capacidades sorprendentes están en la capacidad de estas herramientas para crear imágenes sorprendentemente realistas. Sin embargo, hacerlo requiere cierta delicadeza y cierta atención al detalle de la que a veces carecen los modelos generalistas. Algunos usuarios ávidos pueden saber rápidamente cuándo se genera una imagen con MidJourney o Dall-e con solo mirarla. Pero cuando se trata de crear imágenes que engañan al cerebro humano, la versatilidad de Stable Diffusion es insuperable. Desde el manejo meticuloso del color y la composición hasta la asombrosa capacidad de transmitir emociones y expresiones humanas, algunos modelos personalizados están redefiniendo lo que es posible en el mundo de la generación. AI. Aquí hay algunos modelos especializados que creemos que son la crème de la crème de la generación de imágenes hiperrealistas con Difusión Estable. Usamos el mismo mensaje con todos nuestros modelos y evitamos el uso de LoRas (modificadores complementarios de adaptación de bajo rango) para ser más justo en nuestras comparaciones. Nuestros resultados se basaron en indicaciones e incrustaciones de texto. También utilizamos cambios incrementales para probar pequeñas variaciones en nuestras generaciones.
Las sugerencias
Nuestro mensaje positivo fue: foto profesional, retrato en primer plano de un hombre caucásico, vestido con un suéter negro, rostro serio, iluminación dramática, naturaleza, clima sombrío y nublado, bokeh. Nuestro mensaje negativo (instruyendo a Stable Diffusion sobre qué no generar) fue: incrustar: BadDream, incrustación: UnrealisticDream, incrustación: FastNegativeV2, incrustación: JuggernautNegative-neg, (iris deformado, pupilas deformadas, semi-realista, cgi, 3d, renderizado, boceto, caricatura, dibujo, anime:1.4), texto, recortado, fuera de marco, peor calidad, baja calidad, artefactos jpeg, feo, duplicado, mórbido, mutilado, dedos extra, manos mutadas, manos mal dibujadas, cara mal dibujada, mutación, deformado, borroso, deshidratado, mala anatomía, malas proporciones, extremidades extra, cara clonada, desfigurada, proporciones gruesas, extremidades malformadas, brazos faltantes, piernas faltantes, brazos extra, piernas extra, dedos fusionados, demasiados dedos, cuello largo, incrustación:negative_hand-neg. Todos los recursos utilizados se enumerarán al final de este artículo.
Stable Diffusion 1.5: el veterano de la IA que envejece con gracia
Stable Diffusion 1.5 es como un viejo y bueno auto americano que venció a autos más elegantes y de último modelo en una carrera de resistencia. Los desarrolladores han estado jugando con SD1.5 durante tanto tiempo que efectivamente enterraron Stable Diffusion 2.1 en el suelo. De hecho, hoy en día muchos usuarios todavía prefieren esta versión a la SDXL, que es dos generaciones más nueva. Cuando se trata de crear imágenes que son prácticamente indistinguibles de las fotos de la vida real, estos modelos son tus nuevos mejores amigos.1. Gigante RbornJuggernaut Rborn es uno de los modelos favoritos de los fanáticos, conocido por su composición de color realista y su impresionante capacidad para diferenciar entre sujetos y fondos. Este modelo es particularmente bueno para generar detalles de piel, cabello y efectos bokeh de alta calidad en retratos. La última versión se ha perfeccionado para ofrecer resultados aún más atractivos. Juggernaut siempre ha ofrecido composiciones de color que tienden a ser más realistas que los colores saturados y poco naturales de muchos otros modelos de Stable Diffusion. Sus generaciones tienden a ser más cálidas, más descoloridas, similares a una foto RAW sin editar. Obtener los mejores resultados aún requerirá algunos ajustes: use el muestreador DPM++ 2M Karras, configurado en alrededor de 35 pasos y una escala CFG promedio de 7,2. Visión realista v5.1
Realista Vision v5.1, un verdadero pionero en el ámbito de la generación de imágenes fotorrealistas, marcó un momento crucial en la evolución de Stable Diffusion, permitiéndole competir con MidJourney y cualquier otro modelo en términos de fotorrealismo. La iteración v5.1 destaca por capturar expresiones faciales e imperfecciones, lo que la convierte en la mejor opción para los entusiastas de los retratos. También maneja bien las emociones y se centra más en el sujeto que en el fondo, asegurando que el resultado final sea siempre realista. Este modelo es una opción popular gracias a su impresionante rendimiento y versatilidad. Hay una versión más nueva (v6.0), pero nos gusta más la V5.1 porque creemos que es aún mejor en los pequeños detalles que importan en las imágenes realistas. Cosas como la piel, el cabello o las uñas tienden a ser más convincentes en 5.1, pero aparte de eso, los resultados son similares y las mejoras parecen incrementales.3. No puedo creer que no sea fotografía
Con su versatilidad e impresionantes efectos de iluminación, el modelo descaradamente llamado No puedo creer que no sea fotografía es una excelente opción versátil para la generación de imágenes hiperrealistas. Es muy creativo, maneja bien diferentes ángulos y puede usarse para una variedad de sujetos, no solo personas. Este modelo es particularmente bueno con una resolución de 640×960, que es más alta que la SD1.5 original, pero también puede ofrecer excelentes resultados con 768×1152. que es un nivel de resolución nativo de SDXL. Para obtener resultados óptimos, utilice el muestreador DPM++ 3M SDE Karras o DPM++ 2M Karras, 20-30 pasos y una escala CFG de 2,5-5 (que es más baja de lo habitual).Menciones de honor:
Fotón V1: Este modelo versátil destaca por producir resultados realistas para una amplia gama de sujetos, incluidas personas.
Realista Colección de foto: Si desea generar personas con el aspecto pulido y perfeccionado de las fotografías de archivo, este modelo es una excelente opción. Crea imágenes convincentes y precisas sin imperfecciones de la piel.Fotorreal aZovya: Aunque no es tan conocido, este modelo produce resultados impresionantes y puede mejorar el rendimiento de otros modelos cuando se combina con sus recetas de entrenamiento.
Stable Diffusion XL: Los visionarios versátiles
Si bien Stable Diffusion 1.5 es nuestra mejor opción para imágenes fotorrealistas, Stable Diffusion XL ofrece más versatilidad y resultados de alta calidad sin recurrir a trucos como la ampliación. Requiere un poco de energía, pero se puede ejecutar con GPU con 6 GB de vRAM: 2 GB menos de lo que requiere SD1.5. Estos son los modelos que lideran la carga.1. Juggernaut XL (Versión x)Aprovechando el éxito de su predecesor, Juggernaut XL aporta un aspecto cinematográfico y un enfoque de sujeto impresionante a Stable Diffusion XL. Este modelo ofrece la misma composición de color característica que se aleja de la saturación, junto con buenas proporciones corporales y la capacidad de comprender indicaciones largas. Se centra más en el sujeto y define las facciones muy bien, como puede hacerlo cualquier modelo SDXL en este momento. Para obtener mejores resultados, utilice una resolución de 832×1216 (para retratos), el muestreador DPM++ 2M Karras, 30-40 pasos, y una escala de CFG baja de 3-7,2. RealVisXL
Personalizado pensando en el realismo, RealVisXL es la mejor opción para capturar las imperfecciones sutiles que nos hacen humanos. Destaca en generar líneas de piel, lunares, cambios de tono y mandíbulas, asegurando que el resultado final sea siempre convincente. Probablemente sea el mejor modelo para generar humanos realistas. Para obtener resultados óptimos, utilice entre 15 y 30 pasos de muestreo y el método de muestreo DPM++ 2M Karras.3. Hola Mundo XL v6.0
El modelo generalista HelloWorld XL v6.0 ofrece un enfoque único para la generación de imágenes, gracias al uso del etiquetado GPT4v. Si bien puede llevar algún tiempo acostumbrarse, los resultados valen la pena. Este modelo es particularmente bueno para ofrecer la estética analógica que a menudo falta en las imágenes generadas por IA. También maneja bien las proporciones del cuerpo, las imperfecciones y la iluminación. Sin embargo, es diferente de otros modelos SDXL en esencia, lo que significa que es posible que deba ajustar sus mensajes y etiquetas para lograr los mejores resultados. A modo de comparación, aquí hay una generación similar que utiliza el etiquetado GPT4v, con el mensaje positivo: película Fotografía estética y profesional, retrato en primer plano de un hombre caucásico, vestido con un suéter negro, rostro serio, en la naturaleza, clima sombrío y nublado, vestido con un suéter negro de lana, calidad cinematográfica profundamente atmosférica, indicios de influencia de la fotografía analógica.
Las menciones honoríficas para SDXL incluyen: PhotoPedia XL, Realism Engine SDXL y el obsoleto Fully Real XL.
Consejos profesionales para imágenes hiperrealistas
Independientemente del modelo que elija, a continuación se ofrecen algunos consejos de expertos que le ayudarán a lograr resultados impresionantes y realistas: Experimente con incrustaciones: Para mejorar la estética de sus imágenes, intente utilizar incrustaciones recomendadas por el creador del modelo o utilice las más populares como BadDream, UnrealisticDream, FastNegativeV2 y JuggernautNegative-neg. También hay incrustaciones disponibles para características específicas, como manos, ojos y objetos específicos. Abrazar el poder de LoRA: Si bien las dejamos aquí, estas útiles herramientas pueden ayudarlo a agregar detalles, ajustar la iluminación y mejorar la textura de la piel en sus imágenes. Hay muchos LoRA disponibles, así que no tema experimentar y encontrar los que funcionen mejor para usted. Usar detalles de la cara Herramientas de extensión: estas funciones pueden ayudarle a lograr excelentes resultados en rostros y manos, haciendo que sus imágenes sean aún más convincentes. La extensión Adetailer está disponible para A1111, mientras que el nodo Face Detailer Pipe se puede utilizar en ComfyUI. Sea creativo con Redes de control: Si es un perfeccionista en lo que respecta a las manos, ControlNets puede ayudarle a lograr resultados impecables. También hay ControlNets disponibles para otras funciones, como rostros y cuerpos, así que no tema experimentar y encontrar las que funcionen mejor para usted. Para obtener ayuda para comenzar, puede leer nuestra guía de Difusión estable.
Estos son los recursos a los que hacemos referencia en esta guía:
Modelos SD1.5:Modelos SDXL:Incrustaciones:Esperamos que este recorrido por las herramientas de Difusión estable le haya resultado útil mientras explora imágenes y arte generados por IA. ¡Feliz creación! Editado por Ryan Ozawa.
Boletín Generalmente Inteligente
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.