Mientras OpenAI sigue provocando a Sora después de meses de retrasos, Tencent abandonó silenciosamente un modelo que ya está mostrando resultados comparables a los de los generadores de vídeo de primer nivel existentes. Tencent ha presentado Hunyuan Video, un generador de vídeo de IA gratuito y de código abierto, estratégicamente sincronizado durante la campaña de anuncios de 12 días de OpenAI, que se espera que incluya el debut de Sora, su muy esperada herramienta de vídeo. “Presentamos Hunyuan Video, un «Novedoso modelo de base de video de código abierto que exhibe un rendimiento en la generación de video comparable, si no superior, a los principales modelos de código cerrado», dijo Tencent en su anuncio oficial. El gigante tecnológico con sede en Shenzhen, China, afirma que su modelo «supera» a los de Runway Gen-3, Luma 1.6 y «tres modelos generativos de video chinos de alto rendimiento» según los resultados de la evaluación humana profesional. El momento no podría ser más adecuado. Antes de su generador de video, en algún lugar entre las eras SDXL y Flux de generadores de imágenes de código abierto, Tencent lanzó un generador de imágenes con un nombre similar. HunyuanDit proporcionó excelentes resultados y mejoró la comprensión del texto bilingüe, pero no fue adoptado ampliamente. La familia se completó con un grupo de modelos de lenguaje grandes. Hunyuan Video utiliza un modelo de lenguaje grande multimodal solo decodificador como codificador de texto en lugar del combo habitual CLIP y T5-XXL que se encuentra en otras herramientas de video y generadores de imágenes de IA. Tencent dice esto ayuda al modelo a seguir mejor las instrucciones, captar los detalles de la imagen con mayor precisión y aprender nuevas tareas sobre la marcha sin capacitación adicional; además, su configuración de atención causal recibe un impulso de un refinador de tokens especial que lo ayuda a comprender las indicaciones más a fondo que los modelos tradicionales. también reescribe impulsa a enriquecerlos y aumentar la calidad de sus generaciones. Por ejemplo, un mensaje que simplemente dice «Un hombre paseando a su perro» se puede mejorar incluyendo detalles, configuración de la escena, condiciones de iluminación, artefactos de calidad y raza, entre otros elementos.
Gratis para las masas
Al igual que LLaMA 3 de Meta, Hunyuan se puede usar y monetizar de forma gratuita hasta que alcance los 100 millones de usuarios, un umbral del que la mayoría de los desarrolladores no tendrán que preocuparse en el corto plazo. ¿El truco? Necesitará una computadora robusta con al menos 60 GB de memoria GPU para ejecutar localmente su modelo de 13 mil millones de parámetros; piense en las tarjetas Nvidia H800 o H20. Eso es más vRAM que la que tienen la mayoría de las PC para juegos en total. Para aquellos que no tienen una supercomputadora, los servicios en la nube ya se están incorporando. FAL.ai, una plataforma de medios generativos diseñada para desarrolladores, ha integrado Hunyuan y cobra 0,5 dólares por vídeo. Otros proveedores de nube, incluidos Replicate o GoEhnance, también han comenzado a ofrecer acceso al modelo. El servidor de vídeo oficial de Hunyuan ofrece 150 créditos a 10 dólares, y cada generación de vídeo cuesta un mínimo de 15 créditos. Y, por supuesto, los usuarios pueden ejecutar el modelo en una GPU alquilada utilizando servicios como Runpod o Vast.ai. Las primeras pruebas muestran que Hunyuan iguala la calidad de pesos pesados comerciales como Luma Labs Dream Machine o Kling AI. Los vídeos tardan unos 15 minutos en generarse, produciendo secuencias fotorrealistas con movimientos humanos y animales de aspecto natural. Las pruebas revelan una debilidad actual: la comprensión del modelo de las indicaciones en inglés podría ser más aguda que la de sus competidores. Sin embargo, ser de código abierto significa que los desarrolladores ahora pueden modificar y mejorar el modelo. Tencent dice que su codificador de texto logra tasas de alineación de hasta el 68,5% (lo que significa qué tan cerca coincide la salida con lo que los usuarios piden) mientras mantiene puntajes de calidad visual del 96,4% según sus preferencias. pruebas internas. El código fuente completo y los pesos previamente entrenados están disponibles para descargar en las plataformas GitHub y Hugging Face. Editado por Sebastian Sinclair
Boletín Generalmente Inteligente
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.