Publi

Google lanzó Gemini 2.0 esta semana, presentando su último modelo de IA con capacidades autónomas y funciones multimodales. Lo que se nota inmediatamente en esta versión es que Google considera que los chatbots de IA están evolucionando hacia agentes de IA: software personalizado que utiliza IA generativa para interactuar con los usuarios y comprender y ejecutar tareas en tiempo real. «Con nuevos avances en multimodalidad, como salida nativa de imágenes y audio, y el uso de herramientas nativas, nos permitirá construir nuevos agentes de inteligencia artificial que nos acerquen a nuestra visión de un asistente universal», dijo el CEO de Google. dijo Sundar Pichai. El modelo se basa en las bases multimodales de Gemini 1.5 con nueva generación de imágenes nativas y capacidades de texto a voz, junto con habilidades de razonamiento mejoradas. Según Google, la variante 2.0 Flash supera al modelo 1.5 Pro anterior en puntos de referencia clave, mientras funcionando al doble de velocidad. Este modelo está actualmente disponible para usuarios que pagan por Google Advanced, la suscripción paga diseñada para competir contra Claude y ChatGPT Plus.Aquellos que estén dispuestos a ensuciarse las manos pueden disfrutar de una experiencia más completa accediendo al modelo a través de Google AI Studio. Desde allí, los usuarios pueden cargar hasta 1 millón de tokens de contexto (casi 10 veces la capacidad de ChatGPT) junto con características como soporte de entrada audiovisual, verificación de hechos con enlaces, ejecución de código y configuraciones ajustables como «temperatura» para la aleatoriedad de la respuesta y «Top P» para la variación léxica, lo que permite controlar la creatividad o la factualidad del modelo.Es importante tener en cuenta que esta interfaz es más compleja que la interfaz de usuario simple, directa y fácil de usar que proporciona Gemini. Además, es más potente pero mucho más lenta. En nuestras pruebas, le pedimos que analizara un documento de 74 KB de longitud y tardó casi 10 minutos en producir una respuesta.El resultado, sin embargo, fue bastante preciso, sin alucinaciones. Los documentos más largos, de alrededor de 200.000 tokens (casi 150.000 palabras), tardarán mucho más en analizarse, pero el modelo es capaz de hacer el trabajo si se es lo suficientemente paciente. Google también implementó una función de «Investigación profunda», disponible ahora en Gemini Advanced. para aprovechar el razonamiento mejorado del modelo y las capacidades de contexto largo para explorar temas complejos y compilar informes. Esto permite a los usuarios abordar diferentes temas con mayor profundidad que si usaran un modelo normal diseñado para proporcionar respuestas más sencillas. Sin embargo, está basado en Gemini 1.5 y no hay un cronograma a seguir hasta que haya una versión basada en Gemini 2.0. Esta nueva característica pone a Gemini en competencia directa con servicios como la búsqueda Pro de Perplexity, el Asistente de investigación de You.com e incluso el BeaGo, menos conocido, y todos ofrecen una experiencia similar. Sin embargo, el servicio de Google ofrece algo diferente. Antes de proporcionar información, se debe elaborar el mejor enfoque para la tarea. Presenta un plan al usuario, quien puede editarlo para incluir o excluir información, agregar más materiales de investigación o extraer fragmentos de información. Una vez que se ha configurado la metodología, pueden indicarle al chatbot que comience su investigación. Hasta ahora, ningún servicio de IA ha ofrecido a los investigadores este nivel de control y personalización. En nuestras pruebas, un simple mensaje como «Investigar el impacto de la IA en las relaciones humanas» desencadenó una investigación en más de una docena de sitios científicos u oficiales confiables, con el modelo producir un documento de 3 páginas basado en 8 fuentes debidamente citadas. Nada mal.

Proyecto Astra: Asistente de IA multimodal de Gemini

Google también compartió un video que muestra el Proyecto Astra, su asistente de inteligencia artificial experimental impulsado por Gemini 2.0. Astra es la respuesta de Google a Meta AI: un asistente de IA que interactúa con personas en tiempo real, utilizando la cámara y el micrófono del teléfono inteligente como entradas de información y brindando respuestas en modo de voz. Google ha brindado al Proyecto Astra capacidades ampliadas, incluidas conversaciones multilingües con reconocimiento de acento mejorado. , integración con Google Search, Lens y Maps, una memoria extendida que retiene 10 minutos de contexto de conversación, memoria a largo plazo y baja latencia de conversación a través de nuevas capacidades de transmisión. A pesar de una tibia recepción en las redes sociales, el video de Google solo ha obtenido 90.000 visitas desde su lanzamiento; el lanzamiento de la nueva familia de modelos parece estar obteniendo una tracción decente entre los usuarios, con un aumento significativo en las búsquedas web, especialmente considerando que se anunció durante un gran apagón de ChatGPT Plus.El anuncio de Google de esta semana deja en claro que está tratando de competir contra OpenAI para ser el líder de la industria de la IA generativa. De hecho, su anuncio cae en medio de la campaña «12 días de Navidad» de OpenAI, en la que la compañía presenta un nuevo producto diariamente. Hasta ahora, OpenAI ha presentado un nuevo modelo de razonamiento (o1), una herramienta de generación de vídeo (Sora) y una suscripción «Pro» mensual de 200 dólares. Google también presentó su nuevo Extensión de Chrome impulsada por IA, Project Mariner, que utiliza agentes para navegar por sitios web y completar tareas. En las pruebas comparadas con el punto de referencia WebVoyager para tareas web del mundo real, Mariner logró una tasa de éxito del 83,5% trabajando como un solo agente, dijo Google. «Durante el último año, hemos estado invirtiendo en el desarrollo de más modelos agentes, lo que significa que pueden comprender más sobre el mundo que lo rodea, piense en varios pasos adelante y tome medidas en su nombre, con su supervisión», escribió Pichai en el anuncio. La compañía planea implementar la integración Gemini 2.0 en toda su línea de productos, comenzando con el acceso experimental al Gemini aplicación hoy. En enero se lanzará un lanzamiento más amplio, que incluirá la integración con las funciones de inteligencia artificial de la Búsqueda de Google, que actualmente llegan a más de mil millones de usuarios.

Publicidad

Pero no olvides a Claude

El lanzamiento de Gemini 2 se produce cuando Anthropic presentó silenciosamente su última actualización. Claude 3.5 Haiku es una versión más rápida de su familia de modelos de IA que afirma tener un rendimiento superior en tareas de codificación, con una puntuación del 40,6 % en el punto de referencia verificado por SWE-bench. Anthropic todavía está entrenando su modelo más potente, Claude 3.5 Opus, que está previsto que sea lanzado más tarde en 2025 después de una serie de retrasos.Imagen: AnthropicLos servicios premium de Google y Anthropic tienen un precio de $20 mensuales, igualando el nivel básico ChatGPT Plus de OpenAI. Claude 3.5 Haiku de Anthropic demostró ser mucho más rápido, más barato y más potente que Claude 3 Sonnet (modelo de tamaño mediano de Anthropics de la generación anterior). , con una puntuación del 88,1 % en tareas de codificación de HumanEval y del 85,6 % en problemas matemáticos multilingües. El modelo muestra una fortaleza particular en el procesamiento de datos, con compañías como Replit y Apollo reportando mejoras significativas en el refinamiento del código y la generación de contenido. Claude 3.5 Haiku es barato a $0,80 por millón de tokens de entrada. La compañía afirma que los usuarios pueden lograr ahorros de costos de hasta el 90% a través de almacenamiento en caché rápido y una reducción adicional del 50% utilizando la API Message Batches, posicionando el modelo como una opción rentable para las empresas que buscan escalar sus operaciones de IA y una opción muy interesante a considerar frente a OpenAI o1-mini, que cuesta $ 3,00 por millón de tokens de entrada. Editado por Sebastian Sinclair y Josh Quittner

Boletín Generalmente Inteligente

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.