Publi

Deepseek es el nuevo modelo de IA de Buzzy que lleva al mundo por asalto. La startup china ha impresionado al sector tecnológico con su sólido modelo de lenguaje grande, basado en tecnología de código abierto. Deepseek también ha enviado ondas de choque a través de la industria de IA, lo que demuestra que es posible desarrollar una poderosa IA para millones en hardware y capacitación, cuando estadounidense Empresas como Openai, Google y Microsoft han invertido miles de millones.

¿Qué es Deepseek?

Deepseek es una creación del inversor y empresario Liang Wenfeng, un ciudadano chino que estudió ingeniería electrónica de información y comunicación en la Universidad de Zhejiang. Liang comenzó su carrera en IA al usarla para el comercio cuantitativo, cofundando el Fondo de cobertura de Hangzhou, China, la gestión de inversiones cuantitativas de alto volante en 2015. En 2023, Liang lanzó Deepseek, centrándose en avanzar en la inteligencia general artificial.Imagen: DeepseekDeepseek lanzó su primer modelo de lenguaje grande, Deepseek-coder, el 29 de noviembre de 2023. Pero no fue hasta el 20 de enero de 2025, con el lanzamiento de Deepseek-R1, que la compañía volcó a la industria de la IA. De solo 200 personas y un presupuesto de $ 6 millones, Deepseek lanzó su modelo gratuito de código abierto, que estaba a la par del modelo GPT 01 muy afectado por OpenAI, un proyecto que costó hasta $ 600 millones y tomó un estimado de 3,500 personas Dos años para construir. A diferencia de las grandes empresas tecnológicas con grandes nóminas en Occidente, Deepseek optimizó su contratación para centrarse en los estudiantes graduados recientemente: «Tres a cinco años de experiencia laboral es el máximo, y aquellos con más de ocho años de experiencia laboral son Básicamente rechazado, «un cazador de cabecera le dijo a 36Kr, un popular sitio tecnológico chino y, mientras que OpenAi y otros modelos de IA dominantes estaban disponibles principalmente como productos de suscripción, el código de Deepseek es código abierto, disponible para escrutinio público y se puede descargar a una computadora local a través de una computadora local AI Playground Huggingface, o como una aplicación telefónica, de forma gratuita.Imagen: Deepseek

Publicidad

¿Qué tiene de especial Deepseek?

El éxito de Deepseek proviene de su enfoque para el diseño y la capacitación del modelo. Al igual que una supercomputadora masivamente paralela que divide las tareas entre muchos procesadores para trabajar en ellos simultáneamente, el sistema de mezcla de expertos de Deepseek activa selectivamente solo unos 37 mil millones de sus 671 mil millones de parámetros para cada tarea. Este enfoque mejora significativamente la eficiencia, reduciendo los costos computacionales al tiempo que ofrece un rendimiento de primer nivel en las aplicaciones. DePseek mejora su proceso de capacitación utilizando la optimización de políticas relativas del grupo, una técnica de aprendizaje de refuerzo que mejora la toma de decisiones al comparar las opciones de un modelo con las de agentes de aprendizaje similares. . Esto permite que la IA refine su razonamiento de manera más efectiva, produciendo datos de capacitación de mayor calidad. modelo, distinguiéndolo de los competidores que mantienen sistemas cerrados y patentados. La fuente abierta también permite a los desarrolladores mejorar y compartir su trabajo con otros que luego pueden construir sobre ese trabajo en un ciclo interminable de evolución y mejora. El desarrollo de DePseek es ayudado por una reserva de chips NVIDIA A100 combinados con hardware menos costoso. Algunas estimaciones ponen el número de chips Nvidia Deepseek a los que tiene acceso a alrededor de 50,000 GPU, en comparación con los 500,000 OpenAI utilizados para entrenar chatgpt.

Reacciones a Deepseek

Muchos tecnólogos de IA han elogiado el modelo poderoso, eficiente y de bajo costo de Deepseek, mientras que los críticos han planteado preocupaciones sobre la seguridad de la privacidad de los datos. «Estamos viviendo en una línea de tiempo en la que una empresa no estadounidense mantiene viva la misión original de OpenAi, realmente abierta , investigación fronteriza que empodera a todos. No tiene sentido ”, escribió el gerente de investigación senior de NVIDIA, el Dr. Jim Fan, en X (anteriormente Twitter). «El resultado más entretenido es el más probable».

Incluso el CEO de Operai, Sam Altman, reconoció que Deepseek es impresionante. «¡Obviamente entregaremos modelos mucho mejores y también es legítimo estimular tener un nuevo competidor!» Altman dijo que en X.Days más tarde, la firma afirmó haber encontrado evidencia de que Deepseek utilizó los modelos patentados de OpenAi para capacitar a su propio modelo rival. gobierno. Otros han destacado la amplia cantidad de datos de usuario recopilados por Deepseek, incluidos modelos de dispositivos, sistemas operativos, patrones de pulsación de teclas y direcciones IP, datos almacenados en los servidores con sede en China de Deepseek, según la política de privacidad de la empresa.

“La privacidad es un problema porque es China. Siempre se trata de recopilar datos de los usuarios. Entonces, el usuario tenga cuidado ”, dijo Kevin Surace, CEO del desarrollador de software AI AppVance, a Decrypt. «Obligará a todos a repensar cómo entrenaremos modelos y cuánta potencia se requiere para la inferencia».

¿Qué le depara el futuro a Deepseek?

El rápido aumento de Deepseek desafía el dominio de los gigantes tecnológicos occidentales y plantea preguntas significativas sobre el futuro de la IA, quién lo construye, quién lo controla y cuán abierto y asequible para todo lo que debería ser. Pero quedan preguntas sobre las implicaciones a largo plazo de Deepseek Y si el presidente de los Estados Unidos, Trump, responderá al aparente dominio nocturno de China en el sector de IA con una prohibición de estilo Tiktok. ¿El alto-flyer tergiversó su uso de GPU para hacer que Deepseek pareciera más eficiente de lo que realmente es? ¿Fue el repentino lanzamiento público de Deepseek cronometrado para reducir las acciones de Nvidia en beneficio de los inversores bien posicionados? Como los competidores, incluida la meta y la IA de perplejidad, se apresuran a adaptarse a la metodología de Deepseek, el impacto total de este avance de la IA sigue siendo incierto. Pero una cosa está clara: Deepseek sacudió la industria tecnológica al demostrar una vez más que a veces, las limitaciones de recursos obligan a los avances innovadores y que la tecnología poderosa se puede construir sin etiquetas de precios multimillonarias.

Boletín generalmente inteligente

Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.