El sorpasso chino en IA
Juan López Páez
Y de repente llegó DeepSeek, el año 2025 nos ha deparado en el primer mes la sorpresa de una startup emergente china que ha sacudido el mercado bursátil provocando una brusca corrección global en las valoraciones de las grandes empresas actoras en la carrera global de la inteligencia artificial.
¿No estaba OpenAI medio año por delante del resto de los laboratorios de inteligencia artificial de EEUU? ¿Y más de un año por delante de empresas chinas como Alibaba o Tencent? Pues parece que no, el o1 de OpenAI se lanzó el 5 de diciembre de 2024, sólo se tardó 47 días, el 20 de enero de 2025 en lanzar el DeepSeek-1, ¿Cómo un emergente laboratorio chino con sede en Hangzhou logró construir un modelo tan bueno, tan rápido y a tan bajo costo?.
La eficiencia en el uso de recursos es la clave principal del desarrollo, la empresa logró maximizar el rendimiento de los recursos limitados de microchips. En un contexto donde el entrenamiento de modelos de lenguaje como ChatGPT demanda hasta 10 mil unidades de Nvidia, DeepSeek alcanzó resultados comparables utilizando apenas dos mil, lo que destaca el potencial de sus innovadoras técnicas de optimización.
En lugar de depender únicamente del ajuste fino supervisado, DeepSeek apostó por el aprendizaje por refuerzo puro, una técnica que le permite entrenar sus modelos mediante un sistema de premios y castigos, sin necesidad de datos previos o supervisión humana. Este enfoque no solo mejora el rendimiento, sino que también potencia la capacidad de razonamiento del modelo.
A su vez, la arquitectura MoE (Mixture of Experts) ha sido otro de sus grandes hallazgos. Este sistema se basa en seleccionar solo a los expertos más adecuados para cada tarea específica, lo que optimiza los recursos al reducir el costo computacional. Es como si un equipo de especialistas sólo interviniera cuando su conocimiento es requerido, maximizando la eficiencia del proceso.
Además DeepSeek compartió una comparación individual entre el R1 y el o1 de OpenAI en seis pruebas de referencia relevantes, por ejemplo, GPQA Diamond y SWE-bench Verified y otras pruebas alternativas por ejemplo, Codeforces y AIME.
En resumen: DeepSeek ha creado un modelo comparable al mejor modelo de OpenAI, que también es el mejor entre los laboratorios estadounidenses (vale la pena señalar que OpenAI ya ha anunciado el o3 , mucho mejor que el o1, pero aún no ha comenzado a implementarlo en los próximos meses). DeepSeek está en el podio y, al publicar el R1 en código abierto, está regalando el dinero del premio.
Hablando de costos, de alguna manera DeepSeek ha logrado construir R1 a un 5-10% del costo del o1 (y eso es ser generoso con el precio de entrada-salida de OpenAI). Eso es como obtener un teléfono inteligente similar a un Google Pixel o un iPhone de Apple que cuesta $1000+ por $50 de Xiaomi o Huawei. Con las mismas características y calidad. ¿Cómo? ¿Están funcionando con pérdidas? ¿Encontraron una manera de hacer que estos modelos sean increíblemente baratos que OpenAI y Google ignoran? ¿Están copiando el enfoque de Meta para convertir los modelos en un producto básico?.
Alexandr Wang, el multimillonario CEO del gigante de los datos de entrenamiento Scale AI, recientemente calificó el modelo como “revolucionario”. Y Aravind Srinivas, CEO de la startup de búsquedas de inteligencia artificial Perplexity, valorada en 9.000 millones de dólares, ha dicho que planea integrar el modelo en el producto de búsqueda principal. La empresa de chips de inteligencia artificial Groq ya ha añadido el modelo R1 de DeepSeek a sus unidades de procesamiento de lenguaje.
La startup china fundada en 2023, aseguró que sus modelos de inteligencia artificial igualan o superan a los principales rivales estadounidenses a una fracción del costo, desafiando la idea de que escalar la inteligencia artificial requiere de enormes cantidades de poder computacional e inversión. En el mundo cerrado y de pago de la IA, ”es una locura que alguien pueda gastar cientos de millones de dólares en un modelo de código cerrado”, dijo Greg Kamradt, presidente de ARC Prize, una organización sin fines de lucro que evalúa modelos de IA . “Y de repente aparece uno de código abierto que está disponible de forma gratuita”.
DeepSeek-R1 no es un modelo singular, sino una familia de modelos que incluye: DeepSeek-R1-Zero y DeepSeek-R1
DeepSeek-R1-Zero representa el experimento inicial del equipo que utiliza aprendizaje de refuerzo puro sin ningún ajuste fino supervisado. Comenzaron con su modelo base y aplicaron el aprendizaje de refuerzo directamente, dejando que el modelo desarrollara capacidades de razonamiento a través de prueba y error. Si bien este enfoque logró resultados impresionantes (71 % de precisión en AIME 2024), tenía algunas limitaciones significativas, particularmente en legibilidad y consistencia del lenguaje. Este modelo muestra comportamientos de razonamiento emergentes, como autoverificación, reflexión y razonamiento de cadena de pensamiento larga (CoT).
El proceso de entrenamiento es sencillo: Empieza con el modelo base; aplica el aprendizaje de refuerzo directamente; y Utiliza recompensas simples basadas en la precisión y el formato
DeepSeek-R1 , por el contrario, utiliza un enfoque de entrenamiento de múltiples etapas más sofisticado. En lugar de un aprendizaje de refuerzo puro, comienza con un ajuste fino supervisado en un pequeño conjunto de ejemplos cuidadosamente seleccionados (llamados "datos de inicio en frío") qntes de aplicar el aprendizaje de refuerzoEste enfoque aborda las limitaciones de R1-Zero y, al mismo tiempo, logra un rendimiento aún mejor. Este modelo también mantiene el recuento de 671 mil millones de parámetros, pero logra una mejor legibilidad y coherencia en las respuestas.
El proceso de entrenamiento tiene 4 etapas: Ajuste inicial supervisado con miles de qejemplos de alta calidad; Aprendizaje por refuerzo centrado en tareas de razonamiento; Recopilación de nuevos datos de entrenamiento mediante muestreo de rechazo; Aprendizaje de refuerzo final en todos los tipos de tareas
Por si fuera poco, DeepSeek, también publicó un informe técnico detallado, mientras que ni OpenAI (ChatGTP), ni Google (Gemini), ni Meta (LLama) ni Anthropic (Claude) nos han dado algo así, del modelo o1 de OpenAI sólo se permiten qqdemostraciones y benchmarks (puntos de referencia). R1 es un modelo de razonamiento de primera, de código abierto, capaz de convertir modelos débiles en modelos potentes. Todo ello a una fracción del coste de modelos comparables. Y es de origen chino, queda dicho todo.
Comentarios
Publicar un comentario