Alberto Muñoz

DeepSeek R1, desenredando la especulación y la realidad

La conexión entre DeepSeek R1 y las acciones de NVIDIA es más especulativa que directa. Las fluctuaciones en el mercado suelen ser el resultado de múltiples factores interconectados.

Durante la pandemia, muchos de nosotros enfrentamos la necesidad, pero también la oportunidad, de implementar modelos de IA generativa como GPT-2, BERT y otros, explorando desde Grandes Modelos de Lenguaje hasta soluciones exuberantes aplicadas en diversas áreas de negocio. Sin embargo, el panorama actual ha evolucionado considerablemente: ahora nos encontramos en un entorno mucho más complejo y no menos exótico, donde los grandes volúmenes de datos y procesamiento ya no son una opción, sino una necesidad ineludible para mantenernos competitivos y relevantes. Pero hay sorpresas.

El modelo de inteligencia artificial DeepSeek R1, respaldado por el fondo de cobertura chino High-Flyer, se ha convertido en un referente tecnológico desde su lanzamiento. Con activos superiores a 7 mil millones de dólares, High-Flyer ha mostrado un compromiso con el avance en inteligencia artificial y la investigación de vanguardia. No obstante, DeepSeek R1 ha estado rodeado de mitos y desinformación que intentaré aclarar para tratar de compartir y comprender su verdadero impacto y alcance.

Uno de los rumores más difundidos sobre el DeepSeek R1 es que su entrenamiento costó alrededor de 6 millones de dólares. Aunque la cifra puede parecer significativa, está lejos de reflejar la realidad. El costo del cómputo necesario para entrenar su modelo base (sin incluir aprendizaje por refuerzo o RL) fue mucho mayor [1]. Se utilizaron aproximadamente 50 mil GPUs de alta gama, incluyendo las NVIDIA H100 con 80GB de memoria cada una, en un despliegue tecnológico que también requirió una enorme inversión en infraestructura y talento humano. Además, este cálculo no considera otros aspectos como las ejecuciones más pequeñas, la generación de datos y los experimentos adicionales.

Contrario a la percepción de que DeepSeek R1 es un proyecto secundario, en realidad representa un esfuerzo masivo en ciencia y tecnología. El modelo utiliza una arquitectura innovadora basada en Mixture of Experts (MoE), con 671 mil millones de parámetros, que lo posiciona como una herramienta eficiente y especializada. Este diseño le permite destacarse frente a otros modelos y lo convierte en un ejemplo de innovación en el campo de la IA.

Desde su concepción, DeepSeek R1 ha estado respaldado por años de investigación y desarrollo. Además, su contribución al código abierto y a la comunidad científica durante los últimos dos años ha sido significativa, demostrando que es mucho más que un experimento o una simple iniciativa empresarial caprichosa.

A menudo, DeepSeek R1 es comparado con versiones ‘destiladas’ más pequeñas, como Qwen o Llama. Aunque estas versiones ofrecen soluciones prácticas para ciertas aplicaciones y pueden ejecutarse localmente, no tienen la capacidad ni la sofisticación del verdadero modelo DeepSeek R1. Es fundamental distinguir entre estas versiones más pequeñas y el modelo completo de 671B, que es -creo- el resultado de un enfoque tecnológico más ambicioso y robusto.

En términos de privacidad, es cierto que la versión alojada en chat.deepseek.com puede utilizar los datos del usuario para entrenar nuevos modelos, de acuerdo con sus términos de servicio. Sin embargo, esto no debería eclipsar el impacto positivo de DeepSeek R1 en la comunidad científica. Su compromiso con el código abierto ha permitido que investigadores y desarrolladores de todo el mundo accedan a su tecnología y trabajen en nuevas aplicaciones. Además, plataformas como Hugging Face están trabajando en una reproducción abierta del proceso de entrenamiento de DeepSeek R1, lo que promete democratizar aún más esta tecnología y fomentar la colaboración global.

Algunos especulan que DeepSeek R1 podría estar relacionado con una caída en las acciones de NVIDIA percibidas el 25-26 de enero de 2025, debido a la percepción de que este modelo reduce la dependencia del hardware de la compañía. Las razones detrás de esta percepción incluyen el uso de hardware alternativo: Aunque DeepSeek R1 utiliza GPUs de NVIDIA, la posibilidad de que High-Flyer optimice sus recursos o explore alternativas podría interpretarse como una amenaza para la demanda futura de hardware de NVIDIA. Otro tema es la eficiencia competitiva ya que el éxito de DeepSeek R1 podría inspirar a otras empresas a desarrollar modelos avanzados en hardware más accesible, disminuyendo la dependencia de las GPUs de NVIDIA.

Ahora, los mercados financieros son sensibles a noticias y rumores. La idea de que DeepSeek R1 representa una disrupción tecnológica en el mercado puede haber generado ventas preventivas de acciones de NVIDIA sobre todo considerando ciertas dudas sobre el crecimiento sostenido ya que el auge de NVIDIA ha estado ligado al mercado de IA, y cualquier innovación que desafíe esa posición puede afectar la percepción del mercado.

Sin embargo, la conexión entre DeepSeek R1 y las acciones de NVIDIA es más especulativa que directa. Las fluctuaciones en el mercado suelen ser el resultado de múltiples factores interconectados. El impacto de DeepSeek R1 no se limita al presente. Este modelo representa un testimonio del poder de la colaboración y la innovación. Su enfoque en la ciencia abierta y la democratización del conocimiento ha sentado un precedente importante en la industria de la IA. Además, con iniciativas como la reproducción abierta de su proceso por parte de Hugging Face, los beneficios de este modelo tienen el potencial de extenderse a nivel global. DeepSeek R1 también destaca por su capacidad para inspirar nuevas posibilidades en aplicaciones científicas y tecnológicas. Su arquitectura avanzada y su implementación en gran escala sirven como modelo para futuros proyectos en IA.

En redes sociales, muchas personas han reaccionado con ironía y escepticismo ante la campaña de desprestigio contra DeepSeek R1, especialmente por las acusaciones de que la plataforma ‘roba cookies básicas’ de las aplicaciones. Para gran parte de los usuarios, esta polémica resulta exagerada, ya que la recopilación de datos básicos, como cookies, es una práctica común y generalizada en la industria tecnológica.

Lo que más llama la atención es la sorpresa de algunos ante este tipo de prácticas, como si fuera algo nuevo o exclusivo de DeepSeek R1. Muchos comentan con humor que es como ‘descubrir que el agua moja’, destacando que la recopilación de información básica es algo que ocurre en casi todas las plataformas digitales que usamos a diario, muchas veces sin siquiera requerir permisos explícitos.

Esta reacción en redes refleja un sentimiento de desilusión o cinismo hacia cómo se manejan las controversias tecnológicas. Para muchos, estas acusaciones parecen infladas y carentes de contexto, ignorando que la recopilación de datos es una realidad inherente al mundo digital. Además, hay quienes cuestionan la hipocresía de quienes se indignan ahora, pero rara vez leen los términos y condiciones de las aplicaciones que utilizan.

La conversación en redes deja claro que, aunque hay preocupaciones legítimas sobre la privacidad, muchas personas ven esta polémica como una tormenta en un vaso de agua, resaltando la necesidad de una discusión más informada y menos sensacionalista sobre cómo las empresas manejan los datos de los usuarios.

DeepSeek R1 no es solo un modelo de inteligencia artificial; es un ejemplo de lo que se puede lograr con recursos, talento y una visión clara. Su desarrollo desafía los límites de la tecnología actual, mientras que su compromiso con el código abierto amplía el acceso a herramientas avanzadas. Aunque rodeado de mitos y malentendidos, la realidad es que DeepSeek R1 representa un nuevo un hito en la historia de la IA y debería beneficiar a la humanidad en el largo plazo. ¡Bravo por cualquier innovación tecnológica que reduzca, en cualquier parámetro, el consumo de energía!

[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it

COLUMNAS ANTERIORES

Los retos de la Inteligencia Artificial en la nueva era Trump
Cómo la Inteligencia Artificial aprende y desaprende

Las expresiones aquí vertidas son responsabilidad de quien firma esta columna de opinión y no necesariamente reflejan la postura editorial de El Financiero.