DeepSeek: luces de eficiencia y sombras de seguridad

DeepSeek: luces de eficiencia y sombras de seguridad

El lanzamiento del modelo razonador R1 de la compañía china DeepSeek a comienzos de este año supuso un auténtico terremoto en el ámbito de la IA.

Las capacidades del nuevo sistema serían similares al pionero de su clase, o1 de Open AI, aunque la disrupción de R1 no radicaba tanto en la emulación de estas habilidades como en su condición de modelo de código abierto, en sus menores costes de entrenamiento y en un funcionamiento mucho más eficiente a efectos de cómputación, traducido en unos requerimientos bastante menores de infraestructura física para operar.

La comprobación de estas cualidades coincidió prácticamente en el tiempo con el anuncio del proyecto Stargate, apoyado por el banco japonés Softbank, Open AI, Oracle y MGX (el fondo de inversión de Emiratos Árabes Unidos), para para crear una red masiva de centros de datos con una inversión inicial de 100.000 millones de dólares, escalable a 500.000 en cuatro años.

Desarrollo de IA y su implementación

Por tanto, con el foco puesto en las crecientes necesidades físicas de cómputo para el desarrollo de la IA y su implementación masiva, un outsider puso sobre la mesa la viabilidad de una alternativa, radicando aquí justamente su condición de ‘cisne negro‘ imprevisto que provocó una auténtica sacudida en las bolsas mundiales, comenzando por la tecnológica más valorada, Nvdia, que nutre de los chips demandados tanto para el entrenamiento como el despliegue de la inteligencia artificial.

Para colmo, sería precisamente la restricción al uso de microprocesadores de última generación impuesta por la administración Biden lo que habría llevado a DeepSeek a innovar con un modelo que requiriese menor cantidad de ellospara su entrenamiento. De manera, que solo fueron necesarios 2.048 chips H800 de NVIDIA y destinar unos 5,6 millones de dólares de presupuesto. No obstante, varios expertos señalan que los servidores dedicados serían muchos más de los confesados, y que estos incluirían las GPUs avanzadas H100 de Nvidia, a despecho de las sanciones, por lo que en definitiva el coste del modelo sería mucho mayor que el anunciado.

Además, Open AI replicó que DeepSeek había ‘vampirizado’ a sus modelos, utilizándolos mediante la técnica del destilado para que el nuevo sistema pudiese aprender por refuerzo. Algo que incumpliría las políticas de uso de la API de la compañía, aunque en último término también se podría aducir que el entrenamiento de sus propios sistemas tiene puntos oscuros en cuanto al uso de la información recabada en internet, por las cuestiones de privacidad, propiedad intelectual, etc.

Con todo, lo relevante, más allá de estos aspectos que exponemos para situar el contexto de la irrupción de DeepSeek R1, serían los horizontes que abre en su vertiente positiva, así como los riesgos que entraña o las inquietudes que suscita en lo que supondría su reverso negativo.

Coste más reducido de DeepSeek R1

Empezando por la parte más luminosa, tendríamos que por más que el precio real para lanzarlo al mercado resulte mayor que el reconocido por la compañía, sí que parece evidente que ha sido menor que el de los modelos de OpenAI, Google y Anthropic.

De esta ventaja competitiva se benefician primeramente los usuarios.  De hecho, el uso de la app a día de hoy es gratuito, cuando el acceso a las mejores funcionalidades de ChatGPT puede suponer desde los 20 dólares que cuesta la suscripción Plus hasta los 200 de la Pro, que incluye la versión de o1 pro mode con mayor tiempo de procesamiento por respuesta.

Pero, la diferencia más significativa se produce en la API, que a la postre refleja el coste de desarrollar aplicaciones y softwares basados en los modelos. En este sentido, se contraponen los 0,55$ por millón de tokens de entrada (con caché) y 2,19$ por millón de tokens de salida de DeepSeek-R1, con los 15$ por millón de tokens de entrada y 60$ por millón de tokens de salida de su homólogo o1, por comparar sistemas razonadores similares, sin entrar en los precios del recién lanzado GPT-4.5, que alcanzan la friolera de 75$ por millón de tokens, ya sean de entrada o de salida.

DeepSeek R1, modelo de código abierto

DeepSeek ha apostado por el código abierto, lo que significa que cualquier desarrollador puede acceder a su modelo, modificarlo y adaptarlo a sus necesidades específicas. Esto supone una gran ventaja para empresas y programadores que desean entrenar modelos personalizados, sin depender de plataformas cerradas.

Además, este planteamiento también impulsa la innovación, ya que la comunidad de desarrolladores puede mejorar el rendimiento del modelo, detectar errores y optimizarlo para diferentes aplicaciones. Al tiempo, que se propician nuevos avances en el ecosistema de la inteligencia artificial, universalizándose sus beneficios, si bien esta falta de control entraña sus propios riesgos, como detallaremos más adelante.

Un modelo competente a la altura de los referentes

Como acreditan los benchmarks a los que ha sido sometido DeepSeek R1 (con la correspondiente comparativa con el resto de modelos), este demuestra un rendimiento sólido en pruebas de razonamiento matemático, comprensión del lenguaje y programación. Se situaría a la altura de o1, sin que pueda aducirse que Open AI tiene ya en la parrilla de salida a o3 (tras saltar el 2 por motivos legales), con la versión mini y mini-high ya activas de hecho, porque de igual modo la compañía china también ultima el lanzamiento de R2.

Así pues, no cabe duda de que cuestiones polémicas al margen, estamos ante un modelo competente, de código abierto, que ha resultado mucho más barato de entrenar y que está disponible para su uso libre, de manera gratuita para los usuarios de a pie y a un precio mucho menor que el de la competencia para los desarrolladores.

Estas serían sus luces indiscutibles, pero también igualmente hay una serie de dudas y preocupaciones de seguridad que gravitan en torno al modelo, sin entrar en lo que puedan esgrimir sus competidores, o en las visiones políticamente interesadas que se enmarcan dentro de la carrera internacional por la IA.

Sombras en la seguridad de DeepSeek R1

Una primera exposición a vulnerabilidades de seguridad vendría de su naturaleza de modelo de código abierto, que implica que cualquier usuario puede inspeccionar y modificar su código, lo que permite identificar y explotar posibles fallos de seguridad.

Además, estos sistemas son susceptibles de ser manipulados si se entrenan con datos maliciosos o sesgados, algo que se conoce como data poisoning. Por no hablar de las mayores facilidades que darían los sistemas de IA abiertos a actores maliciosos de toda condición para lanzar ciberataques, con la vista especialmente puesta en la mejora de la ingeniería social por las capacidades persuasivas de los modelos y las posibilidades de orquestar las campañas a escala masiva. 

También, aunque esto fue un problema similar para Open AI que trabaja con sistemas cerrados, estaría la cuestión de hasta qué punto una compañía emergente como DeepSeek con un aluvión de suscripciones recientes tiene una infraestructura suficientemente robusta para evitar ciberataques. De hecho, ya se han dado de igual modo que se produjeron en su momento con la compañía de ChatGPT, por más que se desconozca el móvil de las intrusiones.

Con todo, la preocupación más resonante en torno a la salvaguarda de los datos que le ceden los usuarios a DeepSeek no radicaría tanto en la cuestión de la vulnerabilidad a los ciberataques, sino en las suspicacias que despierta el país de origen de la compañía.

Desconfianza sobre la protección de los datos sensibles de los usuarios

Así, una de las principales preocupaciones con DeepSeek es la privacidad de la información que maneja, toda vez que como compañía china se regiría por la legislación nacional, que prevé el acceso gubernamental por motivos de seguridad a servidores alojados en el país.

Aunque a este respecto la compañía aduce que operan con servidores alojados en países occidentales, lo que tampoco disipa las sospechas y recelos en torno a la existencia de hipotéticas ‘puertas de acceso‘, unas acusaciones hasta ahora no fundamentadas en pruebas y que son similares a las que se esgrimen contra redes sociales extra-occidentales como Telegram o la propia TikTok, cuya suspensión definitiva en Estados Unidos se ha prorrogado con la expectativa de que su matriz ByteDance la venda a una compañía norteamericana.

DeepSeek y su prohibición en países

Gobiernos y grandes compañías occidentales se muestran poco proclives a confiar datos sensibles DeepSeek, hasta el punto que ejecutivos como el australiano han prohibido a usarla a organismos gubernamentales, suponiendo el caso más extremo el de Italia, cuyo gobierno directamente ha bloqueado la descarga de la app.

Aquí, cabría distinguir entre la adopción de medidas básicas de protección de datos, como las que aplicaron sin ir más lejos ciertas tecnológicas a la hora de evitar que sus trabajadores pudiesen compartir información crítica de sus empresas en ChatGPT, de lo que sería pura paranoia políticamente interesada, la cual para algunas voces críticas puede resultar interpretable como un intento de mover el tablero cuando la partida no está saliendo según lo deseado, una práctica que tendría además antecedentes en las sanciones que se interpusieron a Huawei.

De lo único que, de momento, se puede acusar fehacientemente a los sistemas de DeepSeek es de un evidente sesgo, al esquivar o responder de modo torticero a preguntas sensibles para el gobierno chino. Pero, lo verdaderamente relevante de su modelo, que se puede utilizar o no, es que ha demostrado que es factible otra vía para el desarrollo de inteligencia artificial, más abierta, eficiente y ahorrativa a todos los niveles, partiendo además de una evidente posición de desventaja por la carestía de chips. Un hándicap que ha sido precisamente el acicate para la innovación tecnológica en el alumbramiento del modelo. Esta sería la lección más valiosa a extraer por países como los que conforman la Unión Europea, donde hasta ahora la IA ha sido asumida primordialmente como una amenaza, no como una oportunidad.