Contenido Exclusivo!!

¿Por qué todo el mundo está tan preocupado por el modelo chino de Inteligencia Artificial DeepSeek?

por Kylie Robison y Elizabeth Lopatto, theverge.

El mundo financiero tardó aproximadamente un mes en empezar a alarmarse por DeepSeek, pero cuando lo hizo, le quitó más de medio billón de dólares (o un Stargate entero ) a la capitalización de mercado de Nvidia. Y no fue solo Nvidia: Tesla, Google, Amazon y Microsoft se hundieron.

Los dos modelos de IA de DeepSeek, lanzados en rápida sucesión, lo ponen a la par de lo mejor disponible en los laboratorios estadounidenses , según Alexandr Wang, CEO de Scale AI. Y DeepSeek parece estar trabajando dentro de limitaciones que significan que se entrenó a un costo mucho más bajo que sus pares estadounidenses. Se dice que uno de sus modelos recientes costó solo $ 5,6 millones en la ejecución de entrenamiento final, que es aproximadamente el salario que puede exigir un experto en IA estadounidense. El año pasado, el CEO de Anthropic, Dario Amodei, dijo que el costo de los modelos de entrenamiento oscilaba entre $ 100 millones y $ 1 mil millones. GPT-4 de OpenAI costó más de $ 100 millones , según el CEO Sam Altman. DeepSeek parece haber cambiado nuestra idea de cuánto cuesta la IA, con implicaciones potencialmente enormes en toda la industria.

Todo esto ha sucedido en tan solo unas pocas semanas. El día de Navidad, DeepSeek lanzó un modelo de razonamiento (v3) que causó mucho revuelo. Su segundo modelo, R1, lanzado la semana pasada, ha sido llamado “uno de los avances más asombrosos e impresionantes que he visto” por Marc Andreessen , VC y asesor del presidente Donald Trump. Los avances de los modelos de DeepSeek muestran que “la carrera de la IA será muy competitiva”, dice el zar de la IA y las criptomonedas de Trump, David Sacks . Ambos modelos son parcialmente de código abierto, menos los datos de entrenamiento.

Los éxitos de DeepSeek ponen en duda si realmente se necesitan miles de millones de dólares en computación para ganar la carrera de la IA. La opinión generalizada ha sido que las grandes tecnológicas dominarán la IA simplemente porque tienen el dinero extra para perseguir avances. Ahora, parece que las grandes tecnológicas simplemente han estado gastando mucho dinero. Averiguar cuánto cuestan realmente los modelos es un poco complicado porque, como señala Wang de Scale AI, DeepSeek puede no ser capaz de hablar honestamente sobre qué tipo y cuántas GPU tiene, como resultado de las sanciones.

Incluso si los críticos tienen razón y DeepSeek no está diciendo la verdad sobre las GPU que tiene a mano ( los cálculos matemáticos sugieren que las técnicas de optimización utilizadas significan que están diciendo la verdad), la comunidad de código abierto no tardará mucho en descubrirlo, según el jefe de investigación de Hugging Face, Leandro von Werra. Su equipo comenzó a trabajar durante el fin de semana para replicar y publicar la receta R1 en código abierto, y una vez que los investigadores puedan crear su propia versión del modelo, “lo averiguaremos bastante rápido si los números cuadran”.

¿Qué es DeepSeek?
Liderada por el director ejecutivo Liang Wenfeng, DeepSeek, con dos años de antigüedad, es la principal startup de inteligencia artificial de China.

Surgió de un fondo de cobertura fundado por ingenieros de la Universidad de Zhejiang y se centra en “innovaciones arquitectónicas y algorítmicas potencialmente revolucionarias” para construir inteligencia artificial general (AGI), o al menos eso es lo que dice Liang . A diferencia de OpenAI, también afirma ser rentable.

En 2021, Liang comenzó a comprar miles de GPU de Nvidia (justo antes de que Estados Unidos impusiera sanciones a los chips) y lanzó DeepSeek en 2023 con el objetivo de “explorar la esencia de la IAG”, o IA que es tan inteligente como los humanos.

Liang sigue muchos de los mismos argumentos elevados que el CEO de OpenAI, Altman, y otros líderes de la industria. “Nuestro destino es la IAG”, dijo Liang en una entrevista, “lo que significa que necesitamos estudiar nuevas estructuras de modelos para lograr una capacidad de modelo más fuerte con recursos limitados”.

Eso es exactamente lo que hizo DeepSeek. Con algunos enfoques técnicos innovadores que permitieron que su modelo se ejecutara de manera más eficiente, el equipo afirma que su ejecución de entrenamiento final para R1 costó $5,6 millones.

Eso es una reducción de costos del 95 por ciento con respecto al o1 de OpenAI. En lugar de comenzar desde cero, DeepSeek construyó su IA utilizando modelos de código abierto existentes como punto de partida; específicamente, los investigadores utilizaron el modelo Llama de Meta como base.

Si bien la combinación de datos de entrenamiento de la empresa no se revela, DeepSeek mencionó que utilizó datos sintéticos o información generada artificialmente (que podría volverse más importante a medida que los laboratorios de IA parecen toparse con un muro de datos ).

Sin los datos de entrenamiento, no está del todo claro en qué medida es una “copia” de o1: ¿DeepSeek utilizó o1 para entrenar a R1? En la época en que se publicó el primer artículo en diciembre, Altman publicó que “es (relativamente) fácil copiar algo que sabes que funciona” y “es extremadamente difícil hacer algo nuevo, arriesgado y difícil cuando no sabes si funcionará”.

Por lo tanto, la afirmación es que DeepSeek no va a crear nuevos modelos de frontera; simplemente va a replicar modelos antiguos. El inversor de OpenAI, Joshua Kushner, también pareció decir que DeepSeek “se entrenó a partir de los principales modelos de frontera de EE. UU.”.

R1 utilizó dos trucos de optimización clave, dijo el ex investigador de políticas de OpenAI Miles Brundage a The Verge : un preentrenamiento más eficiente y un aprendizaje de refuerzo en el razonamiento de cadena de pensamiento. DeepSeek encontró formas más inteligentes de usar GPU más baratas para entrenar su IA, y parte de lo que ayudó fue usar una técnica novedosa para exigirle a la IA que “piense” paso a paso en los problemas usando prueba y error (aprendizaje de refuerzo) en lugar de copiar a los humanos. Esta combinación permitió que el modelo alcanzara un rendimiento de nivel o1 mientras usaba mucho menos poder de cómputo y dinero.

“DeepSeek v3 y también DeepSeek v2 antes de eso son básicamente el mismo tipo de modelos que GPT-4, pero con trucos de ingeniería más inteligentes para obtener más por su dinero en términos de GPU”, dijo Brundage.

Para ser claros, otros laboratorios emplean estas técnicas (DeepSeek utilizó una “mezcla de expertos”, que solo activa partes del modelo para ciertas consultas. GPT-4 también lo hizo).

La versión de DeepSeek innovó en este concepto al crear categorías de expertos más precisas y desarrollar una forma más eficiente para que se comunicaran, lo que hizo que el proceso de entrenamiento en sí fuera más eficiente. El equipo de DeepSeek también desarrolló algo llamado DeepSeekMLA (Multi-Head Latent Attention), que redujo drásticamente la memoria necesaria para ejecutar modelos de IA al comprimir la forma en que el modelo almacena y recupera información.

Lo que sorprende al mundo no es sólo la arquitectura que condujo a estos modelos, sino el hecho de que haya sido capaz de replicar tan rápidamente los logros de OpenAI en cuestión de meses, en lugar de la brecha de más de un año que suele verse entre los principales avances en IA, añadió Brundage.

OpenAI se posicionó como una empresa única en su género capaz de desarrollar inteligencia artificial avanzada, y esta imagen pública le ha valido el apoyo de los inversores para construir la infraestructura de centro de datos de inteligencia artificial más grande del mundo.

Pero la rápida replicación de DeepSeek demuestra que las ventajas técnicas no duran mucho, incluso cuando las empresas intentan mantener sus métodos en secreto.

“Es evidente que, hasta cierto punto, estas empresas de fuentes cerradas viven de la gente que piensa que están haciendo las cosas más grandiosas y que así es como pueden mantener su valoración. Y tal vez exageraron un poco para recaudar más dinero o desarrollar más proyectos”, dice von Werra. “Nadie sabe si exageraron lo que tenían internamente, obviamente les beneficia”.

Hablando de dinero
La comunidad inversora lleva ya algún tiempo mostrando un optimismo delirante respecto de la IA , prácticamente desde que OpenAI lanzó ChatGPT en 2022. La pregunta no ha sido tanto si estamos en una burbuja de la IA, sino más bien si las burbujas son realmente buenas (“ Las burbujas tienen una connotación injustamente negativa ”, escribió DeepWater Asset Management en 2023).

No está claro que los inversores entiendan cómo funciona la IA, pero aun así esperan que proporcione, como mínimo, amplios ahorros de costes. Dos tercios de los inversores encuestados por PwC esperan ganancias de productividad gracias a la IA generativa, y un número similar espera también un aumento de los beneficios, según un informe de diciembre de 2024 .

La empresa pública que más se ha beneficiado de este ciclo de publicidad ha sido Nvidia, que fabrica los sofisticados chips que utilizan las empresas de inteligencia artificial. La idea ha sido que, en la fiebre del oro de la inteligencia artificial, comprar acciones de Nvidia era invertir en la empresa que fabricaba las palas. Sin importar quién saliera vencedor en la carrera de la inteligencia artificial, necesitaría una reserva de chips de Nvidia para ejecutar los modelos. El 27 de diciembre, las acciones cerraron a 137,01 dólares, casi 10 veces el valor de las acciones de Nvidia a principios de enero de 2023.

El éxito de DeepSeek pone patas arriba la teoría de inversión que llevó a Nvidia a fijar precios astronómicos. Si la empresa realmente está utilizando los chips de manera más eficiente (en lugar de simplemente comprar más chips), otras empresas comenzarán a hacer lo mismo. Eso puede significar que habrá menos mercado para los chips más avanzados de Nvidia, ya que las empresas intentarán recortar su gasto.

“Las expectativas de crecimiento de Nvidia eran definitivamente un poco ‘optimistas’, así que considero que esto es una reacción necesaria”, afirma Naveen Rao, vicepresidente de IA de Databricks. “No es probable que los ingresos actuales que genera Nvidia estén amenazados, pero sí el crecimiento masivo experimentado en los últimos dos años”.

Nvidia no fue la única empresa que se vio impulsada por esta tesis de inversión. Las Siete Magníficas (Nvidia, Meta, Amazon, Tesla, Apple, Microsoft y Alphabet) superaron al resto del mercado en 2023, aumentando su valor en un 75 por ciento . Continuaron esta asombrosa racha alcista en 2024, y todas las empresas, excepto Microsoft, superaron al índice S&P 500. De ellas, solo Apple y Meta no se vieron afectadas por la caída relacionada con DeepSeek.

El furor no se ha limitado a los mercados públicos. Empresas emergentes como OpenAI y Anthropic también han alcanzado valoraciones vertiginosas ( 157.000 millones de dólares y 60.000 millones de dólares , respectivamente) a medida que los inversores de capital riesgo han invertido dinero en el sector . La rentabilidad no ha sido una preocupación tan grande. Se espera que OpenAI pierda 5.000 millones de dólares en 2024 , a pesar de que estima unos ingresos de 3.700 millones de dólares.

El éxito de DeepSeek sugiere que gastar una gran cantidad de dinero no es tan seguro como pensaban muchas empresas e inversores. Da a entender que las pequeñas empresas emergentes pueden ser mucho más competitivas que los gigantes, e incluso pueden llegar a desestabilizar a los líderes conocidos mediante innovaciones técnicas. Así que, si bien ha sido una mala noticia para los grandes, puede ser una buena noticia para las pequeñas empresas emergentes de IA, en particular porque sus modelos son de código abierto.

Así como el rally alcista fue al menos en parte psicológico, la liquidación también puede serlo. Von Werra, de Hugging Face, sostiene que un modelo de entrenamiento más barato en realidad no reducirá la demanda de GPU. “Si puedes construir un modelo superfuerte a una escala más pequeña, ¿por qué no lo escalarías de nuevo a una escala mayor?”, pregunta. “Lo natural es que descubras cómo hacer algo más barato, ¿por qué no escalarlo y construir una versión más cara que sea aún mejor?”.

La optimización como necesidad
Pero DeepSeek no solo está sacudiendo el panorama de las inversiones, sino que también es un claro aviso de advertencia por parte de China a Estados Unidos. Los avances logrados por los modelos de DeepSeek sugieren que China puede alcanzar fácilmente la tecnología de punta de Estados Unidos, incluso con controles de exportación en vigor.

Los controles a las exportaciones de chips de última generación, que comenzaron en serio en octubre de 2023, son relativamente nuevos y aún no se ha sentido su efecto completo , según el experto de RAND Lennart Heim y Sihao Huang, un candidato a doctorado en Oxford que se especializa en política industrial.

Estados Unidos y China están adoptando enfoques opuestos. Mientras que DeepSeek de China demuestra que se puede innovar mediante la optimización a pesar de contar con una capacidad computacional limitada, Estados Unidos apuesta fuerte por la potencia bruta, como se ve en el proyecto Stargate de 500 mil millones de dólares de Altman con Trump.

“Los modelos de razonamiento como el R1 de DeepSeek requieren muchas GPU para su uso, como lo demuestra el hecho de que DeepSeek rápidamente tuvo problemas para ofrecer su aplicación a más usuarios”, dijo Brundage. “Teniendo en cuenta esto y el hecho de que ampliar el aprendizaje por refuerzo hará que los modelos de DeepSeek sean aún más fuertes de lo que ya son, es más importante que nunca que Estados Unidos tenga controles efectivos de exportación de GPU”.

El chatbot de DeepSeek ha superado a ChatGPT en el ranking de las tiendas de aplicaciones, pero tiene serias advertencias. Las empresas emergentes en China deben enviar un conjunto de datos de 5.000 a 10.000 preguntas que el modelo se negará a responder, aproximadamente la mitad de las cuales se relacionan con la ideología política y la crítica al Partido Comunista, informó The Wall Street Journal . La aplicación bloquea la discusión de temas sensibles como la democracia de Taiwán y la Plaza de Tiananmen, mientras que los datos de los usuarios fluyen a servidores en China , lo que plantea preocupaciones tanto de censura como de privacidad.

Hay algunas personas que se muestran escépticas respecto de que los logros de DeepSeek se hayan logrado de la manera descrita. “Cuestionamos la idea de que sus hazañas se hayan logrado sin el uso de GPU avanzadas para afinarlas y/o construir los LLM subyacentes en los que se basa el modelo final”, afirma el analista de Citi Atif Malik en una nota de investigación. “Parece categóricamente falso que ‘China haya duplicado OpenAI por 5 millones de dólares’ y no creemos que realmente merezca más discusión”, afirma la analista de Bernstein Stacy Rasgon en su propia nota.

Para otros, los controles a las exportaciones tuvieron un efecto contraproducente: en lugar de frenar a China, forzaron la innovación. Mientras Estados Unidos restringía el acceso a chips avanzados, empresas chinas como DeepSeek y Qwen de Alibaba encontraron soluciones creativas: optimizaron las técnicas de capacitación y aprovecharon la tecnología de código abierto mientras desarrollaban sus propios chips.

Sin duda, alguien querrá saber qué significa esto para la IA general, que los expertos más entendidos en IA entienden como una utopía destinada a atraer capital. (En diciembre, Altman, de OpenAI, bajó notablemente el listón de lo que se considera IA general, de algo que podría “elevar a la humanidad” a algo que “importará mucho menos” de lo que la gente cree). Como la superinteligencia de la IA sigue siendo en gran medida puramente imaginativa, es difícil saber si es siquiera posible, y mucho menos algo en lo que DeepSeek haya dado un paso razonable. En este sentido, el logotipo de la ballena es correcto: se trata de una industria llena de Ahabs. El resultado final de la IA todavía es una incógnita.

Los futuros líderes de IA pidieron
La IA ha sido una historia de excesos: centros de datos que consumen energía a escala de países pequeños, entrenamientos que cuestan miles de millones de dólares y una narrativa de que solo los gigantes tecnológicos podían jugar a este juego. Para muchos, parece que DeepSeek acaba de destruir esa idea.

Aunque parezca que los modelos como DeepSeek, al reducir los costes de formación, pueden solucionar problemas de IA que son perjudiciales para el medio ambiente, lamentablemente no es tan sencillo. Tanto Brundage como von Werra coinciden en que unos recursos más eficientes implican que es probable que las empresas utilicen incluso más recursos informáticos para obtener mejores modelos. Von Werra también afirma que esto significa que las empresas emergentes más pequeñas y los investigadores podrán acceder más fácilmente a los mejores modelos, por lo que la necesidad de recursos informáticos no hará más que aumentar.

El uso de datos sintéticos por parte de DeepSeek tampoco es revolucionario, aunque sí demuestra que es posible que los laboratorios de inteligencia artificial creen algo útil sin robar todo Internet. Pero ese daño ya está hecho: solo hay un Internet y ya ha entrenado modelos que serán fundamentales para la próxima generación. Los datos sintéticos no son una solución completa para encontrar más datos de entrenamiento, pero son un enfoque prometedor.

Lo más importante que hizo DeepSeek fue simplemente ser más barato. No hace falta tener conocimientos técnicos para entender que las herramientas de IA potentes pronto podrían ser mucho más asequibles. Los líderes de IA han prometido que el progreso se producirá rápidamente. Un cambio posible puede ser que ahora alguien pueda fabricar modelos de vanguardia en su garaje.

La carrera por la inteligencia artificial es en gran medida imaginaria. Sin embargo, el dinero es muy real. DeepSeek ha demostrado de forma contundente que el dinero por sí solo no es lo que coloca a una empresa en la cima del campo. Las implicaciones a largo plazo de esto pueden reconfigurar la industria de la inteligencia artificial tal como la conocemos.

deepseek, junior caminero, hornets – lakers, empleados no sectorizados, serie del caribe 2025, juan soto, rafael montero, aguilas cibaeñas, emilio bonifacio, alavés – celta de vigo, knicks – grizzlies, mavericks – wizards, socrates brito, johan rojas, mlb, inning, harold ramirez, abogado josé rafael ariza morillo, colombia donald trump, frente frio 25, selena gomez, grandes en los deportes, al qadisiya – al hilal, weather, sondaj curs, capodanno cinese, el tiempo hoy, banfield – newell’s, paro de trenes, nvidia, guillermo vilas, murio enrique eskenazi, selena gomez, consumos duplicados visa, clima, tomas nasif, grilla cosquin 2025, anses bono auh febrero 2025, neymar, incendio pinamar, hornets – lakers, uruguay sub-20 – paraguay sub-20, al qadisiya – al hilal, uocra, bulls – nuggets, davos, kevin castaño, loan, genoa – monza, f1 exhibition buenos aires, zilinak, bini global, cnio, spot, tolima – pasto, epa colombia, águilas doradas – la equidad, nvidia acciones, resultados loterías, rcn en vivo hoy 2025, lady tabares, humberto de la calle, dario gomez, vendsyssel, dario gomez novela, temblor en colombia, precio dolar hoy colombia, donald trump gustavo petro, caracol tv, genoa – monza, yo me llamo, en vivo, chile sub-20 – perú sub-20, gliwice, precio dólar hoy venezuela bcv, deepseek ai, dia de la zulianidad, 28 de enero, neymar, epa colombia, hora, venezuela, provincial, bonos patria, precio dólar hoy venezuela bcv, cne venezuela, damac – al ittihad, donald trump presidente estados unidos, la casa de los famosos colombia, película el castillo de arena, al hilal, venus williams, lidom, deepseek que es, baldoni, ana brnabić, lds church, jessica alba, nvidia bolsa, reducción jornada laboral, alice campello, incendio coche m40 madrid, lidia bedman, captura epa colombia, mocion de censura montefrio, cuestion de confianza, crims, england vs india, antiga massana, catherine laborde, ines hernand, berenguercádiz – mirandés, garcia page, sara sorribes, carmen morales, omnibus, esteban gonzález pons, sara garcia alonso, álvaro garcía Ortiz, inteligencia artificial china deepseek, alice campello, ebra, jamie smith, harry brook, dólar blue, lamberto quintero, que paso el 28 de enero, carlos loreto, inteligencia artificial china deepseek, pau lopez, tekit, leon vs chivas, izzi, genoa vs monza, alma rosa aguirre, hornets – lakers, america vs san luis, zayn malik mexico, martes y miercoles soriana, zayn, martes de frescura 28 de enero 2025, beca rita cetina 2025, 5 de febrero que se celebra, golfo de mexico, necaxa vs cruz azul, concurso pf, abc tv, google, federal grants paused, matthew huttle, jim acosta, track meet official, mexican cartels, lakers vs hornets, rockets vs celtics, selena gomez net worth, snap benefits, clippers vs suns, google maps gulf of mexico, gary peters, ron desantis, caleb love, track meet official nyt, boom supersonic, doomsday clock, gabriel macht, coca cola recalls drinks, usaid, snap, medicaid, sam parker, jd mcdonagh, aum, golf von amerika maps, alma rosa, ind vs eng,cricket, hotstar, punjab fc vs jamshedpur, kris gopalakrishnan, icc, deepseek ai stocks, aibe 19 exam result, integrated registry management services, cricinfo, zoho sridhar vembu, ind vs aus, dhruv jurel, live score cricket, hotstar live, espncricinfo, liam livingstone, washington sundar, sanju samson, suzlon energy q3 results schedule, suryakumar yadav, adil rashid, disney, delhi vs railways ranji match, cricbuzz, heroes of newerth, happy new year 2025, heroes of newerth, akor adams, rauf aregbesola, champions league fixtures, recruitment federal civil service, patrick dorgu, den of thieves 2. salford city vs newport county, apple ios 18.3 update, 2026 toyota rav4, boniface, portsmouth vs millwall, uefa champions league fixtures, dorgu, barcelona vs atalanta, stellenbosch fc vs kruger united, greifswalder fc vs fc viktoria 1889 berlin, burnley vs leeds, bello turji, open heaven 28 january 2025, abuja, david coote, sowore, when is afcon 2025 starting, golfo de méxico, stream, dubai capitals vs sharjah warriors, coca cola recalls drinks, david coote, mar, karren brady, portsmouth vs millwall, andrew lloyd webber, parklife, wrexham vs stevenage, huddersfield vs birmingham, boom supersonic flight, what did wynne jones say, patrick dorgu, when is chinese new year 2025, garmin watch blue triangle, stephen gately, doomsday clock, radio 1 big weekend 2025, cardiff university, mathys tel, prince charles cinema, karoline leavitt, bolton vs northampton town, wwe 2k25, pogba, deepseek, bahrajn, barca atalanta, karoline leavitt, fortaleza x cariri, lotofacil 3304, marina colasanti, socio rei, palmeiras x bragantino, inteligência artificial chinesa deepseek, relógio do juízo final, lucas esteves, hornets x lakers, ano novo chines, wanderson, luis castro, claudia raia, quina 6642neymar idade, wrexham x stevenage, deepseek chat, deivid washington, argentina sub-20 x bolívia sub-20, ea,

Latest

Newsletter

spot_img

Don't miss

Facebook capitula ante Donald Trump y pagará 25 millones de dólares por haberlo bloqueado a instancia política

Por Josh Gerstein, El Político Meta resuelve demanda de Trump...

Alianza de Donald Trump con gigantes tecnológicos, españoles llaman “Tecnocasta” y en EE.UU. “Muskificación”

La 'muskificación' del gobierno federal está en pleno apogeo Análisis...

Robert F. Kennedy Jr. rechaza la etiqueta de “antivacunas” en la audiencia de confirmación

Por Amanda Seitz WASHINGTON (AP) — La audiencia de confirmación...
spot_imgspot_img

Donald Trump albergará en Guantánamo 30.000 “extranjeros ilegales criminales”, ya que allí dice “Es un lugar difícil del que salir”

Por Greg Wehner Fox News El presidente Donald Trump anunció el miércoles que ordenaría al Pentágono preparar la Bahía de Guantánamo para detener a 30.000...

Facebook capitula ante Donald Trump y pagará 25 millones de dólares por haberlo bloqueado a instancia política

Por Josh Gerstein, El Político Meta resuelve demanda de Trump por prohibición de Facebook por 25 millones de dólares Según el acuerdo, Meta pagará 22 millones...

Alianza de Donald Trump con gigantes tecnológicos, españoles llaman “Tecnocasta” y en EE.UU. “Muskificación”

La 'muskificación' del gobierno federal está en pleno apogeo Análisis de Clare Duffy , CNN En noviembre de 2022, días después de que Elon Musk tomara...

DEJE SU RESPUESTA

Please enter your comment!
POr favor, entre su nombre