POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

TPU: Por qué Google no espera en la fila para las GPU de NVIDIA (2/2)

¿Por qué Google no compra GPUs de NVIDIA?

Publicado el 13/12/2025

En la segunda parte de este artículo exploramos por qué Google diseñó los TPU en lugar de esperar a las GPU de NVIDIA y cómo estas decisiones de arquitectura han cambiado el juego para la inteligencia artificial. Aquí traducimos y reimaginamos los conceptos claves, además de explicar cómo empresas como Q2BSTUDIO aplican estas tecnologías en soluciones reales de software a medida.

Precision suficiente: bfloat16 En la computación científica tradicional se usan formatos FP64 o FP32 por su elevada precisión. En Deep Learning no siempre hace falta tanta exactitud. Google apostó por bfloat16, un formato de 16 bits que mantiene el amplio rango dinámico de FP32 pero sacrifica precisión en los dígitos menos significativos. A diferencia de FP16, que puede provocar fallos de entrenamiento por no cubrir rangos muy pequeños o muy grandes, bfloat16 conserva la capacidad de representar números extremadamente pequeños o grandes, algo crítico para redes neuronales. El éxito de este enfoque llevó a NVIDIA a incorporar bfloat16 en sus A100 y H100. En generaciones más recientes el soporte nativo de FP8 se ha vuelto relevante para maximizar rendimiento en inferencia y entrenamiento eficientes.

De un chip a un Pod: escalabilidad mediante TPU Pod Un solo chip TPU es potente para operaciones matriciales, pero insuficiente para los modelos masivos actuales. Google agrupó chips para crear TPU Boards, apiló Boards para formar TPU Racks y alineó Racks para construir un TPU Pod. Al ligar miles de chips se logra que el software perciba un único acelerador gigantesco. Un Pod con miles de chips permite paralelizar enormes modelos como si se trabajara en un único procesador 4.096 veces más rápido o incluso más en versiones modernas.

Interconexión entre chips: ICI Para entrenar modelos los chips necesitan intercambiar datos con latencia mínima. Ethernet es demasiado lento para ese propósito, por eso Google desarrolló ICI Inter-Chip Interconnect. Esta interconexión permite que los TPUs comuniquen datos sin pasar por la CPU y, combinada con una topología 3D tipo toro, reduce el número de saltos entre chips y acelera las sincronizaciones globales.

Usar luz en vez de electricidad: OCS En la versión TPU v4 Google introdujo el Optical Circuit Switch. En lugar de convertir señales de luz a electricidad y de nuevo a luz para enrutar datos, se usan espejos MEMS que redirigen directamente los haces ópticos. Esto reduce la latencia al mínimo y permite reconfigurar rutas instantáneamente si fallan componentes, mejorando la resiliencia de todo el Pod.

Refrigeración directa Agregar miles de chips aumenta el calor generado; los sistemas de ventilación tradicionales no son suficientes. Google utiliza refrigeración líquida directa al chip mediante tuberías con refrigerante aplicadas sobre los chips, convirtiendo sus centros de datos en grandes acuarios para mantener temperaturas estables y mejorar la eficiencia energética.

Software: JAX y XLA El hardware sin software es inútil. Google impulsa JAX como interfaz de alto nivel que se siente como NumPy pero corre en aceleradores. XLA es el compilador que convierte el código en HLO y lo optimiza para TPU/GPU. XLA fusiona kernels, reduce accesos a memoria y mantiene datos en registros, lo que aprovecha las arquitecturas tipo Systolic Array al realizar multiplicaciones y sumas en una sola pasada.

TPU 7 Ironwood En 2025 Google presentó Ironwood, la séptima generación de TPU orientada a cubrir tanto inferencia en LLM como entrenamiento a gran escala. Entre sus características están soporte nativo de FP8 y más de 4.600 TFLOPS en FP8, 192 GB de HBM3E por chip con 7,37 TB/s de ancho de banda, pods ampliables a más de 9.000 chips con ICI a 1,2 TB/s bidireccional, y mejoras de eficiencia energética mediante refrigeración directa al chip. Todo esto está diseñado para reducir los cuellos de botella de memoria típicos en modelos de lenguaje grandes.

Entonces, si los TPU son tan buenos, por qué están las GPU tan presentes La respuesta no es solo rendimiento crudo. NVIDIA acumuló un ecosistema enorme con CUDA desde 2006 y la mayoría de frameworks y herramientas del ecosistema AI giran alrededor de esa plataforma. Cambiar a TPU exige migrar código y, a veces, adoptar herramientas distintas como JAX para exprimir al máximo el hardware. Además, las GPU son hardware que se puede comprar e instalar on premise, mientras que los TPU están disponibles principalmente como servicio en Google Cloud, lo que introduce preocupaciones de vendor lock-in para empresas que ya usan AWS o Azure.

Comparativa rápida Las GPU de NVIDIA son versátiles, buenas en gráficos, criptografía y AI general; las TPU de Google son especialistas en álgebra lineal y optimizadas para modelos de Deep Learning mediante systolic arrays, formatos como bfloat16 y FP8, y redes de interconexión a gran escala.

Cómo aplica esto en la práctica Q2BSTUDIO En Q2BSTUDIO desarrollamos soluciones de software a medida y aplicaciones a medida que integran lo mejor de ambos mundos: infraestructuras cloud y aceleradores para tareas de inteligencia artificial y análisis avanzado. Ofrecemos servicios de inteligencia artificial, ia para empresas y agentes IA que aprovechan entornos optimizados para rendimiento y coste, así como servicios cloud aws y azure para desplegar modelos y pipelines de datos de forma segura y escalable. También cubrimos ciberseguridad y pentesting para proteger modelos, datos y despliegues productivos, y servicios de inteligencia de negocio y power bi para transformar datos en decisiones operativas.

Si su organización busca implantar modelos de LLM, automatizar procesos o desplegar agentes IA con garantías de seguridad y rendimiento, en Q2BSTUDIO combinamos experiencia en arquitectura de infraestructuras, optimización para aceleradores y desarrollo de aplicaciones a medida para lograr soluciones robustas y escalables. Descubra cómo podemos ayudarle a integrar IA y cloud en su negocio con servicios de inteligencia artificial que aumenten productividad y seguridad.

En resumen, los TPU son una apuesta por la eficiencia y la escala diseñadas específicamente para la naturaleza del aprendizaje profundo. Las GPU conservan su hegemonía por ecosistema y disponibilidad. Desde Q2BSTUDIO ayudamos a empresas a navegar estas opciones, diseñando software a medida, desplegando infraestructuras en servicios cloud aws y azure, protegiendo entornos con ciberseguridad y extrayendo valor mediante servicios inteligencia de negocio y power bi.

Fin del artículo, inicio de la diversión
Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Live Chat
Enviado correctamente.

Gracias por confiar en Q2BStudio