Rendimiento del sistema de IA en el borde: más allá de los modelos

Publicado el 30/08/2025

Después de más de dos años trabajando en habilitar casos de uso para aceleradores de IA en el edge, comparto aquí una reflexión sobre el rendimiento del sistema y por qué va mucho más allá del modelo

Los usuarios finales se preocupan por el rendimiento end to end que incluye latencia, consumo de energía y throughput en ese orden; cuando hablamos de aplicaciones a medida y software a medida estos factores definen la experiencia real

El rendimiento end to end supera con creces el rendimiento del modelo puro porque incluye sobrecargas que no suelen aparecer en benchmarks: carga de datos desde DRAM a memorias on chip, transferencias entre CPU y aceleradores por bus como PCIe, copias entre espacio de usuario y kernel, comunicaciones entre procesos e interrupciones al CPU que ejecuta el sistema operativo y pre y postprocesos específicos de la aplicación como tokenización o conversiones YUV2RGB

Las aplicaciones de IA en el edge difieren del software tradicional en varios puntos clave: existe una fase de carga del modelo y el tamaño del modelo suele ser grande; una vez cargado, el modelo se reutiliza en inferencias sucesivas; las inferencias pueden consumir y producir blobs de datos grandes; y normalmente la inferencia no es la etapa final del flujo salvo excepciones como algunos grandes modelos de lenguaje

En muchos proyectos más del 60 al 80 por ciento de la latencia end to end proviene de las capas de software por encima de la inferencia del modelo y en casos extremos supera el 90 por ciento. Imaginemos una imagen de alta resolución capturada por una cámara embebida que debe ser troceada, enviada y recibida por PCIe mientras Android la controla y la GPU realiza postprocesado: el coste software domina

Un reto adicional es la gestión de proyectos y la política organizacional; un caso de uso completo suele implicar múltiples subsistemas gestionados por equipos distintos y bajo diferentes direcciones. Convencer a todos de que el rendimiento end to end es una prioridad es a menudo el primer y más difícil paso. Después vienen tareas de definición de métricas, presupuestos, modelado e integración para llegar a optimizaciones reales

Para entender y mejorar el rendimiento es esencial adoptar una vista de sistema. Hay que alejarse del sesgo de pertenencia a hardware o software y analizar componentes como un conjunto. Involucrar expertos de dominios distintos aporta visiones complementarias que suelen descubrir cuellos de botella inesperados

Mi arma favorita para avanzar frente a disputas y suposiciones es la toma de decisiones basada en datos. Con métricas reales es mucho más sencillo priorizar y acordar cambios. Para ello hacen falta una definición clara de métricas finales como latencia, throughput y consumo, y un sistema de modelado o un prototipo con sus compromisos y herramientas de perfilado integradas

En la práctica de perfilado y optimización conviene distinguir entre latencia, throughput y potencia

Latencia: medir es sencillo pero hay que medir en todos los estadios de la pila. Contadores de ciclo y tiempos de pared ayudan, pero hay que tener en cuenta que la propia medición puede añadir latencia si se usan interfaces lentas para informar estados. Guardar datos intermedios en memoria y volcarlos con periodicidad reduce ese impacto. Desactivar DVFS y modos de suspensión para desarrollo temprano ayuda a obtener medidas estables. Cuando participan varios CPUs hay que sincronizar tiempos y considerar la resolución del timer; por ejemplo una IPC a Linux puede tardar en torno a 200 microsegundos y una transferencia de 1 MiB por PCIe 4.0 single-lane puede necesitar 600 a 700 microsegundos

Para optimizar latencia conviene optimizar algoritmos y aprovechar aceleraciones con procesadores vectoriales, minimizar copias de memoria eliminando copias inútiles, reducir overheads de IPC reagrupando particiones funcionales cuando sea posible y considerando la carga en cada procesador, usar caching más allá del caché CPU por ejemplo mantener pesos de modelos frecuentes en memoria de GPU y paralelizar donde sea útil ejecutando partes del modelo en distintos motores con sincronización

Throughput: se mide desde la perspectiva del usuario final como frames por segundo u operaciones por segundo. Mejorar latencia suele mejorar throughput, pero además se logra paralelizando transferencias y cómputo para solapar etapas, y gestionando cambios de contexto con políticas de calidad de servicio que permitan suspender y restaurar tareas de baja prioridad sin degradar las de alta prioridad

Potencia: hay que considerar tres ángulos distintos, corriente pico, TDP y energía total. Corriente pico define requisitos de PMIC, TDP condiciona disipación y diseño térmico y energía total impacta la capacidad de batería. En dispositivos edge alimentados por batería los tres importan

La palanca más efectiva para reducir consumo es bajar la tensión de alimentación, lo que explica la presión por procesos semiconductores más avanzados y por elegir voltajes nominales más bajos a costa de frecuencia máxima. Para reducir corriente pico se puede bajar frecuencia, escalonar tareas en lugar de ejecutar en paralelo o usar DVFS. Para reducir TDP hay que planificar cortes de dominios de potencia en tiempos de minutos y para reducir energía total conviene algoritmos de bajo consumo, sustituir cómputo general por aceleradores especializados y minimizar accesos a memoria externa usando memoria on chip y caches

Las técnicas descritas se aplican tanto a proyectos de investigación como a productos en producción y son críticas cuando se desarrollan aplicaciones a medida e integraciones de inteligencia artificial en dispositivos reales

En Q2BSTUDIO como empresa de desarrollo de software y aplicaciones a medida nos especializamos en llevar estas consideraciones a soluciones reales. Ofrecemos servicios de software a medida, integraciones de inteligencia artificial e ia para empresas, desarrollo de agentes IA y soluciones de power bi para análisis y visualización. También cubrimos ciberseguridad, servicios cloud aws y azure y servicios inteligencia de negocio para asegurar que las aplicaciones a medida no solo funcionen en laboratorio sino que ofrezcan rendimiento end to end en producción

Nuestro enfoque es pragmático: modelado de sistema y prototipado temprano, perfilado exhaustivo de latencia, throughput y consumo, decisiones guiadas por datos y coordinación entre equipos de hardware, OS y aplicación. Esto permite a nuestros clientes desplegar soluciones de inteligencia artificial escalables, seguras y optimizadas para el edge

Si necesitas un partner para desarrollar software a medida con experiencia en inteligencia artificial, agentes IA, power bi, ciberseguridad, servicios cloud aws y azure y servicios inteligencia de negocio, Q2BSTUDIO puede ayudar a definir métricas, crear prototipos y optimizar el rendimiento end to end para tus aplicaciones a medida

Palabras clave relevantes para posicionamiento: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi

POLITICA DE COOKIES

Rendimiento del sistema de IA en el borde: más allá de los modelos

Rendimiento de la IA en el borde: más allá de los modelos

Dando vida a tus ideas desde 2008