En menos de un año, MCP se ha convertido en el estándar para exponer funciones y datos externos a modelos de lenguaje grandes. Parecía que los sistemas con agentes iban a transformar tareas cotidianas, pero en entornos reales siguen fallando más allá de demostraciones sencillas. Este artículo explica qué tareas resuelven bien los agentes actuales, por qué tropiezan con problemas complejos y cómo podemos solucionarlo de forma práctica y segura.
Donde los sistemas agenticos funcionan bien
Los agentes con capacidad de llamar herramientas dieron el gran salto: los LLM dejaron de ser solo generadores de texto y comenzaron a interactuar con documentos, APIs y flujos de trabajo. MCP amplió esto al ofrecer miles de servidores que los modelos pueden consultar directamente. Casos de éxito incluyen monitorización de eventos y alertas como detectar correos enfadados y notificar a gestión, extracción de datos para crear pedidos provisionales, análisis de texto no estructurado en contratos legales, generación de insights basados en datos para seleccionar proveedores, ayuda dentro de apps para funciones complejas y asistentes de programación como GitHub Copilot. En estas implementaciones exitosas suelen coincidir rasgos como agentes especializados por tarea, workflows estructurados, contexto de trabajo reducido por iteración y ciclos de trabajo cortos con intervención humana en puntos críticos.
Los cuatro grandes problemas en el mundo real
Problema 1 Trabajar con datos reales. Aunque las ventanas de contexto crecen, ningún modelo puede procesar de forma eficaz una base de datos o tablas reales completas. Operaciones habituales como encontrar los top 3 clientes por gasto, detectar carritos abandonados o generar gráficos por producto requieren extraer solo filas relevantes; alimentar tablas enteras al modelo es inviable por coste y errores, y crear métodos para cada consulta escalaría mal. MCP que genera SQL dinámico ayuda, pero introduce riesgos de seguridad y puede devolver miles de filas que colapsan la ventana de contexto.
Problema 2 Bucles de llamadas ida y vuelta. Cada llamada a herramienta implica enviar al modelo la lista completa de funciones, devolver un payload JSON con el nombre y parámetros, ejecutar el método en el cliente y regresar el resultado al modelo para decidir el siguiente paso. En tareas multi paso ese loop secuencial añade latencia y consume tokens, y no siempre es posible paralelizar porque las llamadas dependen de resultados previos.
Problema 3 Cantidad y calidad de herramientas. Pasar muchas herramientas confunde el prompt. OpenAI recomienda menos de 20 funciones, pero en MCP aparecen docenas. Hay colisiones de nombres entre servidores, parámetros anidados que degradan rendimiento si no se aplanan y dependencias de estado que el modelo interpreta mal, lo que aumenta fallos.
Problema 4 El trabajo autónomo es arriesgado. Los benchmarks son simplificados y no reflejan casos reales llenos de ambigüedad y excepciones. Un 1 por ciento de error puede destruir integridad de datos o confianza de usuarios. La comunicación entre agentes es frágil y errores pequeños se amplifican en pipelines largos, además de la no determinista de los modelos que complica reproducir fallos.
Una solución práctica: pedir código en lugar de instrucciones
El patrón habitual fuerza al LLM a decidir en cada paso qué función llamar. En realidad lo que necesitamos es el algoritmo, es decir el plan preciso de qué herramientas usar, en qué orden y cómo unir entradas y salidas. El formato más explícito para ese plan es el código. Los modelos ya son muy buenos generando scripts. En vez de preguntar qué función invocar ahora, pedimos al modelo que genere código que use una API predefinida y ejecutamos ese código en el cliente. Así el modelo especifica la lógica y el cliente realiza la ejecución sobre datos reales.
Para que esto funcione hay que exponer una API de referencia al modelo: declaraciones de clases y métodos que puede llamar al generar el script. Esa API no necesita implementación real en el prompt, solo firmas y tipos para que el LLM escriba código consistente. Ejecutaremos el script en un entorno controlado donde las llamadas reales están mapeadas a métodos seguros.
Beneficios inmediatos Este enfoque resuelve dos problemas críticos Trabajo con datos reales porque el código ejecuta consultas y procesos en el cliente evitando enviar grandes volúmenes al modelo, y Bucles de ida y vuelta porque el algoritmo se genera de una sola vez, eliminando intercambios repetidos. También mejora la gestión de muchas herramientas al agrupar acciones en clases con firmas claras, reduciendo ambigüedad y creando orden implícito en el flujo de llamadas.
Seguridad y ejecución
La ejecución de scripts generados por IA exige precauciones. Recomendaciones prácticas incluyen ejecutar en sandbox o contenedores aislados y restringir lo que el script puede importar o ejecutar, por ejemplo permitiendo solo las clases y ensamblados que hemos expuesto en la API. Con estas barreras controlamos riesgo y mantenemos trazabilidad.
Implementación y ejemplo práctico
Este patrón ya existe implementado en bibliotecas como ASON que generan scripts tipo agentes y los ejecutan de forma controlada, manteniendo al humano en el lazo cuando hace falta. En la práctica, los agentes pueden preparar cambios y abrir formularios de edición con valores sugeridos, dejando la decisión final al usuario para evitar acciones peligrosas, siguiendo un patrón similar al de asistentes de programación.
Cómo Q2BSTUDIO puede ayudar
En Q2BSTUDIO somos especialistas en desarrollo de software y aplicaciones a medida, integración de agentes IA y soluciones de ciberseguridad. Diseñamos arquitecturas que combinan agentes IA, servicios cloud aws y azure y prácticas de seguridad para llevar prototipos a producción sin sacrificar robustez. Si necesita desarrollar una plataforma con agentes inteligentes o mejorar procesos internos con ia para empresas podemos ofrecerle soluciones personalizadas y seguridad por diseño. Conecte sus necesidades con nuestra experiencia en software a medida y en inteligencia artificial para empresas.
Además podemos integrar servicios de inteligencia de negocio y Power BI para visualizar resultados, automatizar procesos con flujos controlados y proteger toda la cadena con ciberseguridad y pentesting. Nuestro enfoque cubre desde la arquitectura en la nube hasta la experiencia final del usuario y el modelo de gobernanza de datos.
Resumen
Los sistemas agenticos con MCP y tool calling son potentes pero vulnerables fuera de demos. La forma más efectiva de escalar es pedir al LLM que genere código usando una API declarativa y ejecutar ese código en el cliente dentro de un entorno seguro. Esto reduce el consumo de tokens, evita bucles ineficientes, facilita trabajar con muchas herramientas y mitiga riesgos operativos. Si quiere explorar una implementación segura y productiva, en Q2BSTUDIO podemos ayudarle a diseñar e implementar soluciones a medida que combinan agentes IA, servicios cloud aws y azure, inteligencia de negocio y ciberseguridad.