Construyendo un revisor de código de IA: Lo que aprendí al conectar LLMs en código real

Publicado el 06/12/2025

Hace meses que utilizo Claude, Copilot y ChatGPT, pero no tenía claro cómo integrar realmente un LLM en mi propio código. Para aprender construí un revisor de código por línea de comandos que analiza diffs de git usando modelos locales y en la nube. El objetivo fue experimentar con prompt engineering, patrones de integración de LLM y enfrentarse al problema real de que la IA invente información con total seguridad.

En Q2BSTUDIO, empresa especializada en desarrollo de software, aplicaciones a medida y soluciones de inteligencia artificial, este tipo de experimentos nos permiten crear herramientas prácticas que combinan software a medida y capacidades avanzadas de IA para empresas. Si te interesa cómo integrarlo en una solución productiva, en nuestra web encontrarás más sobre software a medida y sobre nuestros servicios de inteligencia artificial.

Esto es lo que aprendí durante el experimento que llamé Annoying Teammate Code Reviewer, una CLI que puede usar modelos locales mediante Ollama y proveedores cloud como Claude, OpenAI o Gemini, y que permite configurar la personalidad del revisor desde mentor amable hasta el compañero quisquilloso que critica todo.

Descubrimiento 1: los prompts son código, no conversación. Antes creía que bastaba con pedirle algo educadamente al modelo. En la práctica un prompt bien estructurado se parece más a escribir código: el orden importa, la forma importa y pequeños cambios producen grandes efectos. Por ejemplo, definir una persona con manías concretas cambia qué detecta el modelo y cómo lo comunica, lo que mejora la relevancia de los comentarios.

La persona funciona. Al darle al revisor una identidad con frases y pet peeves concretos el modelo produce salidas notablemente diferentes y más útiles. No es magia, es que el modelo ha visto patrones de comunicación en su entrenamiento y los reproduce cuando se activan las indicaciones adecuadas.

Descubrimiento 2: el orden del prompt importa, sobre todo para modelos locales. En modelos pequeños suele ser mejor colocar el diff antes de las instrucciones, porque su ventana de contexto y mecanismos de atención favorecen el texto más reciente. Para GPT-4 u otros modelos cloud con ventanas grandes esto es menos crítico, pero para modelos de 7B en local puede marcar la diferencia entre seguir correctamente las instrucciones o ignorarlas.

Descubrimiento 3: prompts multilayer reducen las alucinaciones, pero no las eliminan. Añadir reglas críticas al inicio, preguntas de autoverificación en medio y ejemplos concretos al final ayuda al modelo a filtrar salidas inventadas. Pedir explícitamente que nunca mencione archivos, funciones o líneas que no aparezcan textualmente en el diff reduce las falsedades, pero no las hace desaparecer del todo. En producción siempre hay que advertir sobre este riesgo y aplicar juicio humano.

Descubrimiento 4: local frente a cloud es un verdadero tradeoff. Ventajas locales incluyen privacidad y coste cero tras descargar el modelo, útiles cuando se revisa código propietario. Las APIs cloud suelen ofrecer mejor razonamiento, mayor contexto y métricas de uso, pero con costes por token y envío de código a servidores externos. Para revisiones enfocadas y de tamaño medio los modelos locales sorprenden por su utilidad; para refactorizaciones complejas o diffs enormes las APIs cloud suelen rendir mejor.

Descubrimiento 5: abstraer proveedores salva tiempo. Cada proveedor usa autenticación distinta, formatos de streaming distintos y patrones de error diferentes. Implementar una interfaz común que exponga métodos como checkHealth, getAvailableModels y streamResponse simplifica el resto de la aplicación y facilita añadir o sustituir proveedores sin reescribir la lógica de negocio.

Uso real y lecciones prácticas. Tras aplicar la herramienta en alrededor de 15 pull requests detectó fallos reales como manejo de errores ausente, imports no usados, magic numbers y condicionales innecesariamente complejos. También generó falsos positivos, por ejemplo incidiendo en tipos en archivos JS o sugiriendo problemas de seguridad inexistentes. La regla 80/20 se cumplió: alrededor del 80 por ciento de las sugerencias fueron útiles, y ese porcentaje mejora la calidad de las revisiones humanas al atrapar detalles cotidianos que solemos pasar por alto.

Retos abiertos. Gestionar el presupuesto de tokens y mantener contexto cuando un diff supera la ventana del modelo es difícil. En monorepos los cambios en paquetes diferentes pueden estar relacionados y truncar contexto rompe el análisis. Mi estrategia actual combina review por lotes y una pasada de consolidación, pero esa consolidación puede perder contexto cruzado entre archivos. Si alguien ha resuelto esto con técnicas de resumen selectivo o memory stitching, nos interesa conocerlo.

Evaluar la calidad de una revisión sigue siendo subjetivo. Todavía no existe una métrica automatizada fiable para comparar reviews de LLM contra revisiones humanas. Además, las actualizaciones de modelos y cambios en APIs pueden romper prompts que antes funcionaban, por lo que crear prompts robustos y fáciles de adaptar es una habilidad práctica más que una ciencia exacta.

Por qué importa. Construir esta herramienta confirmó algo que en Q2BSTUDIO aplicamos a nuestros proyectos de inteligencia artificial y servicios cloud aws y azure: la IA no es magia, es ingeniería. Con buen diseño de prompts, integración modular y controles humanos se puede añadir enorme valor a procesos como la revisión de código, la automatización de procesos o la inteligencia de negocio con Power BI.

Recomendación práctica. Si te interesa experimentar, empieza con algo pequeño que resuelva un problema real en tu flujo de trabajo. Prueba modelos locales para privacidad y coste, y alterna con proveedores cloud cuando necesites más contexto o calidad. Ajusta la personalidad del revisor para que sus salidas encajen con tu equipo y construye prompts defensivos que obliguen al modelo a citar fragmentos concretos antes de comentar problemas.

En Q2BSTUDIO ayudamos a empresas a transformar estas ideas en productos reales, desde aplicaciones a medida y agentes IA hasta ciberseguridad y servicios de intelligence de negocio y power bi integrados en flujos de trabajo de desarrollo seguro. Si necesitas soporte para desplegar soluciones de IA para empresas, agentes IA personalizados, o garantizar seguridad en entornos cloud, nuestro equipo puede ayudarte a diseñar e implementar la solución adecuada.

Conclusión. Los modelos son excelentes patrones matchers, no oráculos. Prompts son código y requieren disciplina. La combinación de herramientas locales y cloud, una buena abstracción y prompts multilayer mejora los resultados, pero el juicio humano sigue siendo indispensable. Si quieres compartir estrategias sobre token budgeting, consolidación de reviews o patrones de prompt que reduzcan alucinaciones, estaremos encantados de colaborar y seguir aprendiendo juntos en este camino hacia soluciones prácticas de IA aplicada.

Palabras clave que aplican a este proyecto y nuestros servicios: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi.

POLITICA DE COOKIES

Construyendo un revisor de código de IA: Lo que aprendí al conectar LLMs en código real

Conectando LLMs en código real: lecciones aprendidas

Dando vida a tus ideas desde 2008