Entrenando un nematodo con aprendizaje por refuerzo cuántico

Publicado el 22/09/2025

¿Puede un circuito cuántico diminuto aprender los trucos de supervivencia de un nematodo diminuto? En este proyecto modelé el comportamiento de forrajeo de Caenorhabditis elegans, un nematodo de 1 mm con un sistema nervioso extremadamente compacto, usando aprendizaje por refuerzo. Construí dos agentes que aprenden quimiotaxis en un entorno en rejilla simple: uno con una política neuronal clásica y otro con un circuito cuántico parametrizado que actúa como cerebro. Ejecuté muchas sesiones independientes para ambos agentes y los resultados representativos que comento fueron típicos entre las repeticiones. Realicé además pruebas cortas en hardware real para validar el flujo de extremo a extremo, pero las conclusiones que expongo derivan de simulación cuántica.

Por qué usar este gusano. C. elegans es ideal para inspirar IA biológica: su sistema neuronal completo está mapeado con 302 neuronas y unas 7000 sinapsis, y aun así muestra comportamientos ricos como la quimiotaxis y aprendizaje. Esa escala lo hace interpretable y simulable, manteniendo significado biológico.

Entorno mínimo y comprobable. Entrené al agente en una rejilla pequeña, por ejemplo 10×10. Cada episodio inicia al agente en una esquina y la comida en la esquina opuesta. El agente tiene orientación (arriba, izquierda, derecha, abajo), un cuerpo corto para evitar zigzagueos infinitos y cuatro acciones: avanzar, girar izquierda, girar derecha o quedarse quieto. Las observaciones son intencionalmente mínimas y biológicamente motivadas: fuerza del gradiente, definida como una distancia normalizada inversa a la comida; y dirección relativa, el rumbo desde la orientación actual hacia la comida, normalizado a un rango continuo. Las recompensas son un gran bonus por alcanzar la comida, una pequeña penalización por paso para incentivar eficiencia, y castigos por colisiones o comportamiento oscilatorio.

Política clásica. La política clásica es una red MLP pequeña de dos capas ocultas de 64 unidades con ReLU, que mapea las 2 dimensiones del estado a 4 logits de acción. Se entrenó con REINFORCE usando un baseline para reducción de varianza y un pequeño término de entropía para mantener exploración. También probé una versión más pequeña (2×32) que aprende pero tarda más en converger. En mis pruebas el modelo clásico de 4600 parámetros alcanzó buen rendimiento más rápido.

Política cuántica. La política cuántica sustituye neuronas y pesos por qubits y puertas. El PQC contiene 2 qubits que codifican las dos características mediante rotaciones, mezclan información mediante entrelazamiento y se miden para producir cuatro resultados mapeados a las acciones. La codificación aplica rotaciones Rx y Ry según las entradas; luego hay dos capas entrenables por qubit con rotaciones y puertas CZ entre qubits. La medición sigue la regla de Born y define una distribución de probabilidad intrínseca. El aprendizaje ajusta un conjunto pequeño de ángulos y las derivadas se calculan con la regla de parameter shift para obtener gradientes exactos en los parámetros del circuito.

Ejecuté el circuito principalmente en simuladores de Qiskit Aer para exploración rápida y hice pruebas cortas en backends de IBM y con supresión de error Q CTRL Fire Opal para validar ejecución en hardware. Los tests en hardware funcionaron como se esperaba pero los resultados reportados son de simulación; cuando los circuitos crezcan más allá de la viabilidad de la simulación en CPU/GPU, priorizaré estudios directos en dispositivos reales.

Dinámica de entrenamiento y métricas. En muchas repeticiones representativas obtuve que la política clásica converge más rápido y con curvas más suaves, mientras que la política cuántica muestra mayor varianza inicial en retornos, reflejando exploración inherente por muestreo de medidas. En una sesión típica en 10×10 con esquina opuesta la tasa de éxito fue 100 para la MLP 2×64 y aproximadamente 99 para el PQC; el número medio de pasos hasta la comida fue cercano a 34 para el clásico y 37 para el cuántico. La diferencia más notable es la capacidad frente a compacidad: la política cuántica resolvió la tarea con alrededor de una docena de parámetros frente a miles en la MLP.

Importancia del diseño de observaciones y recompensas. Una lección repetida es que ambos agentes dependen de observaciones sensatas y una buena conformación de recompensas. Si la señal de gradiente está mal escalada o no se penaliza el zigzagueo, ambos agentes se estancan. Con una forma de recompensa que valore el progreso neto hacia la comida y penalice ligeramente el vaivén, las políticas aprenden el comportamiento zigzag y convergente que esperaríamos de gusanos subiendo un gradiente químico.

Qué aporta esto a la industria y a empresas que buscan soluciones avanzadas. Este experimento es un ejemplo de cómo modelos compactos pueden competir en tareas simples y de cómo herramientas cuánticas aportan exploración sin ruido añadido. En Q2BSTUDIO aplicamos esa mentalidad investigadora a proyectos reales: somos una empresa de desarrollo de software y aplicaciones a medida especialista en inteligencia artificial, ciberseguridad y servicios cloud aws y azure. Diseñamos soluciones de software a medida que integran agentes IA, inteligencia de negocio y automatizaciones para mejorar procesos y rendimiento. Si buscas potenciar tus procesos con IA para empresas o desplegar cuadros de mando con power bi, contamos con experiencia práctica y soluciones adaptadas.

Próximos pasos y líneas de investigación. Planteo ampliar el entorno con mapas más grandes, obstáculos, múltiples fuentes de alimento y agentes depredadores para introducir supervivencia real; explorar arquitecturas híbridas clásico-cuánticas; y, cuando la simulación sea impracticable, priorizar comparaciones en hardware con control de ruido. También es interesante buscar diseños clásicos más eficientes por parámetro que compitan mejor frente a PQC compactos.

Si te interesa ver código y experimentar, puedes revisar nuestras propuestas de desarrollo de aplicaciones y soluciones a medida en servicios de software a medida y aplicaciones a medida o conocer nuestras capacidades de inteligencia artificial y cómo implantamos agentes IA en soluciones empresariales en servicios de inteligencia artificial para empresas. En Q2BSTUDIO también ofrecemos consultoría y servicios en ciberseguridad, pentesting, servicios cloud aws y azure, inteligencia de negocio y power bi para mejorar la toma de decisiones y proteger tus activos digitales.

Conclusión. Entrenar un nematodo virtual con aprendizaje por refuerzo cuántico muestra que políticas variacionales pequeñas pueden ser viables en tareas concretas y que la elección de las observaciones y la función de recompensa suele importar más que el tipo de cerebro en problemas simples. Este tipo de estudios orientan el camino hacia cerebros más complejos y entornos más ricos, y sirven como puente entre investigación cuántica y aplicaciones empresariales reales desarrolladas por equipos como Q2BSTUDIO.

Si quieres que colaboremos para llevar IA híbrida, software personalizado o protección avanzada a tu proyecto, contacta con nosotros y convertiremos la investigación en soluciones de valor para tu negocio.

Entrada anterior

Entrada siguiente

POLITICA DE COOKIES

Entrenando un nematodo con aprendizaje por refuerzo cuántico

Aprendizaje por refuerzo cuántico frente a redes neuronales clásicas en quimiotaxis de C. elegans: un nematodo virtual

Dando vida a tus ideas desde 2008