Se me escapa una lágrima feliz. Damas y caballeros, me alegra contar que mi escáner ya está listo. Ayer construí el esqueleto básico y generaba tokens para lexemas de uno y dos caracteres. Hoy además reconoce números, decimales, cadenas, palabras clave y comentarios.
Qué construí: un escáner que tokeniza correctamente símbolos simples y dobles, y ahora también números enteros y decimales, cadenas entre comillas, identificadores, palabras reservadas, comentarios de una y varias líneas, e ignora espacios en blanco sin perder el conteo de líneas.
Lo que entendí
1) Comentarios
Creé una función de vistazo llamada peek para mirar el siguiente carácter sin consumirlo. En comentarios de una línea, cuando detecto la segunda barra de las dos barras inclinadas, avanzo hasta encontrar un salto de línea, que es lo que peek me ayuda a detectar. Aquí peek es no destructiva, a diferencia de advance, que mueve el puntero actual y no puede deshacerse. De forma similar, peekNext me deja ver el carácter posterior al que observa peek. Me costó entender por qué peekNext no funcionaba con comentarios multilínea, aunque sí con decimales.
2) Lo que el escáner ignora
Usé un caso común para ignorar espacios, tabulaciones y retornos de carro, y aumentar el contador de línea cuando aparece un salto de línea. Aun así, registrar espacios no es inútil. Por ejemplo, en C, la directiva include requiere el espacio correcto o el preprocesador puede fallar; y en Python la sangría con espacios sustituye a las llaves para delimitar bloques.
3) Cadenas
Mientras no llegue la comilla de cierre, el escáner avanza. El contenido entre la posición de inicio y fin de la cadena se almacena como valor y se pasa a la función que añade el token.
4) Números
Si un lexema cumple isDigit, lo leo como número y verifico decimales comprobando si el próximo carácter es un punto y, además, si después del punto hay un dígito usando peekNext. Si ambos se cumplen, guardo el lexema completo como número. Si no, almaceno la parte numérica como número y el punto como token independiente. Si el comienzo cumple isAlpha, entonces trato el lexema como identificador.
5) Palabras clave
Utilizo un mapa para asociar lexemas de palabras clave con sus tipos de token.
Lo que no entendía y ya entendí: por qué peekNext no me valía para comentarios multilínea. Al principio intenté una condición parecida a la del comentario de una sola línea, pero el problema era que estaba reutilizando la misma variable que recibía el carácter de advance tanto fuera como dentro del bucle. Necesitaba capturar el carácter consumido en una variable local dentro del while para poder razonar correctamente sobre la secuencia asterisco seguido de barra.
Piensa en la analogía de limpiar el mar. Usas un contador c basado en advance para cada trozo de basura que clasificas para reciclar. Pero para residuos no reciclables no basta con c, así que creas un contador ch que también avanza. Peek solo mira, no recoge. Cuando detectas que vienen asterisco y luego barra, no basta con mirar; debes consumir el asterisco y asegurarte de que lo siguiente es la barra para cerrar el comentario sin convertir esa barra final en un token nuevo. La solución fue leer carácter a carácter dentro del bucle, incrementar la línea con cada salto, y cuando ch sea asterisco y peek vea una barra, avanzar una vez más para consumir esa barra y terminar el comentario. Si se llega al final del archivo sin cerrar, lanzo error de comentario sin terminar. En caso contrario, si tras la barra inicial no hay ni otra barra ni un asterisco, emito el token de barra normal.
Qué sigue: el parser. Con el escáner sólido, es hora de construir el analizador sintáctico que convertirá la secuencia de tokens en un árbol de sintaxis listo para interpretar.
Reflexiones: me tomó tiempo entender el problema y resolverlo por mí misma, y me siento orgullosa. Me gusta la analogía marina porque el océano me inspira. Su inmensidad y misterio nos recuerdan nuestra pequeñez y nos enseñan a mantener la calma ante la tormenta.
En Q2BSTUDIO vivimos este tipo de retos a diario. Somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, desde compiladores didácticos hasta plataformas empresariales críticas. Si buscas un socio que diseñe y construya contigo, descubre cómo transformamos ideas en producto con nuestro desarrollo de software y aplicaciones a medida.
También somos especialistas en inteligencia artificial, ia para empresas, agentes IA y automatización, integrando modelos y orquestadores en productos reales. Potencia tus proyectos con nuestras soluciones de inteligencia artificial y acelera el time to value con asistentes, chatbots, análisis semántico y pipelines de datos. Completamos la propuesta con ciberseguridad y pentesting, servicios cloud aws y azure, servicios inteligencia de negocio y dashboards en power bi, para que tu plataforma sea segura, escalable y accionable de extremo a extremo.
Palabras clave para quienes nos buscan: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi. Si quieres que te ayudemos a pasar del prototipo al producto, hablamos.