La mayoría de los modelos generativos de IA no hablan Khasi ni muchas lenguas del noreste de India. Por eso creamos Kren v1: un modelo compacto al estilo GPT-2 capaz de generar texto en Khasi, entrenado desde cero mediante la conversión de un codificador en un decodificador. No fue un simple fine tuning sino un giro completo de arquitectura que permitió pasar de clasificar a generar lenguaje.
De KhasiBERT a Kren: KhasiBERT nació como un codificador estilo RoBERTa entrenado en Khasi. Los codificadores no generan texto, solo clasifican, así que reconfiguramos la arquitectura para convertirlo en un decodificador causal compatible con el formato de GPT-2, transfiriendo pesos y adaptando las máscaras causales. El objetivo era cubrir la ausencia de modelos generativos para Khasi y demostrar que es posible construirlos con recursos limitados.
Desglose del entrenamiento: probamos distintos volúmenes de datos para encontrar el punto óptimo en calidad de generación más allá de la métrica de pérdida. Version v0.1 300K líneas pérdida 3.149 generación básica respuestas cortas. Version v0.2 800K líneas pérdida 2.995 mejora en diálogo. Version v1.0 1M líneas pérdida 2.960 comienza razonamiento abstracto. Version v0.4 2M líneas pérdida 2.903 pérdida menor pero salida degradada. Más datos no siempre supuso mejor resultado; con 2M líneas el modelo comenzó a perder coherencia, por eso la versión final se entrenó con 1M de líneas.
Qué puede hacer Kren v1: generar texto en Khasi sobre lugares, temas culturales, razonamiento abstracto y respuestas en varias oraciones. Limitaciones: límite de 514 tokens por generación, tendencia a alucinaciones y sesgos inherentes a los datos de entrenamiento. Es un punto de partida reproducible y compacto para seguir mejorando modelos en lenguas de bajos recursos.
Cómo probarlo: busca MWirelabs/kren-v1 en Hugging Face. En Python con transformers se puede cargar AutoTokenizer.from_pretrained(MWirelabs/kren-v1) y AutoModelForCausalLM.from_pretrained(MWirelabs/kren-v1), tokenizar una cadena en Khasi y generar con generate especificando max_length temperature y otros parámetros para ajustar creatividad y coherencia. También es fácil desplegar el modelo localmente o en la nube según necesidades de rendimiento y privacidad.
Sobre Q2BSTUDIO: somos una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad y soluciones cloud. Diseñamos software a medida y aplicaciones a medida que integran modelos de lenguaje, agentes IA y pipelines de datos para empresas. Si buscas soluciones de IA para empresas o quieres explorar agentes IA personalizados, conoce nuestras capacidades en IA y servicios de inteligencia artificial. También desarrollamos productos y plataformas a medida para llevar modelos a producción y crear experiencias de usuario robustas, descubre más sobre nuestras opciones de desarrollo en desarrollo de aplicaciones y software multiplataforma.
Además ofrecemos servicios integrales que incluyen ciberseguridad y pentesting, servicios cloud aws y azure, servicios inteligencia de negocio y soluciones como power bi para visualización y BI empresarial. Si trabajas en procesamiento de lenguas regionales o necesitas integrar modelos generativos en productos reales, en Q2BSTUDIO podemos ayudar con consultoría, desarrollo y despliegue seguro y escalable.
Kren v1 demuestra que convertir codificadores en decodificadores es una vía viable para crear modelos generativos en lenguas con pocos recursos. Si quieres colaborar, replicar el experimento o integrar capacidades similares en tu organización, contacta con nuestro equipo y construyamos soluciones con propósito que respeten la diversidad lingüística.