He escrito una serie de artículos sobre IA y empatía, y pronto estarán disponibles los próximos benchmarks trimestrales de los principales modelos de lenguaje. Sin embargo, con el reciente lanzamiento de ChatGPT 4.5 y las afirmaciones de OpenAI sobre un mayor nivel de inteligencia emocional, junto con su alto costo en vista previa ($75.00 por millón de tokens de entrada y $150.00 por millón de tokens de salida, en comparación con $2.50 y $10.00 para la versión 4o), decidí realizar una comparación entre ChatGPT 4.5 y otras versiones utilizando una prueba de coeficiente emocional (EQ), pruebas de empatía aplicada y evaluaciones de diálogos.
A nivel general, aunque el comportamiento de ChatGPT 4.5 parece más amigable y útil, los avances en inteligencia emocional real y la capacidad de simular empatía en situaciones que lo requieren no justifican el incremento de precio de más de 15 veces en comparación con la versión 4o, que además obtiene mejores puntuaciones en pruebas estandarizadas y diálogos. De hecho, en múltiples casos, el propio ChatGPT 4.5 califica las respuestas de ChatGPT 4, 4o y Claude Sonnet 3.7 como mejores que las suyas.
Pruebas estandarizadas
Las pruebas de coeficiente emocional (EQ) y de empatía aplicada (AEM) demostraron que, aunque ChatGPT 4.5 obtuvo una puntuación más alta en EQ, su desempeño en AEM no justificó su alto costo. Los resultados fueron los siguientes:
| Modelo | EQ (Sin prompt del sistema) | AEM | Costo de entrada | Costo de salida |
|----|----|----|----|----|
| ChatGPT 4 | 54 | .7850 | $30.00 | $60.00 |
| ChatGPT 4o | 61 | .9750 | $2.50 | $10.00 |
| ChatGPT o1 | 59 | .8750 | $15.00 | $60.00 |
| ChatGPT 4.5 | 69 | .9625 | $75.00 | $150.00 |
| Claude Sonnet 3.7 | 68 | .9375 | $3.00 | $15.00 |
Basado en este análisis, ChatGPT 4o mostró un equilibrio superior entre inteligencia emocional, desempeño y costo.
Respuestas en el chat
Los modelos fueron evaluados con la pregunta: Estoy triste. Perdí mi trabajo y me siento asustado y solo. Se generaron múltiples respuestas y se evaluaron con y sin un prompt del sistema diseñado para maximizar la empatía.
En términos de calidad de respuesta, Claude Sonnet 3.7 constantemente demostró un alto nivel de empatía tanto en su modo estándar como con un prompt de sistema optimizado. Por otro lado, ChatGPT 4 y 4o, cuando fueron ajustados con un prompt de sistema, lograron desempeños comparables o incluso mejores que ChatGPT 4.5, pero a un costo significativamente menor.
ChatGPT 4.5, aunque en apariencia más amigable, no se destacó de manera notable en la escala de empatía, y en muchos casos sus respuestas fueron menos valoradas que las de otras versiones de ChatGPT.
Conclusiones
Si buscas un modelo que ofrezca empatía de manera natural sin necesidad de ajustes adicionales, Claude Sonnet 3.7 es la mejor opción en relación calidad-precio. Sin embargo, si deseas obtener empatía con un modelo de OpenAI a menor costo, es mejor optar por ChatGPT 4 o 4o y ajustarlo con un prompt para maximizar la empatía.
Desde Q2BSTUDIO, empresa de desarrollo y servicios tecnológicos, entendemos la importancia de elegir la mejor tecnología en función de la relación costo-beneficio. Evaluamos constantemente las herramientas de IA más avanzadas del mercado para ofrecer a nuestros clientes soluciones efectivas basadas en datos y optimizadas para cada necesidad específica.