Los modelos de lenguajes basados en la IA Generativa han causado un gran impacto a todos los niveles por la impresionante capacidad de manejo del lenguaje en cualquier dominio y por los grandes beneficios que puede aportar a nivel de aplicaciones. Sin embargo, desde el punto de vista de la tecnología, estos modelos presentan problemas que han de ser resueltos para poder ser integrados en soluciones innovadoras para las empresas.
Entre los problemas más importantes, está la gran demanda de recursos computacionales y energía que se necesitan para el entrenamiento y uso de estos modelos, y ligado a esto, la ineficiencia en términos de tiempo de respuesta. Otros problemas no menos importantes son la generación de información falsa o con sesgo, la dificultad de explicar los resultados, la poca transparencia relativa al origen de los datos, la posibilidad de violar normas de privacidad y el coste de mantener actualizada la información.
En respuesta a varios de estos problemas, han ido ganando terreno recientemente los Small Language Models (SLM), que son modelos compactos que utilizan relativamente pocos datos de entrenamiento y relativamente pocos parámetros -del orden de millones en comparación a más de 100 billones que utilizan los Large Language Models (LLMs)-, lo que los hace más accesibles y más eficientes.
Los Small Language Models son entrenados usando Large Language Models a través de un proceso de destilación del conocimiento sobre dominios específicos, con la posibilidad de hacer un entrenamiento extra para mejorar el desempeño para ciertas tareas (fine-tuning). En definitiva, son modelos que pueden ser implementados en aplicaciones con recursos limitados, que requieren tiempos de respuesta rápidos y con un desempeño parecido a los Large Language Models en tareas específicas.
Otras grandes ventajas de los Small Language Models radica en que al contrario de los Large Language Models que aprenden de gran cantidad de datos privados y público, sin gran control sobre los mismos, los Small Language Models son entrenados con una relativamente pequeña cantidad de datos, permitiendo seleccionarlos en base a su calidad y confiabilidad y, de esta manera, controlar problemas de sesgo y privacidad. Esto sumado al reducido tamaño del modelo facilita la explicabilidad y auditoría de los resultados.
Todo parece indicar que los Small Language Models son la gran alternativa a los Large Language Models y que serán el camino a seguir en el desarrollo de aplicaciones que quieran sacar provecho del gran potencial que brindan los nuevos modelos de lenguajes. Este año será clave para poder verificar el impacto que tendrá esta tecnología en crecimiento.
María Eugenia Fuenmayor
Directora científica del Área Digital de Eurecat