Entendiendo los grandes modelos de lenguaje: Funcionamiento, Aplicaciones y Líderes del Mercado

Introducción

En la actualidad, el empleo de modelos de lenguaje para llevar a cabo tareas cotidianas, tales como redactar correos electrónicos, reformular textos, corregir errores en código o incluso traducir, se ha vuelto muy común. Aunque los modelos de lenguaje ya existían, OpenAI marcó un hito con el lanzamiento de su modelo GPT. Este se adaptó a un formato de chat más accesible para el gran público, conocido como ChatGPT. Esta innovación desencadenó la aparición casi inmediata de nuevos modelos, impulsando una evolución y mejora en el ámbito de los modelos de lenguaje en un lapso de tiempo realmente corto. Este artículo pretende explicar de forma clara y educativa qué son los Modelos de Lenguaje a Gran Escala (LLM, por sus siglas en inglés) y cómo funcionan estos en términos generales. Asimismo, se destacarán los modelos considerados más avanzados por la comunidad científica hasta la fecha.

¿Qué es un LLM?

En esta sección se repasará la definición de LLM y se verá, de manera superficial, cuál es su funcionamiento.

Los LLM, o Modelos de Lenguaje a Gran Escala, son sistemas de inteligencia artificial diseñados para entender, generar y trabajar con lenguaje humano de manera muy avanzada. Este tipo de modelos son entrenados para predecir la siguiente palabra de una oración.

La Torre Eiffel se encuentra en ____

Por ejemplo, dada la frase anterior, el modelo aprenderá que “París” es la respuesta correcta. De esta manera estos algoritmos pueden generar la siguiente palabra y sobre esta nueva oración continuar hasta encontrar una etiqueta <e> que delimita el fin de la oración u otro criterio de parada. Para hacer más dinámico el entrenamiento se eliminan partes de una oración extensa, forzando al algoritmo a predecir estas y entrenando cada vez más su capacidad predictiva. Ejemplo:

Me gusta mucho ir al cine y mañana estrenan la nueva ____ de los Vengadores

Como se puede observar, se trata de una oración más extensa de la que se obvia la última parte, y tan solo con el inicio, debe adivinar que la palabra a siguiente es “película”. Este método de entrenamiento se conoce como self-supervised. Ya habiendo mencionado el funcionamiento de estos algoritmos, se procede a explicar cuáles son los elementos clave que hacen que los LLM sean tan potentes a día de hoy.

Estos modelos se basan principalmente en una arquitectura llamada "Transformers", que es un tipo especial de red neuronal diseñada para manejar secuencias de datos, como oraciones o párrafos en un texto.

La arquitectura de los Transformers es especial por múltiples puntos, sin embargo, una de las claves es que utiliza un elemento llamado "atención", que le permite al modelo prestar atención a diferentes partes de una oración mientras la procesa. Esto es similar a cómo nosotros, los humanos, cuando leemos o escuchamos, podemos enfocarnos en ciertas palabras o frases que son más relevantes en un contexto dado, ignorando las menos importantes. Posteriormente, se explica cuáles son estos bloques de atención. Sin embargo, esto no podría lograrse sin saber qué posición ocupa cada palabra en la oración. Este último punto se sitúa al inicio de la arquitectura:

La arquitectura de los Transformers, introducida en el artículo "Attention is All You Need" en 2017, es un tipo de diseño de red neuronal que ha revolucionado el campo del procesamiento del lenguaje natural (NLP). La arquitectura se divide principalmente en dos componentes: el encoder (codificador) y el decoder (decodificador).

El encoder es el bloque izquierdo de la arquitectura. Este toma la secuencia de entrada, que podría ser una oración o un párrafo en texto, y la transforma en un conjunto de representaciones que capturan la información semántica y contextual del texto (embedding). De manera más coloquial se podría decir que es el proceso de pasar un texto a un conjunto de números que el algoritmo puede entender.

Posteriormente, el encoder utiliza una serie de capas idénticas que procesan la secuencia. Cada capa utiliza mecanismos de atención que permiten al modelo centrarse en diferentes partes del texto de entrada para entender mejor su contexto y significado. Esto es crucial para capturar las complejidades del lenguaje, como la importancia del orden de las palabras y las relaciones entre ellas.

El decoder, por otro lado, es la parte derecha de la arquitectura y se utiliza en tareas que implican la generación de texto, como la traducción de idiomas o la generación de respuestas en un chatbot. Toma la salida del encoder y, paso a paso, genera una secuencia de salida. Al igual que el encoder, el decoder está compuesto por varias capas que también utilizan mecanismos de atención. Sin embargo, el decoder tiene una atención adicional que le permite mirar lo que ya ha generado y combinarlo con la salida del encoder, lo que le ayuda a producir la siguiente parte de la secuencia de manera coherente y contextualmente relevante.

Finalmente, y, tras pasar por ambas partes, se asigna una probabilidad a cada palabra del diccionario con el que el modelo ha sido entrenado. De esta manera, y haciendo uso de un parámetro llamada temperatura, se devolverá la palabra con más probabilidad o en su defecto, que sea la suerte quien dictamine la palabra siguiente, siendo las palabras con un valor más alto más probables de que aparezcan. Como se ha explicado en secciones anteriores, se generan palabras de manera iterativa hasta llegar a un criterio de parada.

Ranking

Una vez explicado el funcionamiento general de estos modelos, se procede mostrar cuales son, a día de hoy, los modelos más potentes del mercado. Para ello se hace uso del siguiente enlace: LLM leaderboard

En este enlace los usuarios, realizan una votación a ciegas de qué modelo les ofrece mejores resultados acorde a ciertos parámetros. Como se puede observar el modelo más reciente de Anthropic, Claude 3 Opus, es el más destacado, seguido de 2 modelos GPT-4 propios de OpenAI. Ambas compañías están en la cabeza por amplia diferencia en comparación al siguiente modelo de la compañía Google.

Ambos modelos, destacan por su frescura y facilidad para responder cualquier tipo de pregunta. Además, no fuerzan la respuesta buscando satisfacer al usuario en todo momento, sino que, en caso de desconocer la respuesta, simplemente mostrarán su desconocimiento. Una característica que diferencia a ambos modelos es que, mientras que ambos algoritmos GPT-4 cuentan con una ventana de contexto de 128.000 tokens, Claude 3 Opus cuenta con 200.000 tokens, lo que equivale a 150.000 palabras aproximadamente. Esta diferencia es muy grande pues permite ingestar muchos más documentos y hacer preguntas más elaboradas sobre ellos. Ambos modelos no son open-source.

Conclusiones

El avance en el ámbito de los modelos de lenguaje es vertiginoso, anticipándose que los modelos actuales serán superados por otros de mayor rendimiento, frescura y con capacidades para manejar contextos más amplios. No obstante, todavía no se ha alcanzado el nivel de abstracción humana con la que el algoritmo sea capaz de crear nuevas palabras, términos o grupos de palabras.

Resulta crucial mantenerse actualizado sobre el estado del arte en modelos de lenguaje, evaluando y probando estos algoritmos para determinar su adecuación en términos de costo y eficacia para casos de uso específicos.

Ebook IA

He leído y acepto la política de privacidad
Acepto recibir emails sobre actividades de recruiting NTT DATA