Llama 3.1: Comprendiendo el potencial y las limitaciones

Meta* ha lanzado Llama 3.1 405B, un modelo de inteligencia artificial que marca un importante avance en el campo de los modelos de lenguaje grande (LLM). Este modelo no solo demuestra capacidades de última generación, sino que también refuerza la importancia de fomentar una cultura de Open Source en el desarrollo de tecnologías avanzadas.

El Open Source (Open Source) es un modelo de desarrollo de software en el que el código fuente del programa es accesible, disponible y puede ser modificado y distribuido libremente por cualquier persona. Este enfoque fomenta la colaboración y la transparencia, permitiendo a desarrolladores de todo el mundo contribuir, mejorar y adaptar el software a sus necesidades específicas. Los proyectos de Open Source a menudo se desarrollan de manera comunitaria, y los usuarios pueden usar, estudiar, cambiar y compartir el software de forma gratuita.

El nombre “Llama 3.1″ refleja la versión y la evolución del modelo. “Llama” es el nombre dado a esta serie de modelos de lenguaje desarrollados por Meta. El número “3.1″ indica que esta es la tercera generación del modelo con una actualización menor, lo cual sugiere mejoras y refinamientos respecto a versiones anteriores. La cifra “405B” se refiere al tamaño del modelo en términos de parámetros, específicamente 405 mil millones de parámetros. Para darnos una idea de la dimensión, LeNet, uno de los primeros y más influyentes modelos de redes neuronales convolucionales (CNN) desarrollado por Yann LeCun en la década de 1990, tenía aproximadamente 60 mil parámetros.

En el contexto de los modelos de lenguaje, los parámetros son valores que el modelo ajusta durante el entrenamiento para aprender patrones y realizar predicciones. Un mayor número de parámetros generalmente implica un modelo más complejo y capaz de capturar relaciones más sutiles en los datos, lo que resulta en un mejor desempeño en diversas tareas de procesamiento de lenguaje natural.

Llama 3.1 405B está construido sobre una arquitectura de Transformer, una estructura común en muchos modelos de lenguaje exitosos. Aunque mantiene la estructura central, Meta ha realizado adaptaciones menores para mejorar la estabilidad y el rendimiento durante el entrenamiento. Un aspecto clave es la exclusión de la arquitectura Mixture-of-Experts (MoE), lo que prioriza la estabilidad y escalabilidad del modelo.

El proceso de Llama 3.1 comienza con el texto de entrada dividido en tokens, que luego se convierten en representaciones numéricas llamadas token embeddings. Estas representaciones se procesan a través de múltiples capas de self-attention (autoatención) para analizar las relaciones entre tokens y entender su significado y contexto. Los Transformers con self-attention pueden procesar múltiples palabras simultáneamente. Este paralelismo acelera significativamente los tiempos de entrenamiento e inferencia, haciendo que el modelo sea más eficiente. Posteriormente, la información se pasa a través de una red, combinando y refinando los datos para derivar un significado. Este proceso se repite varias veces, permitiendo al modelo generar respuestas coherentes y relevantes de manera iterativa.

El desarrollo de Llama 3.1 405B implicó un entrenamiento multifase. Inicialmente, el modelo se sometió a un preentrenamiento con una vasta colección de datos que abarcan trillones de tokens. Este preentrenamiento permite al modelo aprender gramática, hechos y habilidades de razonamiento a partir de los patrones y estructuras encontrados en los datos.

Tras el preentrenamiento, el modelo pasa por rondas de ajuste fino supervisado (SFT) y optimización de preferencia directa (DPO). SFT implica entrenar el modelo en tareas específicas con retroalimentación humana, mientras que DPO se centra en refinar las respuestas del modelo basándose en las preferencias de evaluadores humanos. Meta ha puesto un fuerte énfasis en la calidad y cantidad de los datos de entrenamiento. El proceso de preparación de datos incluyó filtrado y limpieza extensivos para mejorar la calidad de los conjuntos de datos. Además, el propio modelo 405B se utiliza para generar datos sintéticos, que se incorporan en el proceso de entrenamiento para refinar aún más sus capacidades.

Entrenar un modelo tan complejo como Llama 3.1 405B requiere una enorme cantidad de poder computacional. Meta utilizó más de 16 mil GPUs NVIDIA H100 (o tres mil 491 Jetson AGX Orin de NVIDIA como la computadora que uso diariamente) para entrenar este modelo eficientemente. Además, aplicaron una técnica llamada cuantización, que reduce la precisión de los pesos del modelo de 16 bits a 8 bits, simplificando los cálculos internos y mejorando la eficiencia del modelo en aplicaciones del mundo real.

Llama 3.1 405B ofrece diversas aplicaciones potenciales gracias a su naturaleza de Open Source. Entre estas aplicaciones se incluyen la generación de datos sintéticos, la destilación de modelos para crear versiones más pequeñas y eficientes, y el desarrollo de soluciones específicas para diversas industrias como la salud, las finanzas y la educación. El compromiso de Meta con la accesibilidad y la transparencia en IA permite que la comunidad global participe plenamente en el desarrollo y aplicación de esta tecnología. Al proporcionar modelos descargables y personalizables, Meta fomenta la innovación y asegura una distribución equitativa de los beneficios de la inteligencia artificial.

Llama 3.1 405B representa un hito significativo en los modelos de lenguaje de Open Source. Con su enfoque en la accesibilidad, la innovación y la seguridad, Meta está allanando el camino para una nueva era en el desarrollo de la inteligencia artificial, donde la colaboración y la participación global son fundamentales para aprovechar plenamente el potencial de esta tecnología transformadora.

*Anuncio original de Mark Zuckenberg https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

**Noticia de Meta en español al respecto del comunicado https://about.fb.com/ltam/news/2024/07/presentamos-llama-3-1-nuestro-modelo-de-lenguaje-a-gran-escala-mas-capaz-hasta-la-fecha/

Llama 3.1: Comprendiendo el potencial y las limitaciones

Llama 3.1 405B ofrece diversas aplicaciones potenciales gracias a su naturaleza de Open Source. Entre estas aplicaciones se incluyen la generación de datos sintéticos, la destilación de modelos para crear versiones más pequeñas y eficientes.

COLUMNAS ANTERIORES