Home » Nuestro Blog » Explorando el mundo de los Grandes Modelos de Lenguaje: De la evaluación a la implementación

Explorando el mundo de los Grandes Modelos de Lenguaje: De la evaluación a la implementación

Torsten Reidt, miembro de nuestro equipo Cactai, profundiza en este artículo en las complejidades de los modelos de lenguaje de gran tamaño (LLM) más destacados, destacando sus pros y contras, complejidad, costes y modelos de implementación para una comprensión y análisis exhaustivos.

Los Grandes Modelos de Lenguaje (LLM) están transformando el panorama empresarial, automatizando el servicio al cliente y desbloqueando conocimientos predictivos a partir de vastos conjuntos de datos. Mientras pioneros como Meta, OpenAI y Google empujan los límites de la innovación en IA, el panorama de los LLM está evolucionando a un ritmo sin precedentes. Con avances y anuncios que surgen a diario, es esencial mantenerse a la vanguardia.

En esta publicación, analizaremos más de cerca tres LLM líderes: el recién lanzado LLama3 70B de Meta, el GPT-4 de OpenAI y el Mixtral 8x22B de MistralAI. Compararemos sus datos clave, capacidades y limitaciones para generar nuevos negocios, mejorar la participación del cliente o transformar las operaciones de la empresa.

Antes de comenzar con una breve descripción de cada LLM considerado, tomemos un momento para familiarizarnos con algunas características en el área de los LLM:

Código abierto (Open source): Acceso, modificación y distribución gratuitos del código/modelo, con desarrollo colaborativo.
Código cerrado (Closed source): Código/modelo propietario, acceso restringido y modificaciones solo por parte del propietario.
Ventana de contexto (Context window): se refiere a la cantidad máxima de texto de entrada que un modelo puede procesar y considerar al generar una respuesta o hacer predicciones.
Parámetro (Parameter): se refiere al número de variables aprendibles (pesos) de un LLM. En general, el número de parámetros define el tamaño del LLM. A día de hoy, cuantos más parámetros tiene un modelo, mayor es su capacidad para aprender y representar patrones complejos en los datos.
Llamada a funciones (Function calling): se refiere a la capacidad del LLM para detectar si se necesitan herramientas externas (llamadas a API, funciones personalizadas…) para cumplir con la tarea dada y, en última instancia, llamar a las herramientas externas necesarias.
Pesos abiertos (Open weight): se refiere a la liberación solo de los parámetros o pesos pre-entrenados del LLM en sí. Esto permite a otros usar el modelo para inferencia y ajuste fino (fine-tuning). Sin embargo, el código de entrenamiento, el conjunto de datos original, los detalles de la arquitectura del modelo y la metodología de entrenamiento no se proporcionan.

Dicho esto, aquí hay una breve descripción de los contendientes:

openAI GPT-4 ^{(14 de marzo de 2023)}

GPT-4 no es el modelo más reciente disponible de openAI, pero ha sido elegido para la comparación debido a la disponibilidad de datos. Se puede acceder al modelo a través de la API de openAI. No hay información oficial disponible sobre la arquitectura del modelo o el número de parámetros, pero fuentes no oficiales sugieren una arquitectura de Mezcla de Expertos (una combinación de múltiples LLM especializados) con un total de 1,8 billones de parámetros. GPT-4 está optimizado para su uso en inglés, pero puede procesar texto en diferentes idiomas y responder en consecuencia. Cuenta con una ventana de contexto de 64k tokens.

mistralAI Mixtral 8x22B

El último modelo de código abierto de Mistral AI. Es un modelo de Mezcla dispersa de Expertos con un total de 141.000 millones de parámetros. Tiene fluidez en inglés, francés, italiano, alemán y español y una ventana de contexto de 64k tokens.

Meta Llama3 70B

Como ya se mencionó, este es uno de los últimos modelos de la familia Meta Llama. Equipado con una ventana de contexto de 8k tokens utilizando 70.000 millones de parámetros. El 5% de los datos de entrenamiento consistieron en datos no ingleses que cubren 30 idiomas, por lo que se dan ciertas capacidades multilingües.

	GPT-4	Mixtral 8x22B	Llama3 70B
Código abierto	no	sí	sí
Número de parámetros	1.8B (no oficial)	141B	70B
Ventana de contexto	64k tokens	64k tokens	8k tokens
Soporte de idiomas	Inglés, capacidades en otros idiomas	Inglés, francés, italiano, alemán, español	Inglés, capacidades en otros idiomas
Llamada a funciones	sí	sí	sí

¿Cómo se evalúan los Grandes Modelos de Lenguaje?

Evaluar objetivamente los Grandes Modelos de Lenguaje (LLM) puede ser una tarea compleja, ya que requiere evaluar su rendimiento en varios aspectos. Sin embargo, existen algunos puntos de referencia comunes que se utilizan a menudo para clasificar los modelos entre sí.

MMLU (Massive Multi-task Language Understanding) evalúa la precisión multitarea de los modelos.
AGIEval evalúa los modelos en el contexto de exámenes estandarizados centrados en el ser humano, como exámenes de matemáticas.
BIG-bench (Beyond the Imitation Game Benchmark), se centra en tareas que se cree que están más allá de las capacidades del modelo de lenguaje actual.
ARC-Challenge (Abstraction and Reasoning Corpus) evalúa la inteligencia fluida general similar a la humana.
DROP (Discrete Reasoning Over Paragraphs) evalúa las capacidades de comprensión lectora.

Así es como se desempeñaron los tres modelos en los puntos de referencia mencionados:

	GPT-4 ^fuente	Mixtral 8x22B ^fuente	Llama3 70B ^fuente
MMLU _{5 disparos (5-shot)}	86.4	77.7	79.5
AGIEval Inglés _{3-5 disparos}	–	61.2	63.0
BIG-Bench Hard _{3 disparos CoT}	83.1 ^fuente	79.2	81.3
ARC-Challenge _{25 disparos}	96.3	90.7	93.0
DROP _{3 disparos F1}	80.9	77.6	79.7

Ahora que tenemos claros los números, siempre queremos elegir el modelo que mejor se desempeña en la mayoría de los puntos de referencia, ¿verdad? Bueno, la respuesta a eso no es tan simple.

El caso de uso es decisivo

Si bien una puntuación alta en pruebas de referencia puede indicar qué tan bien se generaliza un modelo a datos no vistos para una tarea determinada, su caso de uso es la consideración más importante para la selección del modelo. Imagine, por ejemplo, los dos puntos siguientes.

La tarea para la que desea que el modelo funcione bien es diferente del punto de referencia.
Sus datos son diferentes a los datos utilizados en el punto de referencia, si utiliza un idioma diferente al inglés, por ejemplo.

En ambos casos, puede haber otros modelos disponibles que podrían funcionar mejor para su situación problemática. Además de los criterios relacionados con el rendimiento, vale la pena considerar otros aspectos al elegir el LLM. Revisemos los tres LLM seleccionados para este artículo, junto con un ejemplo práctico para cada uno.

GPT-4:

Caso de negocio: plataforma de comercio electrónico.
Caso de uso: un chatbot de atención al cliente altamente conversacional y atractivo en idioma inglés.

Mixtral 8x22B:

Caso de negocio: plataforma de traducción en línea que necesita admitir varios idiomas, incluidos algunos idiomas con menos recursos.
Caso de uso: columna vertebral para la traducción debido a las capacidades multilingües. Se puede ajustar finamente debido a su naturaleza de código abierto.

Llama3 70B:

Caso de negocio: sistema de clasificación de texto a gran escala que necesita procesar millones de documentos diariamente.
Caso de uso: la arquitectura eficiente y el rendimiento optimizado de LLama3 70B combinados con la rentabilidad. Se puede ajustar finamente si es necesario.

Licencias y Coste [inferencia]

GPT-4 es un LLM de código cerrado y el uso a través de la API de openAI está sujeto a un precio fijo por 1 millón de tokens. Dado que LLama3 70B y Mixtral 8x22B son modelos de código abierto, no hay coste por token; el coste depende más bien de cómo se implementen los modelos. A modo de comparación, se han seleccionado opciones de implementación basadas en el precio por 1 millón de tokens.

	GPT-4 ^fuente	Mixtral 8x22B ^fuente	Llama3 70B ^fuente
Entrada _{1M tokens}	30$	2$	1$
Salida _{1M tokens}	60$	6$	1$

Implementación (Deployment)

La elección entre la implementación en la nube o local (on-premises) para LLM debe guiarse por las necesidades y capacidades específicas de la organización, equilibrando factores como el coste, el control, la escalabilidad y la seguridad. Cada opción de implementación conlleva sus distintas ventajas y desafíos. Esta sección se aplica solo a los modelos Mixtral 8x22B y Llama3 70B, ya que openAI GPT-4 es un modelo de código cerrado.

Plataformas basadas en la nube

Implementar LLM en la nube implica utilizar la potencia computacional y los recursos de un proveedor de servicios en la nube. Este enfoque ofrece escalabilidad, ya que las empresas pueden ajustar fácilmente su uso según la demanda sin necesidad de una inversión inicial en hardware físico. La implementación en la nube también garantiza que el proveedor gestione las actualizaciones y el mantenimiento, lo que reduce la carga de TI para la empresa. Sin embargo, este modelo depende en gran medida de la conectividad a Internet y puede generar preocupaciones con respecto a la seguridad y privacidad de los datos, ya que la información confidencial se procesa y almacena fuera de las instalaciones.

Un LLM puede ser entrenado/implementado o alojado en varias opciones disponibles, como:

Amazon SageMaker
Google Cloud AI Platform
Microsoft Azure Machine Learning

La elección de cuál seleccionar depende, entre otras cosas, de la infraestructura o herramientas existentes en su empresa. Si ya utiliza Amazon para otras aplicaciones, quizás no quiera agregar un proveedor diferente para la implementación del LLM. Otros puntos a considerar serían los marcos de trabajo preferidos o las necesidades específicas.

El coste de la implementación depende de muchos factores, como la disponibilidad o el volumen de datos. Sin embargo, el factor de coste principal es el tamaño del LLM elegido, que en última instancia define el hardware (GPU) necesario.

Una estimación aproximada para la inferencia con el modelo Meta Llama3, cuantizado a 4 bits (lo que significa reducido en tamaño con algunas pérdidas de rendimiento), es de aproximadamente 5$ por hora en la instancia «ml.g4dn.12xlarge» de Amazon SageMaker. Esta instancia proporciona 48 GB de memoria GPU y se puede utilizar para inferencia. Para el ajuste fino o el entrenamiento del LLM, se debe utilizar una instancia con mejor rendimiento.

Implementación local (On-premises)

La implementación local implica configurar la infraestructura del LLM dentro del entorno local de una empresa. Este enfoque brinda a las organizaciones control total sobre sus datos, mejorando la seguridad y el cumplimiento de las regulaciones, lo cual es particularmente crítico para industrias como la atención médica y las finanzas. Las soluciones locales también permiten la personalización que pueda ser necesaria para necesidades organizativas específicas. Los inconvenientes incluyen costes iniciales más altos para hardware e infraestructura, así como la necesidad de mantenimiento continuo y soporte técnico, lo que puede requerir muchos recursos.

El coste de una estación de trabajo típica para aprendizaje profundo comienza en alrededor de €7.000. Dicha estación de trabajo suele estar equipada con dos GPU de grado de consumo, aunque depende de los requisitos reales y el propósito de la implementación (¿modelo entrenado? ¿uso de inferencia?). Sin embargo, también es esencial considerar el software y la configuración general, así como las necesidades continuas de mantenimiento y actualización, para garantizar un rendimiento óptimo.

Privacidad y Seguridad de los Datos

Tanto la privacidad de los datos (que se refiere a los derechos y la gobernanza en torno a los datos personales) como la seguridad de los datos (que se refiere a las medidas y tecnologías utilizadas para proteger los datos del acceso no autorizado, las violaciones y el robo) son fundamentales para generar confianza en los sistemas tecnológicos. Requieren atención continua y adaptación a las amenazas en evolución y los panoramas regulatorios. Garantizar que tanto la privacidad como la seguridad sean prioritarias es esencial para salvaguardar los derechos e intereses de todas las partes interesadas involucradas en el ecosistema digital. Un LLM implementado debe tratarse como cualquier otra aplicación implementada en lo que respecta al acceso no autorizado, las violaciones de datos y las ciberamenazas. Además, la privacidad de los datos debe examinarse de cerca. Algunos proveedores utilizan la entrada del usuario con fines de entrenamiento, lo que podría provocar una fuga de datos no deseada.

Conclusión

El panorama de los Grandes Modelos de Lenguaje (LLM) está evolucionando rápidamente, con nuevas funcionalidades que surgen casi a diario. Cada modelo tiene sus fortalezas y debilidades únicas. Hemos comparado tres LLM prominentes para ilustrar consideraciones clave para aprovechar sus poderosas capacidades para impulsar la transformación digital, mejorar las experiencias de los clientes y descubrir conocimientos ocultos. A medida que el panorama de la IA avanza, es evidente que aquellos que utilicen eficazmente los LLM obtendrán una ventaja competitiva.

En Cactus, nuestro dedicado equipo de CactAI está entusiasmado por explorar las soluciones de IA óptimas adaptadas a sus necesidades empresariales únicas, asociándose con usted para identificar el Modelo de Lenguaje Grande más efectivo que se alinee con su caso de uso específico, acelerando así el crecimiento de su negocio y mejorando su eficiencia operativa. Permítanos ayudarle a aprovechar todo el potencial de la IA para impulsar la innovación y lograr ventajas competitivas en su industria.

Compartir esta página

Si hay un proyecto que necesita ayuda o incluso un conjunto de habilidades que te falta, contáctanos.

Explorando el mundo de los Grandes Modelos de Lenguaje: De la evaluación a la implementación

openAI GPT-4 ^{(14 de marzo de 2023)}

mistralAI Mixtral 8x22B

Meta Llama3 70B

¿Cómo se evalúan los Grandes Modelos de Lenguaje?

El caso de uso es decisivo

Licencias y Coste [inferencia]

Implementación (Deployment)

Plataformas basadas en la nube

Implementación local (On-premises)

Privacidad y Seguridad de los Datos

Conclusión

Artículos similares

OpenClaw y el surgimiento de la iniciativa

Facturación sin intervención

Avanzando en el Control Sostenible de Plagas a través de la Innovación Aplicada

Aceleración, SaaS y competencia: Por qué es importante empoderar a los equipos en IA

LLM en el dispositivo en iOS. Un viaje técnico desde la selección del modelo hasta la experiencia del usuario

Incorporación con confianza impulsada por un asistente de IA en Microsoft Teams

Explorando el mundo de los Grandes Modelos de Lenguaje: De la evaluación a la implementación

openAI GPT-4 (14 de marzo de 2023)

mistralAI Mixtral 8x22B

Meta Llama3 70B

¿Cómo se evalúan los Grandes Modelos de Lenguaje?

El caso de uso es decisivo

Licencias y Coste [inferencia]

Implementación (Deployment)

Plataformas basadas en la nube

Implementación local (On-premises)

Privacidad y Seguridad de los Datos

Conclusión

Artículos similares

OpenClaw y el surgimiento de la iniciativa

Facturación sin intervención

Avanzando en el Control Sostenible de Plagas a través de la Innovación Aplicada

Aceleración, SaaS y competencia: Por qué es importante empoderar a los equipos en IA

LLM en el dispositivo en iOS. Un viaje técnico desde la selección del modelo hasta la experiencia del usuario

Incorporación con confianza impulsada por un asistente de IA en Microsoft Teams

openAI GPT-4 ^{(14 de marzo de 2023)}