Así es Llama 4, la nueva generación de IA que entiende texto, imágenes y más

Read Time:3 Minute, 42 Second

Meta ha presentado Llama 4, la última y más avanzada incorporación a su familia de modelos de inteligencia artificial de código abierto, marcando un hito significativo en el campo de la IA. Esta nueva generación se distingue por su capacidad sin precedentes para comprender el mundo visual, representando un avance sustancial en las capacidades multimodales de la IA.

Llama 4 marca un avance significativo en inteligencia artificial, destacándose por sus capacidades multimodales nativas y su eficiencia mejorada. Meta la presenta como su generación de modelos más avanzada, diseñada para fortalecer todo el ecosistema Llama. Es la primera familia de modelos de código y «peso abierto» con soporte para entradas multimodales y una longitud de contexto excepcional. Además, introduce por primera vez una arquitectura Mixture of Experts (MoE), que combina eficiencia computacional con un diseño innovador de fusión temprana.

Capacidades Multimodales Avanzadas

Llama 4 da un salto cualitativo en inteligencia artificial multimodal gracias a su arquitectura de early fusion (es una técnica en la inteligencia artificial que implica la integración temprana de diferentes tipos de datos (como texto, imágenes, audio, etc.) en una sola representación unificada antes de que el modelo los procese), que integra texto, imágenes y video en una única secuencia, permitiendo una comprensión visual más precisa y contextual. Su codificador visual mejorado, basado en MetaCLIP y optimizado para trabajar con LLMs, potencia tareas como subtitulación, razonamiento visual y respuestas a preguntas sobre imágenes.

Modelos como Maverick y Scout sobresalen en image grounding (se refiere a la capacidad de un modelo para relacionar o alinear el lenguaje (texto o instrucciones del usuario) con elementos específicos dentro de una imagen), alineando de forma efectiva instrucciones con contenido visual. Llama 4 puede procesar múltiples imágenes por entrada (hasta 8), lo que refuerza su capacidad para realizar tareas visuales complejas con mayor exactitud y profundidad.

Arquitectura ‘Mixture of Experts’ (MoE)

La arquitectura Mixture of Experts (MoE) funciona como un equipo de especialistas. En lugar de usar todo el modelo para cada tarea (como hacen los modelos tradicionales), MoE divide el trabajo en partes y lo reparte entre «expertos«, que son modelos más pequeños y especializados en ciertos tipos de tareas.

Por ejemplo, si le haces una pregunta a Llama 4, el sistema elige solo a unos pocos de estos expertos (no todos) para responder, según el tipo de pregunta. Esto hace que el modelo sea más rápido y eficiente, porque no necesita usar toda su capacidad para cada consulta, sino solo la parte que realmente se necesita. Así, puede ser muy potente sin gastar tanta energía ni recursos.

Los Modelos

Llama 4 Behemoth: Con casi dos billones de parámetros totales y 288.000 millones de parámetros activos distribuidos entre 16 expertos, es el modelo más potente hasta la fecha y aún se encuentra en fase de entrenamiento.

Llama 4 Maverick: Cuenta con 17.000 millones de parámetros activos distribuidos entre 128 expertos, diseñado para funcionar como asistente general o chat, compitiendo directamente con modelos como GPT-4o de OpenAI y Gemini 2.0 de Google.

Llama 4 Scout: También con 17.000 millones de parámetros activos, pero distribuidos en 16 expertos, destaca por su ventana de contexto de 10 millones de tokens, ideal para resumir documentos extensos y razonar sobre bases de código amplias.

Llama 4 Scout es el modelo multimodal más avanzado de su clase, con 17 mil millones de parámetros activos y 16 expertos, destacando por su potencia y eficiencia. Supera a todas las versiones anteriores de Llama y funciona en una sola GPU NVIDIA H100, lo que lo hace accesible y práctico. Además, ofrece una ventana de contexto líder en la industria de 10 millones de tokens, y logra mejores resultados que modelos como Gemma 3, Gemini 2.0 Flash-Lite y Mistral 3.1 en múltiples pruebas reconocidas.

En conclusión

Meta ha presentado Llama 4, su nuevo modelo de inteligencia artificial de código abierto, marcando un gran paso adelante en el campo. Con una arquitectura innovadora (Mixture of Experts), capacidades multimodales nativas y una enorme ventana de contexto, Llama 4 destaca por su rendimiento y comprensión visual avanzada.

Este lanzamiento no solo impulsa nuevas aplicaciones en distintas industrias, sino que también refuerza el acceso abierto a tecnologías de IA de alto nivel. Aunque su licencia ha generado cierto debate, Llama 4 promete seguir ampliando los límites del desarrollo en IA, especialmente con la llegada futura de Llama 4 Behemoth y más novedades esperadas en el evento LlamaCon.