Meta a lancé Llama 4 Scout et Maverick, les premiers modèles de la famille Llama à utiliser une architecture Mixture-of-Experts (MoE) qui n'active qu'un sous-ensemble de paramètres pour chaque requête.
Scout : conçu pour les longs contextes
Llama 4 Scout dispose de 17 milliards de paramètres actifs sur 16 experts (109 milliards au total) et d'une fenêtre de contexte de 10 millions de tokens, permettant de traiter des bases de code entières en une seule passe.
Usage commercial
Les deux modèles sont disponibles pour usage commercial sous la licence Llama mise à jour. L'architecture MoE réduit les coûts d'inférence d'environ 60 % par rapport à un modèle dense de qualité équivalente.