Meta Llama 4 Scout: контекст 10 млн токенов с архитектурой MoE

Meta выпустила Llama 4 Scout и Maverick — первые модели в семействе Llama, использующие архитектуру Mixture-of-Experts (MoE), которая активирует лишь часть параметров для каждого запроса, значительно повышая эффективность.

Scout: создан для длинного контекста

Llama 4 Scout имеет 17 миллиардов активных параметров на 16 экспертов (109 миллиардов параметров всего) и контекстное окно в 10 миллионов токенов — наибольшее среди открытых моделей. Это позволяет Scout обрабатывать целые кодовые базы, юридические документы или исследовательские архивы за один проход.

Maverick: создан для производительности

Llama 4 Maverick — вариант с более высокими возможностями, большим числом экспертов и лучшими показателями в тестах по рассуждениям и программированию. Meta позиционирует его как конкурентоспособный с закрытыми фронтирными моделями по большинству стандартных оценок.

Коммерческое использование

Обе модели доступны для коммерческого использования по обновлённой лицензии Llama от Meta, которая снимает прежние ограничения для компаний с большой пользовательской базой. Веса можно скачать с Hugging Face и запустить на стандартном GPU-оборудовании.

По данным Meta, архитектура MoE снижает стоимость инференса примерно на 60% по сравнению с полносвязной моделью аналогичного качества — значительное преимущество для крупномасштабных развёртываний.