Sarvam 105B: первая конкурентоспособная открытая LLM из Индии

1420
Sarvam 105B: первая конкурентоспособная открытая LLM из Индии

Среди более 200 открытых больших языковых моделей только одна смогла превзойти большинство коммерческих систем в тестах по индийским языкам. Это Sarvam 105B – модель, разработанная полностью в Индии и выпущенная под открытой лицензией.

Как появился Sarvam

Проект стартовал в рамках национальной инициативы IndiaAI, цель которой – создать полностью суверенный стек ИИ‑технологий. Команда построила весь конвейер обучения «с нуля»: от сбора и очистки данных до финального RL‑обучения и развертывания в продуктах.

Две модели – Sarvam 30B и Sarvam 105B – уже работают в реальных сервисах: первая питает разговорный агент Samvaad, а вторая – интеллектуального помощника Indus, ориентированного на сложные рассуждения и агентные задачи.

Техническая архитектура

Обе модели используют Mixture‑of‑Experts (MoE) Transformer с разреженным роутингом, позволяющим масштабировать количество параметров без пропорционального роста вычислительных затрат. Для экономии памяти в режиме вывода применяется Group Query Attention в 30B‑версии и более продвинутая Multi‑head Latent Attention в 105B‑версии.

Экспертные слои содержат 128 экспертов, а конфигурации роутинга различаются по ёмкости, что обеспечивает равномерную загрузку и стабильно‑высокую эффективность даже при работе с длинными контекстами.

Бенчмарки и сравнения

Benchmark Sarvam‑105B GLM‑4.5‑Air (106B) GPT‑OSS‑120B Qwen3‑Next‑80B‑A3B‑Thinking
Math500 98.6 97.2 97.0 98.2
Live Code Bench v6 71.7 59.5 72.3 68.7
MMLU 90.6 87.3 90.0 90.0
MMLU Pro 81.7 81.4 80.8 82.7
Arena Hard v2 71.0 68.1 88.5 68.2
IF Eval 84.8 83.5 85.4 88.9
GPQA Diamond 78.7 75.0 80.1 77.2
AIME 25 (w/ tools) 88.3 (96.7) 83.3 90.0 87.8
BrowseComp 49.5 21.3 38.0
SWE Bench Verified 45.0 57.6 50.6 34.46
Tau2 (avg.) 68.3 53.2 65.8 55.0

Таблица демонстрирует, что Sarvam 105B уверенно держится в топе по большинству категорий, особенно выделяясь в индийских языковых тестах, где опережает даже более крупные модели.

Как начать работу с Sarvam

Модели доступны для скачивания через платформу AI Kosh и репозиторий Hugging Face. Для локального вывода рекомендуется использовать фреймворки Transformers, vLLM или SGLang, где уже подготовлены примеры запуска. API‑доступ предоставлен через публичный дашборд, позволяя интегрировать модель в собственные сервисы без необходимости самостоятельного обучения.

Что дальше

Создатели уже планируют масштабировать стек до моделей «сверх‑100 B», добавить специализированные версии для программирования, мульти‑модального взаимодействия и более продвинутых агентных сценариев. Открытая природа проекта обещает ускорить развитие экосистемы ИИ в Индии и за её пределами.

Последнее изменение:

0 Комментарии
Популярные
Новые Старые
Inline Feedbacks
Посмотреть все комментарии