Sarvam 105B: первая конкурентоспособная открытая LLM из Индии

160
Sarvam 105B: первая конкурентоспособная открытая LLM из Индии

Среди более 200 открытых больших языковых моделей только одна смогла превзойти большинство коммерческих систем в тестах по индийским языкам. Это Sarvam 105B – модель, разработанная полностью в Индии и выпущенная под открытой лицензией.

Как появился Sarvam

Проект стартовал в рамках национальной инициативы IndiaAI, цель которой – создать полностью суверенный стек ИИ‑технологий. Команда построила весь конвейер обучения «с нуля»: от сбора и очистки данных до финального RL‑обучения и развертывания в продуктах.

Две модели – Sarvam 30B и Sarvam 105B – уже работают в реальных сервисах: первая питает разговорный агент Samvaad, а вторая – интеллектуального помощника Indus, ориентированного на сложные рассуждения и агентные задачи.

Техническая архитектура

Обе модели используют Mixture‑of‑Experts (MoE) Transformer с разреженным роутингом, позволяющим масштабировать количество параметров без пропорционального роста вычислительных затрат. Для экономии памяти в режиме вывода применяется Group Query Attention в 30B‑версии и более продвинутая Multi‑head Latent Attention в 105B‑версии.

Экспертные слои содержат 128 экспертов, а конфигурации роутинга различаются по ёмкости, что обеспечивает равномерную загрузку и стабильно‑высокую эффективность даже при работе с длинными контекстами.

Бенчмарки и сравнения

BenchmarkSarvam‑105BGLM‑4.5‑Air (106B)GPT‑OSS‑120BQwen3‑Next‑80B‑A3B‑Thinking
Math50098.697.297.098.2
Live Code Bench v671.759.572.368.7
MMLU90.687.390.090.0
MMLU Pro81.781.480.882.7
Arena Hard v271.068.188.568.2
IF Eval84.883.585.488.9
GPQA Diamond78.775.080.177.2
AIME 25 (w/ tools)88.3 (96.7)83.390.087.8
BrowseComp49.521.338.0
SWE Bench Verified45.057.650.634.46
Tau2 (avg.)68.353.265.855.0

Таблица демонстрирует, что Sarvam 105B уверенно держится в топе по большинству категорий, особенно выделяясь в индийских языковых тестах, где опережает даже более крупные модели.

Как начать работу с Sarvam

Модели доступны для скачивания через платформу AI Kosh и репозиторий Hugging Face. Для локального вывода рекомендуется использовать фреймворки Transformers, vLLM или SGLang, где уже подготовлены примеры запуска. API‑доступ предоставлен через публичный дашборд, позволяя интегрировать модель в собственные сервисы без необходимости самостоятельного обучения.

Что дальше

Создатели уже планируют масштабировать стек до моделей «сверх‑100 B», добавить специализированные версии для программирования, мульти‑модального взаимодействия и более продвинутых агентных сценариев. Открытая природа проекта обещает ускорить развитие экосистемы ИИ в Индии и за её пределами.

Последнее изменение:

0 Комментарии
Популярные
Новые Старые
Inline Feedbacks
Посмотреть все комментарии