Llama 3 в self-hosted: когда это имеет экономический смысл

Команда nordiqdev

студия

Семейство Llama 3 за 2024 год прошло через три релиза (3.0, 3.1, 3.2). К концу года 70B и 405B модели реально конкурируют с проприетарными по большинству задач. Вопрос не «хватит ли качества», а «когда self-hosted имеет смысл». Считаем.

Когда self-hosted имеет смысл

Большой стабильный объём запросов (>5М токенов в сутки).
Жёсткие требования по приватности данных (медицина, банки, госы, защита коммерческой тайны).
Нужна предсказуемая латентность независимо от очередей внешнего провайдера.
Кастомизация: файнтюн под доменную задачу с контролируемыми весами.
Инференс в edge-окружении (фабрики, изолированные сети).

Когда self-hosted не нужен

Стартап с переменным объёмом. API-провайдеры дают эластичность, GPU - нет.
Маленькие объёмы (<500k токенов в сутки) - экономика не сходится.
Качество критичнее - frontier-модели (GPT-4o, Claude 3.5 Opus) пока выигрывают на сложных задачах.
Команда без DevOps-компетенции для GPU-инфры.

Какие модели мы используем

Llama 3.1 8B

Лёгкая, быстрая, помещается на одну A10G/L4. Для классификации, маршрутизации, простой суммаризации. Файнтюн под доменную задачу обычно даёт +10–15 процентных пунктов точности и стоит копейки.

Llama 3.1 70B

Главная рабочая лошадка self-hosted в 2024-м. Требует A100 80GB или 2xA100 40GB, либо H100. Конкурентна с Claude Sonnet и GPT-4 mini на большинстве не-frontier задач.

Llama 3.2 vision

Для документов и простой обработки изображений в self-hosted сценариях. Слабее GPT-4o, но местами достаточно. Для русскоязычных доменов - обязательно тестировать на своих данных.

Стек инференса

vLLM как стандарт. Continuous batching и paged attention позволяют выжать из GPU 5–10x throughput по сравнению с наивным запуском. Для production - обязательно, на dev можно стартовать на TGI или Ollama.

Экономика на одном из проектов

Финтех-клиент, около 12М токенов/сутки на классификацию транзакций. На Claude Haiku через API - около $90/сутки. Self-hosted Llama 3.1 8B на 1xL4: $80/сутки железо + $10 на сопровождение. Сошлось примерно в ноль по экономике, но плюсы по приватности и задержкам были критичны.

На объёмах 100М+ токенов/сутки разница в пользу self-hosted уже двух-трёхкратная. Если у вас стабильные объёмы такого порядка - считайте обязательно.

Теги

#llama#open source#self-hosted#vllm#llm

Llama 3 в self-hosted: когда это имеет экономический смысл

Когда self-hosted имеет смысл

Когда self-hosted не нужен

Какие модели мы используем

Llama 3.1 8B

Llama 3.1 70B

Llama 3.2 vision

Стек инференса

Экономика на одном из проектов

Другие статьи из журнала

Llama 4 и Mistral: open-source LLM на середину 2025

Self-hosted LLM в 2025: vs API. Когда экономика сходится

MCP - протокол Anthropic для AI-агентов: первые впечатления

Делаем мобильные приложения, веб-сервисы и AI на заказ