Семейство Llama 3 за 2024 год прошло через три релиза (3.0, 3.1, 3.2). К концу года 70B и 405B модели реально конкурируют с проприетарными по большинству задач. Вопрос не «хватит ли качества», а «когда self-hosted имеет смысл». Считаем.
Когда self-hosted имеет смысл
- Большой стабильный объём запросов (>5М токенов в сутки).
- Жёсткие требования по приватности данных (медицина, банки, госы, защита коммерческой тайны).
- Нужна предсказуемая латентность независимо от очередей внешнего провайдера.
- Кастомизация: файнтюн под доменную задачу с контролируемыми весами.
- Инференс в edge-окружении (фабрики, изолированные сети).
Когда self-hosted не нужен
- Стартап с переменным объёмом. API-провайдеры дают эластичность, GPU - нет.
- Маленькие объёмы (<500k токенов в сутки) - экономика не сходится.
- Качество критичнее - frontier-модели (GPT-4o, Claude 3.5 Opus) пока выигрывают на сложных задачах.
- Команда без DevOps-компетенции для GPU-инфры.
Какие модели мы используем
Llama 3.1 8B
Лёгкая, быстрая, помещается на одну A10G/L4. Для классификации, маршрутизации, простой суммаризации. Файнтюн под доменную задачу обычно даёт +10–15 процентных пунктов точности и стоит копейки.
Llama 3.1 70B
Главная рабочая лошадка self-hosted в 2024-м. Требует A100 80GB или 2xA100 40GB, либо H100. Конкурентна с Claude Sonnet и GPT-4 mini на большинстве не-frontier задач.
Llama 3.2 vision
Для документов и простой обработки изображений в self-hosted сценариях. Слабее GPT-4o, но местами достаточно. Для русскоязычных доменов - обязательно тестировать на своих данных.
Стек инференса
vLLM как стандарт. Continuous batching и paged attention позволяют выжать из GPU 5–10x throughput по сравнению с наивным запуском. Для production - обязательно, на dev можно стартовать на TGI или Ollama.
Экономика на одном из проектов
Финтех-клиент, около 12М токенов/сутки на классификацию транзакций. На Claude Haiku через API - около $90/сутки. Self-hosted Llama 3.1 8B на 1xL4: $80/сутки железо + $10 на сопровождение. Сошлось примерно в ноль по экономике, но плюсы по приватности и задержкам были критичны.
На объёмах 100М+ токенов/сутки разница в пользу self-hosted уже двух-трёхкратная. Если у вас стабильные объёмы такого порядка - считайте обязательно.