AI/journal
Llama 3 в self-hosted
Llama 3 в self-hosted: когда это имеет экономический смысл
← ЖурналAI7 мин чтения

Llama 3 в self-hosted: когда это имеет экономический смысл

Команда nordiqdev
студия

Семейство Llama 3 за 2024 год прошло через три релиза (3.0, 3.1, 3.2). К концу года 70B и 405B модели реально конкурируют с проприетарными по большинству задач. Вопрос не «хватит ли качества», а «когда self-hosted имеет смысл». Считаем.

Когда self-hosted имеет смысл

  • Большой стабильный объём запросов (>5М токенов в сутки).
  • Жёсткие требования по приватности данных (медицина, банки, госы, защита коммерческой тайны).
  • Нужна предсказуемая латентность независимо от очередей внешнего провайдера.
  • Кастомизация: файнтюн под доменную задачу с контролируемыми весами.
  • Инференс в edge-окружении (фабрики, изолированные сети).

Когда self-hosted не нужен

  • Стартап с переменным объёмом. API-провайдеры дают эластичность, GPU - нет.
  • Маленькие объёмы (<500k токенов в сутки) - экономика не сходится.
  • Качество критичнее - frontier-модели (GPT-4o, Claude 3.5 Opus) пока выигрывают на сложных задачах.
  • Команда без DevOps-компетенции для GPU-инфры.

Какие модели мы используем

Llama 3.1 8B

Лёгкая, быстрая, помещается на одну A10G/L4. Для классификации, маршрутизации, простой суммаризации. Файнтюн под доменную задачу обычно даёт +10–15 процентных пунктов точности и стоит копейки.

Llama 3.1 70B

Главная рабочая лошадка self-hosted в 2024-м. Требует A100 80GB или 2xA100 40GB, либо H100. Конкурентна с Claude Sonnet и GPT-4 mini на большинстве не-frontier задач.

Llama 3.2 vision

Для документов и простой обработки изображений в self-hosted сценариях. Слабее GPT-4o, но местами достаточно. Для русскоязычных доменов - обязательно тестировать на своих данных.

Стек инференса

vLLM как стандарт. Continuous batching и paged attention позволяют выжать из GPU 5–10x throughput по сравнению с наивным запуском. Для production - обязательно, на dev можно стартовать на TGI или Ollama.

Экономика на одном из проектов

Финтех-клиент, около 12М токенов/сутки на классификацию транзакций. На Claude Haiku через API - около $90/сутки. Self-hosted Llama 3.1 8B на 1xL4: $80/сутки железо + $10 на сопровождение. Сошлось примерно в ноль по экономике, но плюсы по приватности и задержкам были критичны.

На объёмах 100М+ токенов/сутки разница в пользу self-hosted уже двух-трёхкратная. Если у вас стабильные объёмы такого порядка - считайте обязательно.

Теги
#llama#open source#self-hosted#vllm#llm
Студия nordiqdev

Делаем мобильные приложения, веб-сервисы и AI на заказ

Если задача из текста выглядит знакомой и нужна команда, которая соберёт продукт - расскажите подробнее. Вернёмся в течение 24 часов с разбором.