Self-hosted LLM в 2025: vs API. Когда экономика сходится

Команда nordiqdev

студия

Каждые полгода мы пересчитываем юнит-экономику inference: дешевле платить за токены провайдеру или поднять свою GPU и крутить open-source. В 2025 ответ снова не очевиден.

Что изменилось за 2024–2025

Цены на input-токены у Anthropic/OpenAI упали в 3–5 раз.
Llama 3.3 70B и Mistral Large близки к GPT-4-class на 70% задач.
Stable аренда A100/H100 у DataCrunch / Lambda Labs стала доступнее.
vLLM и TGI вышли в зрелость: throughput 2–3x по сравнению с базой.

Когда self-host

Объём от 5 млрд токенов/мес на одну задачу.
Чувствительные данные, которые нельзя отправлять в US/EU облака.
Custom fine-tuning на доменных данных - большая часть пользы.
Низкая толерантность к latency: свой регион vs «через океан».

Когда API

Объём до 1 млрд токенов/мес.
Команда без MLOps-опыта.
Нужны мультимодальные модели и tool use из коробки.
Прототип, бизнес-кейс ещё не подтверждён.

Реальный кейс из нашего портфолио

Один заказчик - 8 млрд токенов/мес на классификацию документов. Считали: API Anthropic - $14k/мес, свой Llama 3.3 на двух H100 - $4.2k/мес инфраструктура + $2k MLOps. Окупилось за 2 месяца переезда.

Другой - 200 млн токенов/мес на разговорный B2C. API GPT-4o - $1.8k/мес. Self-host не имеет смысла: окупаемость за 4 года, заморочка не стоит свеч.

Теги

#llm#self-hosted#llama#mistral#инфраструктура#стоимость

Self-hosted LLM в 2025: vs API. Когда экономика сходится

Что изменилось за 2024–2025

Когда self-host

Когда API

Реальный кейс из нашего портфолио

Другие статьи из журнала

Llama 4 и Mistral: open-source LLM на середину 2025

Llama 3 в self-hosted: когда это имеет экономический смысл

MCP - протокол Anthropic для AI-агентов: первые впечатления

Делаем мобильные приложения, веб-сервисы и AI на заказ