Каждые полгода мы пересчитываем юнит-экономику inference: дешевле платить за токены провайдеру или поднять свою GPU и крутить open-source. В 2025 ответ снова не очевиден.
Что изменилось за 2024–2025
- Цены на input-токены у Anthropic/OpenAI упали в 3–5 раз.
- Llama 3.3 70B и Mistral Large близки к GPT-4-class на 70% задач.
- Stable аренда A100/H100 у DataCrunch / Lambda Labs стала доступнее.
- vLLM и TGI вышли в зрелость: throughput 2–3x по сравнению с базой.
Когда self-host
- Объём от 5 млрд токенов/мес на одну задачу.
- Чувствительные данные, которые нельзя отправлять в US/EU облака.
- Custom fine-tuning на доменных данных - большая часть пользы.
- Низкая толерантность к latency: свой регион vs «через океан».
Когда API
- Объём до 1 млрд токенов/мес.
- Команда без MLOps-опыта.
- Нужны мультимодальные модели и tool use из коробки.
- Прототип, бизнес-кейс ещё не подтверждён.
Реальный кейс из нашего портфолио
Один заказчик - 8 млрд токенов/мес на классификацию документов. Считали: API Anthropic - $14k/мес, свой Llama 3.3 на двух H100 - $4.2k/мес инфраструктура + $2k MLOps. Окупилось за 2 месяца переезда.
Другой - 200 млн токенов/мес на разговорный B2C. API GPT-4o - $1.8k/мес. Self-host не имеет смысла: окупаемость за 4 года, заморочка не стоит свеч.