AI/journal
Self-hosted LLM
Self-hosted LLM в 2025: vs API. Когда экономика сходится
← ЖурналAI7 мин чтения

Self-hosted LLM в 2025: vs API. Когда экономика сходится

Команда nordiqdev
студия

Каждые полгода мы пересчитываем юнит-экономику inference: дешевле платить за токены провайдеру или поднять свою GPU и крутить open-source. В 2025 ответ снова не очевиден.

Что изменилось за 2024–2025

  • Цены на input-токены у Anthropic/OpenAI упали в 3–5 раз.
  • Llama 3.3 70B и Mistral Large близки к GPT-4-class на 70% задач.
  • Stable аренда A100/H100 у DataCrunch / Lambda Labs стала доступнее.
  • vLLM и TGI вышли в зрелость: throughput 2–3x по сравнению с базой.

Когда self-host

  • Объём от 5 млрд токенов/мес на одну задачу.
  • Чувствительные данные, которые нельзя отправлять в US/EU облака.
  • Custom fine-tuning на доменных данных - большая часть пользы.
  • Низкая толерантность к latency: свой регион vs «через океан».

Когда API

  • Объём до 1 млрд токенов/мес.
  • Команда без MLOps-опыта.
  • Нужны мультимодальные модели и tool use из коробки.
  • Прототип, бизнес-кейс ещё не подтверждён.

Реальный кейс из нашего портфолио

Один заказчик - 8 млрд токенов/мес на классификацию документов. Считали: API Anthropic - $14k/мес, свой Llama 3.3 на двух H100 - $4.2k/мес инфраструктура + $2k MLOps. Окупилось за 2 месяца переезда.

Другой - 200 млн токенов/мес на разговорный B2C. API GPT-4o - $1.8k/мес. Self-host не имеет смысла: окупаемость за 4 года, заморочка не стоит свеч.

Теги
#llm#self-hosted#llama#mistral#инфраструктура#стоимость
Студия nordiqdev

Делаем мобильные приложения, веб-сервисы и AI на заказ

Если задача из текста выглядит знакомой и нужна команда, которая соберёт продукт - расскажите подробнее. Вернёмся в течение 24 часов с разбором.