В 2026-м self-hosted LLM - уже не экзотика, но и не дефолт. Считаем актуальную экономику: цены на железо, стоимость аренды GPU в облаках, и в каких сценариях имеет смысл уходить от вендорских API.
Что доступно в 2026
- NVIDIA H200 и B200 в продаже, но дефицит сохраняется. Цена на H200 - порядка $30-35k за карту, B200 - выше.
- AMD MI300X и MI325X стали реальной альтернативой для инференса, особенно для open-source моделей.
- Apple M4 Ultra Mac Studio с 256GB - рабочая лошадка для маленьких команд под локальный инференс middle-моделей.
- Облачные инстансы: H100 - около $2-3/час on-demand, H200 - $3.5-5/час.
- Spot-инстансы и spotty-pricing у нишевых провайдеров (Lambda Labs, RunPod, Together) - экономия 40-60%.
Какие модели реально хостить
Open-weight модели на 2026 закрывают огромный спектр задач. Llama 4, Qwen 3, DeepSeek V3 - конкурентоспособны со средними коммерческими моделями. Mistral Large 3 хороша для инференса в своём весе. Для специализированных задач - fine-tune на основе Qwen/Llama даёт результат, который коммерческие модели не дают «из коробки».
Когда self-hosted имеет смысл
- Регуляторные требования: данные не должны покидать периметр (медицина, финансы, госсектор).
- Высокая нагрузка с предсказуемым профилем: 24/7 работа десятков агентов в стабильном объёме.
- Специализированный fine-tune, который даёт качественный отрыв на узкой задаче.
- Эксперименты на собственных датасетах, которые нельзя выкладывать вовне.
- Очень низкий latency для on-prem систем (например, заводская автоматизация).
Когда НЕ имеет смысла
- Стартап с непредсказуемой нагрузкой и горизонтом 1-2 года - оверкилл, лучше API.
- Сценарии с пиковыми нагрузками (день/ночь, сезонность) - сожжёте деньги на простаивающее железо.
- Команда без ML-инфра инженера - обслуживать GPU-парк нетривиально.
- Frontier-модели: GPT-5/6, Claude Opus и подобное - вы не догоните на своём железе по качеству.
Гибрид как дефолт
У нас сейчас в большинстве клиентских проектов гибридная схема: дешёвые задачи (классификация, embedding, простой chat) - на собственных GPU или дешёвых cloud-инференсах, сложные (рассуждения, агенты, генерация кода) - через вендорские API. Маршрутизатор перед моделью решает, куда отправить запрос. Это снижает счёт за месяц на 40-60% при сохранении качества.