Self-hosted AI-инференс: реальность железа в 2026

Команда nordiqdev

студия

В 2026-м self-hosted LLM - уже не экзотика, но и не дефолт. Считаем актуальную экономику: цены на железо, стоимость аренды GPU в облаках, и в каких сценариях имеет смысл уходить от вендорских API.

Что доступно в 2026

NVIDIA H200 и B200 в продаже, но дефицит сохраняется. Цена на H200 - порядка $30-35k за карту, B200 - выше.
AMD MI300X и MI325X стали реальной альтернативой для инференса, особенно для open-source моделей.
Apple M4 Ultra Mac Studio с 256GB - рабочая лошадка для маленьких команд под локальный инференс middle-моделей.
Облачные инстансы: H100 - около $2-3/час on-demand, H200 - $3.5-5/час.
Spot-инстансы и spotty-pricing у нишевых провайдеров (Lambda Labs, RunPod, Together) - экономия 40-60%.

Какие модели реально хостить

Open-weight модели на 2026 закрывают огромный спектр задач. Llama 4, Qwen 3, DeepSeek V3 - конкурентоспособны со средними коммерческими моделями. Mistral Large 3 хороша для инференса в своём весе. Для специализированных задач - fine-tune на основе Qwen/Llama даёт результат, который коммерческие модели не дают «из коробки».

Когда self-hosted имеет смысл

Регуляторные требования: данные не должны покидать периметр (медицина, финансы, госсектор).
Высокая нагрузка с предсказуемым профилем: 24/7 работа десятков агентов в стабильном объёме.
Специализированный fine-tune, который даёт качественный отрыв на узкой задаче.
Эксперименты на собственных датасетах, которые нельзя выкладывать вовне.
Очень низкий latency для on-prem систем (например, заводская автоматизация).

Когда НЕ имеет смысла

Стартап с непредсказуемой нагрузкой и горизонтом 1-2 года - оверкилл, лучше API.
Сценарии с пиковыми нагрузками (день/ночь, сезонность) - сожжёте деньги на простаивающее железо.
Команда без ML-инфра инженера - обслуживать GPU-парк нетривиально.
Frontier-модели: GPT-5/6, Claude Opus и подобное - вы не догоните на своём железе по качеству.

Гибрид как дефолт

У нас сейчас в большинстве клиентских проектов гибридная схема: дешёвые задачи (классификация, embedding, простой chat) - на собственных GPU или дешёвых cloud-инференсах, сложные (рассуждения, агенты, генерация кода) - через вендорские API. Маршрутизатор перед моделью решает, куда отправить запрос. Это снижает счёт за месяц на 40-60% при сохранении качества.

Теги

#ai#self-hosted#gpu#инференс#платформа

Self-hosted AI-инференс: реальность железа в 2026

Что доступно в 2026

Какие модели реально хостить

Когда self-hosted имеет смысл

Когда НЕ имеет смысла

Гибрид как дефолт

Другие статьи из журнала

Edge-базы данных в 2026: что реально работает

Bun как продакшн-рантайм: окончательный вердикт

Bun 1.1 в продакшне: готов или нет на конец 2024

Делаем мобильные приложения, веб-сервисы и AI на заказ