Llama 2 и open-source LLM в продакшне: пробуем альтернативу OpenAI

Команда nordiqdev

студия

В июле Meta выпустила Llama 2 с разрешением на коммерческое использование. Для нашего клиента из медицинской ниши, где данные пациентов нельзя гонять через OpenAI, это оказалось спасением. Делимся, как мы её приготовили.

Что значит self-hosted на практике

Мы развернули llama-2-13b-chat на дедикейтед GPU (одна A100 80GB у провайдера). Через vLLM как inference-сервер. Среднее время ответа на 500 токенов - 1.8 секунды (быстрее, чем gpt-3.5 через OpenAI). Стоимость - около $1100 в месяц при загрузке 30%.

Сравнение с GPT-3.5 на наших задачах

Извлечение структуры из медицинских записей: Llama 2 - 79% точности, GPT-3.5 - 84%.
Классификация обращений по тематике: Llama 2 - 91%, GPT-3.5 - 92%.
Генерация черновиков ответов: Llama 2 проигрывает, особенно на русском.
Reasoning на сложных кейсах: Llama 2 заметно слабее, лучше брать 70b версию.

Fine-tuning изменил картину

Дофайнтюнили llama-2-13b на 4000 примеров из домена клиента (LoRA, две эпохи). Результат на извлечении структуры - 89% против 79% базовой модели. На задачах in-domain зафайнтюненная Llama стала точнее, чем gpt-3.5 без fine-tune.

Когда брать open-source LLM

Жёсткие требования к data privacy (медицина, финансы, гостайна).
Высокий объём запросов, при котором счёт от OpenAI становится больше зарплаты ML-инженера.
Возможность затюнить модель под узкий домен - здесь open-source бьёт чёрный ящик.
Нужен полный контроль над версией модели (важно для compliance - модель не должна меняться).

Когда не брать

MVP, где важно проверить идею за неделю.
Нужны frontier-возможности (gpt-4 на сложном reasoning).
В команде нет ML-инженера - операционка self-hosted больше, чем кажется.
Объём запросов меньше 100к в месяц - экономика не сходится против OpenAI.

Теги

#llama 2#open source llm#self-hosted#ai#fine-tuning

Llama 2 и open-source LLM в продакшне: пробуем альтернативу OpenAI

Что значит self-hosted на практике

Сравнение с GPT-3.5 на наших задачах

Fine-tuning изменил картину

Когда брать open-source LLM

Когда не брать

Другие статьи из журнала

Голосовые агенты в B2B: где они реально выигрывают

Computer vision в страховании: 4 кейса и где не сработало

MCP-протокол через год: что прижилось, а что - нет

Делаем мобильные приложения, веб-сервисы и AI на заказ