AI/journal
Llama 2 и open-source LLM в продакшне
Llama 2 и open-source LLM в продакшне: пробуем альтернативу OpenAI
← ЖурналAI7 мин чтения

Llama 2 и open-source LLM в продакшне: пробуем альтернативу OpenAI

Команда nordiqdev
студия

В июле Meta выпустила Llama 2 с разрешением на коммерческое использование. Для нашего клиента из медицинской ниши, где данные пациентов нельзя гонять через OpenAI, это оказалось спасением. Делимся, как мы её приготовили.

Что значит self-hosted на практике

Мы развернули llama-2-13b-chat на дедикейтед GPU (одна A100 80GB у провайдера). Через vLLM как inference-сервер. Среднее время ответа на 500 токенов - 1.8 секунды (быстрее, чем gpt-3.5 через OpenAI). Стоимость - около $1100 в месяц при загрузке 30%.

Сравнение с GPT-3.5 на наших задачах

  • Извлечение структуры из медицинских записей: Llama 2 - 79% точности, GPT-3.5 - 84%.
  • Классификация обращений по тематике: Llama 2 - 91%, GPT-3.5 - 92%.
  • Генерация черновиков ответов: Llama 2 проигрывает, особенно на русском.
  • Reasoning на сложных кейсах: Llama 2 заметно слабее, лучше брать 70b версию.

Fine-tuning изменил картину

Дофайнтюнили llama-2-13b на 4000 примеров из домена клиента (LoRA, две эпохи). Результат на извлечении структуры - 89% против 79% базовой модели. На задачах in-domain зафайнтюненная Llama стала точнее, чем gpt-3.5 без fine-tune.

Когда брать open-source LLM

  • Жёсткие требования к data privacy (медицина, финансы, гостайна).
  • Высокий объём запросов, при котором счёт от OpenAI становится больше зарплаты ML-инженера.
  • Возможность затюнить модель под узкий домен - здесь open-source бьёт чёрный ящик.
  • Нужен полный контроль над версией модели (важно для compliance - модель не должна меняться).

Когда не брать

  • MVP, где важно проверить идею за неделю.
  • Нужны frontier-возможности (gpt-4 на сложном reasoning).
  • В команде нет ML-инженера - операционка self-hosted больше, чем кажется.
  • Объём запросов меньше 100к в месяц - экономика не сходится против OpenAI.
Теги
#llama 2#open source llm#self-hosted#ai#fine-tuning
Студия nordiqdev

Делаем мобильные приложения, веб-сервисы и AI на заказ

Если задача из текста выглядит знакомой и нужна команда, которая соберёт продукт - расскажите подробнее. Вернёмся в течение 24 часов с разбором.