В июле Meta выпустила Llama 2 с разрешением на коммерческое использование. Для нашего клиента из медицинской ниши, где данные пациентов нельзя гонять через OpenAI, это оказалось спасением. Делимся, как мы её приготовили.
Что значит self-hosted на практике
Мы развернули llama-2-13b-chat на дедикейтед GPU (одна A100 80GB у провайдера). Через vLLM как inference-сервер. Среднее время ответа на 500 токенов - 1.8 секунды (быстрее, чем gpt-3.5 через OpenAI). Стоимость - около $1100 в месяц при загрузке 30%.
Сравнение с GPT-3.5 на наших задачах
- Извлечение структуры из медицинских записей: Llama 2 - 79% точности, GPT-3.5 - 84%.
- Классификация обращений по тематике: Llama 2 - 91%, GPT-3.5 - 92%.
- Генерация черновиков ответов: Llama 2 проигрывает, особенно на русском.
- Reasoning на сложных кейсах: Llama 2 заметно слабее, лучше брать 70b версию.
Fine-tuning изменил картину
Дофайнтюнили llama-2-13b на 4000 примеров из домена клиента (LoRA, две эпохи). Результат на извлечении структуры - 89% против 79% базовой модели. На задачах in-domain зафайнтюненная Llama стала точнее, чем gpt-3.5 без fine-tune.
Когда брать open-source LLM
- Жёсткие требования к data privacy (медицина, финансы, гостайна).
- Высокий объём запросов, при котором счёт от OpenAI становится больше зарплаты ML-инженера.
- Возможность затюнить модель под узкий домен - здесь open-source бьёт чёрный ящик.
- Нужен полный контроль над версией модели (важно для compliance - модель не должна меняться).
Когда не брать
- MVP, где важно проверить идею за неделю.
- Нужны frontier-возможности (gpt-4 на сложном reasoning).
- В команде нет ML-инженера - операционка self-hosted больше, чем кажется.
- Объём запросов меньше 100к в месяц - экономика не сходится против OpenAI.