Open-source LLM-сцена за полгода снова перестроилась. Llama 4, Mistral Large 2, Qwen 3 - три семейства, на которых живёт большинство наших self-hosted задач. Рассказываем, что куда поставили.
Llama 4 (8B / 70B / 405B)
Главная рабочая лошадка. На 70B держим сервинг для 4 клиентов: классификация документов, суммаризация, RAG-генерация. По качеству близок к Claude 3.5 Sonnet на нашем бенчмарке (10 типов задач из реальных проектов).
Mistral Large 2
Лучший по русскому и испанскому. Используем там, где доминирует non-English контент: кейсы для LatAm-клиентов и российских заказчиков. На английском проигрывает Llama, на романских и кириллице - выигрывает.
Qwen 3 (0.5B / 4B / 32B)
Открытие года для on-device. Qwen 3 4B на iPhone 16 крутится на CoreML с приемлемой скоростью. Используем для одного приложения с приватным режимом - все промпты обрабатываются локально.
Чего не используем
- Phi-4 - формально хорош, но для production-сервинга unstable, чаще мёртвые ответы.
- Gemma 3 - нормальный, но не превосходит ничего из выше.
- Чистая Llama 4 405B - на наши объёмы slow и дорого, лучше брать API.