Весной 2023-го всё про AI крутилось вокруг агентов: AutoGPT, BabyAGI, planner-executor паттерны. К лету хайп ослаб, и стало понятно, где у этой технологии границы. Делимся, что у нас взлетело, а что нет.
Что такое LLM-агент
LLM, которая в цикле планирует следующий шаг, вызывает инструменты (поиск, calc, API), получает результат, обновляет план и идёт дальше. С июня 2023-го у OpenAI есть нативный function calling - это сильно упростило сборку.
Где агенты сработали
Запросный ассистент в BI
Пользователь пишет «покажи продажи за прошлый квартал по городам». Агент: парсит запрос → выбирает таблицы → строит SQL → проверяет → отдаёт график. Точность на 200 типовых запросах - 87%. Заменяет работу аналитика на простых ad-hoc отчётах.
Triage-помощник в саппорте
Агент классифицирует входящий тикет, ищет похожие закрытые в базе, предлагает шаблон ответа. Не отвечает напрямую - только готовит черновик оператору. Снижение AHT (average handle time) - 32%.
Где агенты провалились
Автономный агент закупок
Идея: агент сам ищет поставщиков, сравнивает цены, делает заказы. Реальность: на третьем шаге планирования модель регулярно теряла контекст и совершала действия, не соответствующие задаче. После двух месяцев и одной попытки купить 50 единиц вместо 5 - проект свернули.
Универсальный «AI-помощник по сайту»
Хотели бот, который умеет всё: ответить на вопрос, оформить заказ, изменить подписку. Получили инструмент, который умел всё плохо. Конверсия на любом отдельном сценарии оказалась ниже, чем у узкоспециализированного бота.
Что мы поняли про агенты
- Чем уже задача, тем выше успех. «Универсальный агент» в 2023-м - миф.
- Каждый шаг плана - точка отказа. На пяти шагах вероятность успеха = 0.9^5 = 59%.
- Без human-in-the-loop в любой сделке с реальными последствиями - нельзя.
- Function calling решает много, но не убирает фундаментальных проблем планирования.
Что меняет 2024
Ждём более длинных контекстов и моделей с настоящим long-horizon planning. Пока он отсутствует, агенты - это не «авто», а «полу-авто с присмотром». Этого хватает для многих задач, но не для тех, что обычно показывают в демо.