AI/journal
LLM-агенты
LLM-агенты: первые попытки и громкие провалы
← ЖурналAI7 мин чтения

LLM-агенты: первые попытки и громкие провалы

Команда nordiqdev
студия

Весной 2023-го всё про AI крутилось вокруг агентов: AutoGPT, BabyAGI, planner-executor паттерны. К лету хайп ослаб, и стало понятно, где у этой технологии границы. Делимся, что у нас взлетело, а что нет.

Что такое LLM-агент

LLM, которая в цикле планирует следующий шаг, вызывает инструменты (поиск, calc, API), получает результат, обновляет план и идёт дальше. С июня 2023-го у OpenAI есть нативный function calling - это сильно упростило сборку.

Где агенты сработали

Запросный ассистент в BI

Пользователь пишет «покажи продажи за прошлый квартал по городам». Агент: парсит запрос → выбирает таблицы → строит SQL → проверяет → отдаёт график. Точность на 200 типовых запросах - 87%. Заменяет работу аналитика на простых ad-hoc отчётах.

Triage-помощник в саппорте

Агент классифицирует входящий тикет, ищет похожие закрытые в базе, предлагает шаблон ответа. Не отвечает напрямую - только готовит черновик оператору. Снижение AHT (average handle time) - 32%.

Где агенты провалились

Автономный агент закупок

Идея: агент сам ищет поставщиков, сравнивает цены, делает заказы. Реальность: на третьем шаге планирования модель регулярно теряла контекст и совершала действия, не соответствующие задаче. После двух месяцев и одной попытки купить 50 единиц вместо 5 - проект свернули.

Универсальный «AI-помощник по сайту»

Хотели бот, который умеет всё: ответить на вопрос, оформить заказ, изменить подписку. Получили инструмент, который умел всё плохо. Конверсия на любом отдельном сценарии оказалась ниже, чем у узкоспециализированного бота.

Что мы поняли про агенты

  • Чем уже задача, тем выше успех. «Универсальный агент» в 2023-м - миф.
  • Каждый шаг плана - точка отказа. На пяти шагах вероятность успеха = 0.9^5 = 59%.
  • Без human-in-the-loop в любой сделке с реальными последствиями - нельзя.
  • Function calling решает много, но не убирает фундаментальных проблем планирования.

Что меняет 2024

Ждём более длинных контекстов и моделей с настоящим long-horizon planning. Пока он отсутствует, агенты - это не «авто», а «полу-авто с присмотром». Этого хватает для многих задач, но не для тех, что обычно показывают в демо.

Теги
#llm agents#autogpt#function calling#ai#агенты
Студия nordiqdev

Делаем мобильные приложения, веб-сервисы и AI на заказ

Если задача из текста выглядит знакомой и нужна команда, которая соберёт продукт - расскажите подробнее. Вернёмся в течение 24 часов с разбором.