LLM агенты всё ещё не подходят для реальных задач ru en
AI агенты показывают результат своей работы программисту (с) ChatGPT & Hieronymus Bosch.
На этой неделе протестил LLM на реальных задачах из своего программирования. Опять.
Первая задача — конвертирование конфигов аутентификационных прокси. Я вручную сделал конфиги для Apache APISIX и хотел, чтобы ChatGPT побыстрому сделал мне конфиги для полностью аналогичной логики для Pomerium и OAuth2-proxy.
Задача, на мой взгляд, максимально подходящая для автоматизации, более подходящую придумать сложно:
- Концептуально не сложная — не надо ничего выдумывать, вся необходимая логика полностью описана.
- Много монотонной работы с информацией — сложно для человека, просто для машины — надо вычитать много (не сложной, но запутанной) информации, чтобы правильно написать новые конфиги.
- По-сути, перевод с одного технического языка на другой.
Результат — провал — итоговые конфиги в обоих случаях одноверменно:
- Были нерабочими (прокси не запускались вообще).
- Содержали устаревшие или неправильные директивы.
- Не соответствовали логике, описанной в исходных конфигам.
Вторая задача — подготовить шаблон frontend приложения для Vue 3: создать приложение, поставить Tailwind CSS, поставить одну специфическую библиотеку — Dockview — сделать пару тестовых компонентов. В этот раз использовал Copilot Agents. Просто хотел сэкономить своё время, плюс это последний по приоритету проект, который я мечтаю разрабатывать в духе вайб кодинга, но всё не получатся :-)
Результат — провал — пакеты поставлены, но я бы не назвал их нормально сконфигурированными, нужный GUI элементарно не отображался. Зато Copilot сделал красивое README со скриншотом пустой страницы и, что забавно, пытался меня убедить, что хоть скрин и пустой, всё на самом деле работает, просто скрины правильные потерялись где-то в tmp каталогах.
Обе задачи — это максимально рутинные штуки уровня усидчивого мидла, может даже джуна — не надо быть семи пядей во лбу, чтобы их сделать.
Кстати, вот недавно и исследование появилось, что LLM-агенты эффективны примерно никак — справляются с около 2.5% реальных экономических задач.
У меня есть гипотеза, откуда весь этот хайп по поводу вайб-кодинга:
- Люди, которые делают LLM-ки — исследователи — у них мало производственного опыта.
- Люди, которые делают бенчмарки LLM-ок — тоже исследователи.
- Для исследователей работа программиста — это нафигачить крутую сортировку по памяти, или обход дерева хитрый для экономии двух тактов процессора в час.
- В итоге все эти LLM тюнятся не в ту сторону и оптимизируются не по тем метрикам.
- Потом это всё проходит через наших любимых
лидеров индустриистартаперов, которые отчасти не понимают, что автоматизация была и до ИИ (отчего приписывают её успехи новым инструментам), отчасти открыто врут (так как нельзя останавливать поток денег).
Всё это создаёт настолько загрязнённое информационное поле, что реальное положение дел становится неразличимо.
И ведь это не первый случай за последние десятилетия: блокчейн точно также тонул в хайпе, в итоге мир не перевернулся, но мы получили «ещё одну полезную технологию». До блокчейна были более мелкие хайповые волны, вроде NoSQL, нанотрубок (я даже видел сайт, который предлагал их грузовиками отгружать!), даже Ajax (a.k.a. web 2.0) проходил через эту стадию.
Читать далее
- Как я делал и делал бы поддержку GDPR
- Топовые LLM фреймворки могут быть не так надёжны, как вы думаете
- Миграции backend на практике
- GraphQL & Python
- Python & OpenAPI
- Open source сервисы аутентификации
- Как завалить собес у меня
- Feature Programming
- Модная типизация в Python
- Интересный случай оптимизации извлечения данных с помощью Psycopg