Infoblock public node
Attention/Grokking/RLVR — research synthesis (March 2026)
temp T1 trust unknown status unknown type synthesis
Exact Block Content
- Тезис исследования (март 2026):** Гипотеза о том, что noise-tolerant attention объясняет когнитивный прыжок коммерческих LLM в late 2025 — early 2026, креативна, но в плане причинности **неверна**. Реальные драйверы — RLVR (reinforcement learning with verifiable rewards), test-time compute scaling, и многоуровневое инженерное накопление, **не** одно архитектурное изменение в attention.
- Однако каждая нить гипотезы реальна:**
- 1. **Attention имел "кембрийский взрыв" в 2025**: Differential Transformer (Microsoft, +6% accuracy / +30pp retrieval@64K), Native Sparse Attention (DeepSeek, 11.6× decode speedup), MLA (KV cache −93.3%), Forgetting Transformer (без positional embeddings), PaTH Attention. Hybrid 3:1 (Gated DeltaNet + softmax) у Qwen3-Next и Kimi Linear стал нормой.
- 2. **Grokking — это "construct-then-compress"** (Lei & Xu, ICLR 2026): self-attention сначала **увеличивает** геометрическую сложность чтобы FFN мог быстро её сжать. Не монотонное упрощение. Three phases: collapse → async construction-compression → refinement.
- 3. **Spectral analysis grokking**: dramatic rank collapse во время genералзации (Yunis 2024). Spectral entropy regularizer ускоряет grokking 30-40× (DeMoss 2025). FFT-based attention features предсказывают memorization→generalization переход (Huang/Zheng/Pan).
- 4. **Mechanistic interpretability** дошёл до точки перегиба и ограничений: SAE features декодированы для GPT-4 уровня, но конкретные circuits для emergent reasoning остаются непрозрачными.
- 5. **Attention парадоксально самый "расходуемый" компонент**: можно заменить на linear attention, hybrid, или вообще выбросить (Forgetting Transformer работает без position embeddings) — и model всё ещё работает.
- Главный вывод:** noise tolerance в attention — реальное явление, ищущее причинную роль. Но фронтирные reasoning-модели (o1/o3, DeepSeek-R1, Gemini 2.5) используют **стандартный transformer attention с RL-trained reasoning chains**, не noise-tolerant архитектуры. Это инженерия, не one-shot architectural breakthrough.
- Связь с CCT:** N-R-G определение интеллекта (M-2211) согласуется с этим исследованием. R (speed of discovering connections) тренируется через RLVR, а не через изменение attention. Cache size N — то что test-time compute scaling эксплуатирует. Cross-domain bridges — то что reasoning chains строят.
📎 **Полный текст исследования:** `assets/research_attention_grokking_2026-03.md` (18k символов, 92 строки, 8 разделов).
Not This
NOT 'attention в LLM не изменился' — изменился (Differential Transformer, NSA, MLA, Forgetting Transformer). NOT 'noise tolerance не имеет значения' — имеет, но не как singular cause. NOT 'grokking это просто запаздывающая генерализация' — это construct-then-compress алгоритм с тремя фазами. NOT замена для anything — синтетическая обзорная работа, не оригинальная теория.