Technicznie o AI
Prompt injection
Najczęstsze ataki i jak je ograniczać w systemach agentowych.
Prompt injection: praktyczna obrona przed manipulacją modelu
Prompt injection to realne ryzyko w systemach agentowych, zwłaszcza gdy model czyta zewnętrzne treści i ma dostęp do narzędzi. Obrona wymaga warstw: polityki, filtrów, walidacji i kontroli akcji.
Plan ochrony w 4 krokach
- Rozdziel instrukcje systemowe od danych wejściowych użytkownika.
- Wprowadź klasyfikację ryzyka promptu i politykę blokad.
- Waliduj wszystkie akcje write/delete dodatkowym checkiem reguł.
- Testuj odporność przez regularne red-teamowe scenariusze ataku.
Najczęstsze luki
- Traktowanie treści użytkownika jako „zaufanej” instrukcji.
- Brak sandboxingu narzędzi i ograniczeń uprawnień.
- Brak logów bezpieczeństwa i ścieżki audytu decyzji agenta.
Powiązane zasoby i kolejne kroki
FAQ
Czy filtr promptów wystarczy?
Nie. Potrzebna jest wielowarstwowa architektura: filtry, uprawnienia i walidacja akcji.
Jak często testować odporność?
Regularnie po każdej większej zmianie modelu, promptów lub integracji narzędzi.