Technicznie o AI

Prompt injection

Autor: Michał 10 marca, 2026 8 min czytania

Najczęstsze ataki i jak je ograniczać w systemach agentowych.

Prompt injection: praktyczna obrona przed manipulacją modelu

Prompt injection to realne ryzyko w systemach agentowych, zwłaszcza gdy model czyta zewnętrzne treści i ma dostęp do narzędzi. Obrona wymaga warstw: polityki, filtrów, walidacji i kontroli akcji.

Plan ochrony w 4 krokach

Rozdziel instrukcje systemowe od danych wejściowych użytkownika.
Wprowadź klasyfikację ryzyka promptu i politykę blokad.
Waliduj wszystkie akcje write/delete dodatkowym checkiem reguł.
Testuj odporność przez regularne red-teamowe scenariusze ataku.

Najczęstsze luki

Traktowanie treści użytkownika jako „zaufanej” instrukcji.
Brak sandboxingu narzędzi i ograniczeń uprawnień.
Brak logów bezpieczeństwa i ścieżki audytu decyzji agenta.

Powiązane zasoby i kolejne kroki

FAQ

Czy filtr promptów wystarczy?

Nie. Potrzebna jest wielowarstwowa architektura: filtry, uprawnienia i walidacja akcji.

Jak często testować odporność?

Regularnie po każdej większej zmianie modelu, promptów lub integracji narzędzi.