Technicznie o AI

Prompt injection

Najczęstsze ataki i jak je ograniczać w systemach agentowych.

Prompt injection: praktyczna obrona przed manipulacją modelu

Prompt injection to realne ryzyko w systemach agentowych, zwłaszcza gdy model czyta zewnętrzne treści i ma dostęp do narzędzi. Obrona wymaga warstw: polityki, filtrów, walidacji i kontroli akcji.

Plan ochrony w 4 krokach

  1. Rozdziel instrukcje systemowe od danych wejściowych użytkownika.
  2. Wprowadź klasyfikację ryzyka promptu i politykę blokad.
  3. Waliduj wszystkie akcje write/delete dodatkowym checkiem reguł.
  4. Testuj odporność przez regularne red-teamowe scenariusze ataku.

Najczęstsze luki

  • Traktowanie treści użytkownika jako „zaufanej” instrukcji.
  • Brak sandboxingu narzędzi i ograniczeń uprawnień.
  • Brak logów bezpieczeństwa i ścieżki audytu decyzji agenta.

Powiązane zasoby i kolejne kroki

FAQ

Czy filtr promptów wystarczy?

Nie. Potrzebna jest wielowarstwowa architektura: filtry, uprawnienia i walidacja akcji.

Jak często testować odporność?

Regularnie po każdej większej zmianie modelu, promptów lub integracji narzędzi.