Hasło słownika

Model Armor

Warstwa ochrony dla systemów AI, która filtruje wejścia i wyjścia modelu pod kątem prompt injection, wycieku danych i treści ryzykownych.

AIkategoria
3aliasy
Kategoria: AI
Aliasy: pre-inference filtering post-inference filtering pancerz modelu

Opis

Model Armor to praktyka stawiania bramki przed i za modelem: przed inferencją można wykryć złośliwe instrukcje, ukryte znaki, podejrzane URL-e lub PII, a po inferencji sprawdzić, czy odpowiedź nie ujawnia sekretów albo nie łamie polityk. Sama bramka nie zastępuje uprawnień i audytu, ale znacząco zmniejsza ryzyko agentów z dostępem do narzędzi.

Przykłady

  • Pre-inference filtr blokuje prompt injection ukryte w dokumencie.
  • Post-inference kontrola zatrzymuje odpowiedź zawierającą dane osobowe klienta.