niedziela, 15 lutego 2026

🛡️Azure AI Content Safety🛡️

Tworząc systemy informatyczne w których użytkownik może wykonywać jakieś akcje, należy zastosować jakieś metody na ich filtrowanie. Gdy zarządzamy forum czy grupą, musimy przeprowadzać moderację treści. 

To samo tyczy się filtrowania danych w tak popularnych obecnie aplikacjach AI, oraz filtrowania samych danych zwracanych przez nasz system.

Azure AI Safety oferuje kilka rodzajów filtrowania danych

  • Prompt Shields - skanuje prompty użytkownika w celu sprawdzenia, czy user nie próbuje prompt injection.
  • Protected material text detection - sprawdza, czy model nie zwraca danych chronionych prawem autorskim.
  • Analyze text API/ Analyze image API - skanuje tekst i zdjęcia wrzucane przez użytkownika, pod względem tego, czy nie zawiera zdjęć o charakterze seksualnym, pełnych przemocy czy mowy nienawiści itp. Administrator może ustawić każdy z tych filtrów.

Te filtry można używać zarówno do filtrowania danych generowanych przez Gen AI, jak i do moderacji danych na forach czy w opiniach produktów.

Azure oferuje Azure AI Content Safety Studio, w której można ustawić także:

  • Listę blokowanyc przekleństw (profanity) 
  • Filtrowanie zdjęć wrzucanych przez użytkowników. Widać to na przykład na stronie Joe Monster, gdzie często obrazki są zablurowane. Tutaj akurat zostało użyte filtrowanie Google.
     
  • Usuwanie spamu oraz treści naruszających politykę serwisu
  • Filtrowanie treści K-12, ważne w materiałach edukacyjnych dla uczniów.
  • Wychwytywanie prób jailbreakowania lub Prompt Injection 

Rozwiązania tego typu działają pod spodem różnych aplikacji i są krytycznie ważne. Obecnie media bardzo chętnie podchwytują tematy związane z wszelkimi pomyłkami i niewłaściwymi treściami oferowanymi przez AI.  

Brak komentarzy:

Prześlij komentarz