Tworząc systemy informatyczne w których użytkownik może wykonywać jakieś akcje, należy zastosować jakieś metody na ich filtrowanie. Gdy zarządzamy forum czy grupą, musimy przeprowadzać moderację treści.
To samo tyczy się filtrowania danych w tak popularnych obecnie aplikacjach AI, oraz filtrowania samych danych zwracanych przez nasz system.
Azure AI Safety oferuje kilka rodzajów filtrowania danych
- Prompt Shields - skanuje prompty użytkownika w celu sprawdzenia, czy user nie próbuje prompt injection.
- Protected material text detection - sprawdza, czy model nie zwraca danych chronionych prawem autorskim.
- Analyze text API/ Analyze image API - skanuje tekst i zdjęcia wrzucane przez użytkownika, pod względem tego, czy nie zawiera zdjęć o charakterze seksualnym, pełnych przemocy czy mowy nienawiści itp. Administrator może ustawić każdy z tych filtrów.
Te filtry można używać zarówno do filtrowania danych generowanych przez Gen AI, jak i do moderacji danych na forach czy w opiniach produktów.
Azure oferuje Azure AI Content Safety Studio, w której można ustawić także:
- Listę blokowanyc przekleństw (profanity)
- Filtrowanie zdjęć wrzucanych przez użytkowników. Widać to na przykład na stronie Joe Monster, gdzie często obrazki są zablurowane. Tutaj akurat zostało użyte filtrowanie Google.
- Usuwanie spamu oraz treści naruszających politykę serwisu
- Filtrowanie treści K-12, ważne w materiałach edukacyjnych dla uczniów.
- Wychwytywanie prób jailbreakowania lub Prompt Injection
Rozwiązania tego typu działają pod spodem różnych aplikacji i są krytycznie ważne. Obecnie media bardzo chętnie podchwytują tematy związane z wszelkimi pomyłkami i niewłaściwymi treściami oferowanymi przez AI.
Brak komentarzy:
Prześlij komentarz