czwartek, 12 lutego 2026

Azure Vision Image Analysis

W poprzednim po艣cie pisa艂em o tym, jak rozpoznawa膰 w tek艣cie nazwane encje (NER). A co, je艣li chcemy analizowa膰 nie tekst, a zdj臋cia?

W tym celu mo偶na u偶y膰 Azure Vision Image Analysis. Znajdziemy tam wiele opcji dost臋pnych out of the box, na przyk艂ad:

  • Opisywanie zdj臋膰
  • Wykrywanie obiekt贸w na zdj臋ciach
  • OCR - czytanie tekstu ze zdj臋膰
  • Klasyfikowanie obiekt贸w 

Podobne opcje s膮 wykorzystywane na przyk艂ad na blogach. Wystarczy wrzuci膰 jakie艣 zdj臋cie, a nast臋pnie, sztuczna inteligencja mo偶e wygenerowa膰 jego opis, bez naszej ingerencji. Innym rozwi膮zaniem jest wykrywanie obiekt贸w na obrazku. 

Rozpoznawanie obiekt贸w opiera si臋 na procentach, model przedstawia nam, jak bardzo jest pewny swojego wyboru. 

 

Czerwonymi ramkami zaznaczono wykryte obiekty - ryby.  

Klasyfikowanie obiekt贸w to klasyczny problem - wykryj czy co艣 jest jab艂kiem czy bananem.  

Wykrywanie obiekt贸w idzie krok dalej, na zdj臋ciu mo偶e znajdowa膰 si臋 wiele obiekt贸w, model mo偶e je zaznaczy膰 kolorowymi ramkami. Je艣li jeste艣 w sklepie, mo偶esz by膰 pewny 偶e nagrywa Ci臋 kamera, kt贸ra 艣ledzi twoje ruchy. Nast臋pnie model mo偶e analizowa膰 Twoje zachowanie. 

 

Jak to wszystko dzia艂a pod spodem? W ogromnym uproszczeniu, modele, w tym te u偶ywane przez Azure Vision, by艂y trenowane na du偶ej ilo艣ci etykietowanych danych, dzi臋ki czemu, nauczy艂y si臋 rozpoznawa膰 obiekty.

Google Photos radzi sobie z rozpoznawaniem obiekt贸w bardzo dobrze i nawet oferuje wyszukiwanie tekstowe w obrazach i filmach. Prawdopodobnie obrazy s膮 rozpoznawane gdzie艣 w tle i nast臋pnie rozpoznane obiekty dodawane s膮 do metadanych obrazk贸w. Zauwa偶, 偶e zdj臋cie 1, 2 i 4 poni偶ej s膮 bardzo niskiej jako艣ci, a model rozpozna艂 je poprawnie.

 

Te same opcje mo偶na znale藕膰 te偶 w modelach dost臋pnych za darmo, albo wytrenowa膰 w艂asne model. 

Brak komentarzy:

Prze艣lij komentarz