W poprzednim poście pisałem o tym, jak rozpoznawać w tekście nazwane encje (NER). A co, jeśli chcemy analizować nie tekst, a zdjęcia?
W tym celu można użyć Azure Vision Image Analysis. Znajdziemy tam wiele opcji dostępnych out of the box, na przykład:
- Opisywanie zdjęć
- Wykrywanie obiektów na zdjęciach
- OCR - czytanie tekstu ze zdjęć
- Klasyfikowanie obiektów
Podobne opcje są wykorzystywane na przykład na blogach. Wystarczy wrzucić jakieś zdjęcie, a następnie, sztuczna inteligencja może wygenerować jego opis, bez naszej ingerencji. Innym rozwiązaniem jest wykrywanie obiektów na obrazku.
Rozpoznawanie obiektów opiera się na procentach, model przedstawia nam, jak bardzo jest pewny swojego wyboru.
Czerwonymi ramkami zaznaczono wykryte obiekty - ryby.
Klasyfikowanie obiektów to klasyczny problem - wykryj czy coś jest jabłkiem czy bananem.
Wykrywanie obiektów idzie krok dalej, na zdjęciu może znajdować się wiele obiektów, model może je zaznaczyć kolorowymi ramkami. Jeśli jesteś w sklepie, możesz być pewny że nagrywa Cię kamera, która śledzi twoje ruchy. Następnie model może analizować Twoje zachowanie.
Jak to wszystko działa pod spodem? W ogromnym uproszczeniu, modele, w tym te używane przez Azure Vision, były trenowane na dużej ilości etykietowanych danych, dzięki czemu, nauczyły się rozpoznawać obiekty.
Google Photos radzi sobie z rozpoznawaniem obiektów bardzo dobrze i nawet oferuje wyszukiwanie tekstowe w obrazach i filmach. Prawdopodobnie obrazy są rozpoznawane gdzieś w tle i następnie rozpoznane obiekty dodawane są do metadanych obrazków. Zauważ, że zdjęcie 1, 2 i 4 poniżej są bardzo niskiej jakości, a model rozpoznał je poprawnie.
Te same opcje można znaleźć też w modelach dostępnych za darmo, albo wytrenować własne model.
