Co to jest Wizja komputerowa (computer vision)?

Słownik AI

Wizja komputerowa (computer vision)

computer vision, widzenie komputerowe, CV

Wizja komputerowa to dziedzina sztucznej inteligencji, która uczy maszyny rozumieć obraz i wideo — wykrywać obiekty, klasyfikować sceny czy odczytywać tekst — zamiast traktować je jako surowe piksele.

Pozwala maszynom wykrywać obiekty, klasyfikować obrazy i odczytywać tekst ze zdjęć i wideo.
Współczesne metody opierają się na uczeniu głębokim i sieciach neuronowych.
To dla obrazu odpowiednik tego, czym przetwarzanie języka naturalnego jest dla tekstu.

Wizja komputerowa to dziedzina sztucznej inteligencji zajmująca się tym, jak maszyny mają rozumieć treść obrazów i nagrań wideo. Zadania mieszczą się tu w szerokim zakresie: rozpoznawanie obiektów na zdjęciu, klasyfikacja całej sceny, wykrywanie wad na linii produkcyjnej czy odczytywanie tekstu z dokumentu. Cel jest zawsze ten sam — przejść od surowych pikseli do informacji, na której można podjąć decyzję.

Współczesna wizja komputerowa opiera się przede wszystkim na uczeniu głębokim i sieciach neuronowych, które uczą się rozpoznawać wzorce wizualne na podstawie wielu przykładów, zamiast korzystać z ręcznie pisanych reguł. Można ją traktować jako odpowiednik przetwarzania języka naturalnego — jedna dziedzina pracuje na obrazie, druga na tekście. Gdy oba te światy łączą się w jednym modelu, mówimy o multimodalności, czyli zdolności do równoczesnego przetwarzania obrazu i tekstu.

W zastosowaniach firmowych wizja komputerowa zasila kontrolę jakości w produkcji, automatyczne odczytywanie faktur i dokumentów, analizę nagrań z kamer czy weryfikację tożsamości. Najczęściej nie buduje się takiego rozwiązania od zera — wykorzystuje się gotowy model wytrenowany na dużych zbiorach obrazów i dostosowuje go do konkretnego przypadku, na przykład do rozpoznawania jednego typu detalu na zdjęciach z hali.

Powiązane pojęcia