Na blogu Pana Douga Marmana znalazłem interesujący artykuł dotyczący niedomówień związanych z zaawansowaną detekcją ruchu, analizą obrazu, video itp.. Człowiek ten twierdzi kategorycznie , iż firmy działające w branży CCTV nadużywają pewnych określeń, ba, wręcz używają ich w błędnym kontekście. Po przeczytaniu tego tekstu muszę przyznać, że ma on sporo racji. Zadałem więc pytanie, czy nie mógłbym tego tekstu przetłumaczyć i wrzucić na swoją stronę, na co Doug przystał.

Kim jest Doug Marman? Obecnie Doug pracuje w firmie VideoIQ piastując tam stanowisko Chief Technology Officer (CTO) and Vice President of Products (cokolwiek to będzie w naszej hierarchii :-) ). Pracował również w GE Security, ma na swoim koncie kilkadziesiąt patentów, branże zna od ćwierćwiecza. Innymi słowy jest to spec, z którym liczy się sporo osób z tego światka. Dla ciekawskich – polecam zerknąć w komentarze pod przytoczonym wpisem i zwrócić uwagę, kto (i skąd) się tam wypowiada.

Nie da się ukryć, że tekst jest nieco subiektywny, gdyż jakby nie patrzeć Doug odnosi się do produktów konkurencji, jednak rzeczowości odmówić mu nie sposób. Tak więc zapraszam do lektury tego tekstu. Zaczynamy.

Wielkie kłamstwo o analizie video.

Jak to często bywa w w odniesieniu do zagadnień technicznych, zawsze jest różnica między wyobrażeniami ludzi a praktyką.

Przykładem niech będzie rozpoznawanie twarzy (facial recognition), które to chciano wykorzystać do wyszukiwania facjat w tłumie krótko po ataku z 11.09.2001 mimo, iż było to zupełnie poza zasięgiem ówczesnej techniki. Oczywiście specjaliści wiedzieli o tym, jednak sporo firm wspierało tego typu projekty wzbudzając wiele nieprzychylnych reakcji.

Obserwowaliśmy niezadowolenie z instalacji, w których skorzystano z analizy video, np. wykrywania pozostawionego na lotnisku bagażu, czyli funkcji dużo trudniejszej do zrealizowania w praktyce niż jest to pokazywane na prezentacjach. Z tego powodu VideoIQ nawet nie oferuje takiej funkcji.

To wszystko powoduje, iż bardzo ważna staje się edukacja. Na szczęście większość osób z branży stara się sprowadzić oczekiwania do rzeczywistości, jednakże nie wszędzie jest tak pięknie. Każdy z pięciu największych producentów z branży (wszyscy świetnie znani), z wyjątkiem firmy Axis, utrzymuje, iż do swych kamer IP jest w stanie dostarczyć zaplecze do analizy video (Video Analytics).

Większość ludzi zakłada, iż wspomniane firmy są w stanie zaoferować rozwiązania porównywalne z tymi oferowanymi przez firmy zajmujące się analizą obrazu od lat. Tym niemniej to korporacje pokroju VideoIQ i inne firmy dobrze zakorzenione w tym temacie są odpowiedzialne za to, jak w dniu dzisiejszym postrzegana jest analiza obrazu w branży zabezpieczeń. Jednak akcje reklamowe i szeroko pojęty marketing Pięciu Największych sugeruje, że ich produkty mają takie same możliwości. To największe kłamstwo z jakim spotkałem się od lat w tej branży.

Doskonale zdaję sobie sprawę, dlaczego starają się oni utwierdzić klienta w przekonaniu, iż ich produkty to ta sama półka, choć tak naprawdę technologicznie są zdecydowanie w tyle. Oczywiste jest, że doskonale zdają sobie z tego sprawę, gdyż w odniesieniu do swoich wyrobów nie używają tylko określeń jak analiza video (Video Analytics), ale także inteligentna wizyjna detekcja ruchu (Intelligent Video Motion Detection) lub Adaptive Motion Behavior albo jeszcze inaczej.

Oferowane przez nich rozwiązania to tak naprawdę zaawansowana wizyjna detekcja ruchu (Advanced Video Motion Detection – AVDM) i jest to coś zupełnie innego niż prawdziwa analiza video (Video Analytics).

Żeby nie być gołosłownym, żadne z wymienionych rozwiązań nie jest w stanie rozróżnić człowieka lub samochodu od czegoś innego po innym kryterium, niż rozmiar. Innymi słowy detekcja ta polega tylko i wyłącznie na ocenie wielkości grupy pikseli. Jeżeli obszar ten jest wystarczająco duży, to wtedy (i tylko wtedy) zostanie wykryty. Ten schemat nawet nie zbliża się do prawdziwego rozpoznawania typu obiektu.

Po drugie żaden z tych systemów nie będzie wystarczająco dokładny w scenach z dynamicznym tłem, jak ruszający się pod wpływem wiatru żywopłot, gałęzie drzew czy falująca woda. Czyli w sytuacjach bardzo typowych dla instalacji na świeżym powietrzu. Aby odnaleźć „prawdę” należy zagłębić się w instrukcję obsługi danego systemu. Oto ostrzeżenie (dotyczące zakresu stosowania zaawansowanej detekcji) od jednego z producentów:

  • ruch może zostać błędnie wykryty jeżeli tłem jest: połyskliwa powierzchnia metaliczna, szkło (np. szklane elewacje), woda.
  • duże powierzchnie odbijające światło również mogą być przyczyną błędnych detekcji.
  • aby detekcja była niezawodna, tło musi być nieruchome.
  • osoba poruszająca się na tle ruszającego się żywopłotu najpewniej nie zostanie wykryta.

Kolejna firma dodała takie ostrzeżenia:

  • idealna scena charakteryzuje się niewielkim ruchem oraz jednolitym tłem.
  • jeżeli powyższe jest nieosiągalne, to instalacja powinna odbyć w miejscu relatywnie „spokojnym”.
  • unikaj scen zatłoczonych, gdzie ludzie poruszają się we wszystkich kierunkach lub stoją w miejscu przez długi okres czasu.

Jeden z topowych producentów nie wskazał żadnych przeciwwskazań co do stosowania ich systemu, za to największy z nich opublikował taką oto listę ograniczeń związanych ze stosowaniem zaawansowanej wizyjnej detekcji ruchu. Twierdzą, że ich rozwiązanie może nie działać gdy:

  • kamera się trzęsie.
  • głębokość obiektu jest zbyt duża.
  • obiekt jest zbyt duży bądź zbyt mały.
  • światło migoce.
  • w kadrze porusza się zbyt wiele obiektów.
  • warunki pogodowe są bardzo złe.
  • obiekt porusza się zbyt szybko bądź zbyt wolno.
  • obiekt porusza się bezpośrednio w stronę kamery.
  • pył, krople czy rozpryski znajdują się na obudowie kamery.
  • poziom oświetlenia sceny jest zbyt słaby (np. w nocy).
  • światło słoneczne bądź z reflektorów oślepia kamerę.
  • poziom oświetlenia sceny jest zmienny (montaż zewnętrzny, okno itp.)

Prawdziwa analiza video potrafi pracować w każdych wymienionych warunkach. Oczywiście istnieją ograniczenia i wciąż zdarzać się będą fałszywe alarmy, jednakże w przypadku zaawansowanej wizyjnej detekcji ruchu będzie ich 10-100 razy więcej (w typowych warunkach zewnętrznych). To samo tyczy się błędnych detekcji ruchu.

Zaawansowane systemy analizy video tworzone są w celu:

  • detekcji kolorów, kształtów oraz ruchu ludzi czy aut, a nie tylko poziomu luminancji.
  • aby ignorować migotanie światła, oślepienie słońcem słonecznym czy światłem reflektorów.
  • aby umożliwić pracę w trakcie złych warunków atmosferycznych.
  • aby ignorować drgania kamery, pył, krople na obudowie czy obiektywie.
  • aby zapewniać automatyczne dostosowanie do zmiennych warunków otoczenia.

Porządny system AVDM używany wewnątrz pomieszczeń (czyli w stabilnych warunkach oświetleniowych) powinien działać prawidłowo. Detekcja ruchu zawsze była użyteczna wewnątrz, a nowoczesne systemy AVDM są nieco lepsze. Jednakże na zewnątrz sytuacja zmienia się diametralnie. Wspominane tu kilkukrotnie korporacje nie powinny stawiać swych rozwiązań w jednym szeregu z tymi udostępnianymi przez VideoIQ czy innych vendorów zajmujących się analizą video.

Cały powyższy problem dotyczy „tylko” faktu, iż termin Analiza Video jest używany dość nierozważnie. Ludzie używają go aby opisać niemalże wszystko, włączając w to zwykłą detekcję ruchu, rozpoznawanie tablic rejestracyjnych (license plate recognition) czy rozpoznawanie twarzy (facial recognition). Moja sugestia jest taka, aby zaczęto wyraźnie rozróżniać powyższe pojęcia. Termin analiza video winien być stosowany tylko w odniesieniu do systemów, które umożliwiają:

  • rzeczywistą detekcję typu obiektu, a nie tylko wykrywanie grupy pikseli.
  • separację obiektu zainteresowania z dynamicznego tła.
  • automatyczną adaptację do zmian środowiskowych.
  • śledzenie obiektów w całym polu widzenia.

Jeżeli system nie potrafi zrealizować powyższych zadań, to przypisane powinno mu być określenie zaawansowana wizyjna detekcja ruchu (Advanced Video Motion Detection – AVDM).

Pojęcia rozpoznawanie tablic rejestracyjnych czy rozpoznawanie twarzy są jasno rozpoznawalne i nie ma potrzeby wrzucać ich do worka analizy video [choć moim zdaniem są podzbiorem tejże – cctv-news]. W przeciwnym wypadku wprowadzamy tylko galimatias utrudniający rozróżnienie, z jakim systemem mamy do czynienia. Klarowność jest istotna, uczciwość również.

Najciekawsze w tym wszystkim jest to, że to nie firmy zajmujące się analizą video uwieczniają ten mit. Zazwyczaj jest tak, że to początkujący producenci ogłaszają wszem i wobec swe absolutnie niesamowite osiągnięcia w zakresie tej technologii, głównie oczywiście po to, aby przykuć do siebie uwagę. Jednak w tym przypadku to najwięksi gracze rynku kamer CCTV (z wyjątkiem Axis) jadą na opinii firm zajmujących się analizą od lat.

Nie ma żadnego wytłumaczenia dla zaniedbań związanych z używaniem tej nomenklatury i nikt nie powinien udawać, że sprzedaje systemy analizy video, podczas gdy tego nie robi.

KONIEC

Dodam jeszcze dla zainteresowanych, iż niektóre dokonania VideoIQ można sobie obejrzeć w linku poniżej:
http://www.videoiq.com/videos.php

Może zainteresują Cię również poniższe wpisy: