„Minimalny czas widzenia” to wskaźnik oceniający złożoność rozpoznawania obrazów dla systemów AI poprzez mierzenie czasu potrzebnego na dokładną identyfikację przez człowieka. Wyobraź sobie, że przeglądasz zdjęcia na swoim telefonie i natrafiasz na obraz, który na początku nie możesz rozpoznać. Wygląda to może na coś puszystego na kanapie; czy to poduszka czy płaszcz? Po kilku sekundach dochodzi do Ciebie — oczywiście! Ta kula sierści to kot Twojego przyjaciela, Mocha. Dlaczego niektóre Twoje zdjęcia można zrozumieć od razu, a to zdjęcie kota było znacznie trudniejsze?
Badacze z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) byli zaskoczeni, że pomimo krytycznego znaczenia zrozumienia danych wizualnych w kluczowych obszarach, od opieki zdrowotnej po transport po urządzenia domowe, koncepcja trudności rozpoznania obrazu przez ludzi została prawie całkowicie zignorowana. Jeden z głównych czynników postępu w AI opartym na uczeniu głębokim to zestawy danych, jednak niewiele wiemy o tym, jak dane napędzają postęp w uczeniu głębokim na dużą skalę poza tym, że większe jest lepsze.
W rzeczywistych zastosowaniach wymagających zrozumienia danych wizualnych ludzie przewyższają modele rozpoznawania obiektów, pomimo faktu, że modele dobrze radzą sobie z obecnymi zestawami danych, w tym tymi specjalnie zaprojektowanymi do wyzwania maszyn z obrazami wolnymi od uprzedzeń lub przesunięciami w dystrybucji. Ten problem utrzymuje się częściowo dlatego, że nie mamy wytycznych dotyczących absolutnej trudności obrazu lub zestawu danych. Bez kontroli nad trudnością obrazów używanych do oceny trudno obiektywnie ocenić postęp w kierunku osiągnięcia wydajności na poziomie ludzkim, pokryć zakres ludzkich zdolności i zwiększyć wyzwanie stawiane przez zestaw danych.
Aby wypełnić tę lukę wiedzy, David Mayo, doktorant z MIT w dziedzinie inżynierii elektrycznej i nauki o komputerach oraz członek CSAIL, zagłębił się w głęboki świat zestawów danych obrazów, badając, dlaczego niektóre obrazy są trudniejsze do rozpoznania dla ludzi i maszyn niż inne. „Niektóre obrazy wymagają dłuższego czasu do rozpoznania, a zrozumienie aktywności mózgu podczas tego procesu i jej związku z modelami uczenia maszynowego jest niezbędne. Być może w naszych obecnych modelach brakuje złożonych obwodów neuronowych lub unikalnych mechanizmów, widocznych tylko podczas testowania z trudnymi bodźcami wizualnymi. To badanie jest kluczowe dla zrozumienia i ulepszania modeli widzenia maszynowego,” mówi Mayo, główny autor nowej pracy na ten temat.
Prowadzi to do opracowania nowego wskaźnika, „minimalnego czasu widzenia” (MVT), który określa trudność rozpoznania obrazu na podstawie czasu, jakiego osoba potrzebuje do jego zobaczenia przed dokonaniem poprawnej identyfikacji. Wykorzystując podzestaw ImageNet, popularnego zestawu danych w uczeniu maszynowym, oraz ObjectNet, zestawu danych zaprojektowanego do testowania odporności rozpoznawania obiektów, zespół pokazywał uczestnikom obrazy przez różne okresy od 17 milisekund do 10 sekund, prosząc ich o wybranie poprawnego obiektu spośród 50 opcji. Po ponad 200 000 próbach prezentacji obrazów zespół stwierdził, że istniejące zestawy testów, w tym ObjectNet, wydają się być skierowane w stronę łatwiejszych, krótszych obrazów MVT, przy czym większość wyników benchmarkowych pochodzi z obrazów łatwych dla ludzi.
Projekt zidentyfikował interesujące trendy w wydajności modeli — szczególnie w odniesieniu do skalowania. Większe modele wykazały znaczną poprawę na prostszych obrazach, ale osiągnęły mniejszy postęp na bardziej wymagających obrazach. Modele CLIP, które łączą język i wizję, wyróżniały się, ponieważ poruszały się w kierunku bardziej ludzkiego rozpoznawania.