Ta nowa metoda opiera się na 200-letnich fundamentach geometrycznych, aby dać artystom kontrolę nad wyglądem animowanych postaci. Artyści, którzy ożywiają bohaterów i złoczyńców w filmach animowanych i grach wideo, mogą mieć większą kontrolę nad swoimi animacjami dzięki nowej technice wprowadzonej przez badaczy z MIT.
Ich metoda generuje funkcje matematyczne znane jako współrzędne barycentryczne, które definiują, jak kształty 2D i 3D mogą się zginać, rozciągać i poruszać w przestrzeni. Na przykład artysta korzystający z ich narzędzia mógłby wybrać funkcje, które sprawiają, że ruchy ogona 3D kota pasują do jego wizji „wyglądu” animowanego kota. Wiele innych technik tego problemu jest nieelastyczna, oferując tylko jedną opcję funkcji współrzędnych barycentrycznych dla pewnej animowanej postaci. Każda funkcja może być najlepsza lub nie dla konkretnej animacji. Artysta musiałby zacząć od zera z nowym podejściem za każdym razem, gdy chce spróbować uzyskać nieco inny wygląd.
„Jako badacze, czasami możemy utknąć w pętli rozwiązywania artystycznych problemów bez konsultacji z artystami. O czym artyści troszczą się to elastyczność i 'wygląd’ ich końcowego produktu. Nie obchodzą ich równania różniczkowe cząstkowe, które Twój algorytm rozwiązuje za kulisami,” mówi Ana Dodik, główna autorka artykułu na temat tej techniki.
Poza zastosowaniami artystycznymi, ta technika może być używana w takich obszarach jak obrazowanie medyczne, architektura, rzeczywistość wirtualna, a nawet w wizji komputerowej jako narzędzie pomagające robotom zrozumieć, jak obiekty poruszają się w rzeczywistym świecie.
Dodik, doktorantka z dziedziny elektrotechniki i nauk komputerowych (EECS), napisała artykuł z Odedem Steinem, asystentem profesora na Uniwersytecie Południowej Kalifornii w Viterbi School of Engineering; Vincentem Sitzmannem, asystentem profesora EECS, który kieruje Grupą Reprezentacji Sceny w MIT Computer Science and Artificial Intelligence Laboratory (CSAIL); oraz starszym autorem Justinem Solomonem, profesorem stowarzyszonym EECS i liderem CSAIL Geometric Data Processing Group. Badanie zostało niedawno zaprezentowane na SIGGRAPH Asia.
Ogólne podejście
Gdy artysta animuje postać 2D lub 3D, jedną z powszechnych technik jest otoczenie złożonego kształtu postaci prostszym zestawem punktów połączonych liniami lub trójkątami, zwanymi klatką. Animator przesuwa te punkty, aby poruszać i deformować postać wewnątrz klatki. Kluczowym problemem technicznym jest określenie, jak postać porusza się, gdy klatka jest modyfikowana; ten ruch jest określany przez projekt konkretnych funkcji współrzędnych barycentrycznych.
Tradycyjne podejścia używają skomplikowanych równań, aby znaleźć ruchy oparte na klatce, które są niezwykle gładkie, unikając zagięć, które mogą się pojawić w kształcie, gdy jest on rozciągany lub zginany do skrajności. Ale istnieje wiele koncepcji, jak artystyczna idea „gładkości” przekłada się na matematykę, z których każda prowadzi do innego zestawu funkcji współrzędnych barycentrycznych.
Badacze z MIT poszukiwali ogólnego podejścia, które pozwoli artystom mieć głos w projektowaniu lub wyborze wśród energii gładkości dla dowolnego kształtu. Następnie artysta mógłby zobaczyć deformację i wybrać energię gładkości, która wygląda najlepiej według jego gustu.
Chociaż elastyczne projektowanie współrzędnych barycentrycznych jest nowoczesnym pomysłem, podstawowa konstrukcja matematyczna współrzędnych barycentrycznych sięga wieków wstecz. Wprowadzone przez niemieckiego matematyka Augusta Möbiusa w 1827 roku, współrzędne barycentryczne dyktują, jak każdy róg kształtu wpływa na wnętrze kształtu.
W trójkącie, który jest kształtem używanym przez Möbiusa w jego obliczeniach, współrzędne barycentryczne są łatwe do zaprojektowania – ale gdy klatka nie jest trójkątem, obliczenia stają się bałaganem. Tworzenie współrzędnych barycentrycznych dla skomplikowanej klatki jest szczególnie trudne, ponieważ dla złożonych kształtów każda współrzędna barycentryczna musi spełniać zestaw ograniczeń, będąc jednocześnie jak najbardziej gładka.
Odchodząc od poprzednich prac, zespół użył specjalnego rodzaju sieci neuronowej do modelowania nieznanych funkcji współrzędnych barycentrycznych. Sieć neuronowa, luźno oparta na ludzkim mózgu, przetwarza wejście za pomocą wielu warstw połączonych węzłów.
Chociaż sieci neuronowe są często stosowane w aplikacjach AI naśladujących ludzką myśl, w tym projekcie sieci neuronowe są używane z matematycznego powodu. Architektura sieci badaczy wie, jak generować funkcje współrzędnych barycentrycznych, które spełniają wszystkie ograniczenia dokładnie. Budują ograniczenia bezpośrednio w sieci, więc gdy generuje rozwiązania, zawsze są one ważne. Ta konstrukcja pomaga artystom projektować interesujące współrzędne barycentryczne, nie martwiąc się o matematyczne aspekty problemu.
„Trudna część polegała na wbudowaniu ograniczeń. Standardowe narzędzia nie zaprowadziły nas aż tak daleko, więc naprawdę musieliśmy myśleć poza schematami,” mówi Dodik.
Wirtualne trójkąty
Badacze wykorzystali trójkątne współrzędne barycentryczne wprowadzone przez Möbiusa prawie 200 lat temu. Te trójkątne współrzędne są proste do obliczenia i spełniają wszystkie niezbędne ograniczenia, ale nowoczesne klatki są znacznie bardziej skomplikowane niż trójkąty.
Aby przezwyciężyć tę lukę, metoda badaczy pokrywa kształt nakładającymi się wirtualnymi trójkątami, które łączą trójki punktów na zewnątrz klatki.
Każdy wirtualny trójkąt definiuje ważną funkcję współrzędnych barycentrycznych. Potrzebujemy tylko sposobu ich połączenia,” mówi ona.
W tym miejscu pojawia się sieć neuronowa. Przewiduje ona, jak połączyć barycentryczne współrzędne wirtualnych trójkątów, aby stworzyć bardziej skomplikowaną, ale gładką funkcję.
Korzystając z ich metody, artysta mógłby wypróbować jedną funkcję, obejrzeć końcową animację, a następnie dostosować współrzędne, aby generować różne ruchy, aż osiągnie animację, która wygląda tak, jak chce.
„Z praktycznego punktu widzenia, myślę, że największym wpływem jest to, że sieci neuronowe dają dużo większą elastyczność, niż miało się to wcześniej,” mówi Dodik.
Badacze zademonstrowali, jak ich metoda mogłaby generować bardziej naturalnie wyglądające animacje niż inne podejścia, takie jak ogon kota, który płynnie się wygina podczas ruchu, zamiast sztywno składać się w pobliżu wierzchołków klatki.
W przyszłości chcą spróbować różnych strategii, aby przyspieszyć sieć neuronową. Chcą również zbudować tę metodę w interaktywny interfejs, który pozwoliłby artystom łatwo iterować nad animacjami w czasie rzeczywistym.
To badanie zostało sfinansowane, częściowo, przez Biuro Badań Wojskowych Armii Stanów Zjednoczonych, Biuro Badań Naukowych Sił Powietrznych USA, Narodową Fundację Naukową USA, Program CSAIL Systems that Learn, Laboratorium AI MIT-IBM Watson, Wspólne Centrum Badawcze Toyota-CSAIL, Adobe Systems, Nagrodę Badań Google, Agencję Nauki i Technologii Obronnej Singapuru oraz Amazon Science Hub.