VASA-1 Microsoft

Data dodania: 22-04-2024

VASA-1 jest tak realistyczny, że Microsoft nie może go wypuścić

VASA-1 firmy Microsoft przekształca zdjęcia w realistyczne filmy ze zsynchronizowanymi ruchami ust i mimiką
Nowy model sztucznej inteligencji o nazwie VASA-1 obiecuje przekształcić Twoje zdjęcia w filmy i nadać im głos. Ta ekscytująca technologia firmy Microsoft wykorzystuje pojedyncze zdjęcie portretowe i plik audio do tworzenia wideo mówiącej twarzy z realistyczną synchronizacją ruchu warg, mimiką i ruchami głowy.

Moc VASA-1

Możliwości VASA-1 polegają na możliwości generowania realistycznych animacji twarzy. W przeciwieństwie do swoich poprzedników, VASA-1 minimalizuje błędy wokół ust, co jest częstą oznaką deepfakes. Dodatkowo charakteryzuje się wysokiej jakości realizmem dzięki dopracowanemu zrozumieniu mimiki twarzy i naturalnych ruchów głowy.
Filmy demonstracyjne opublikowane przez firmę Microsoft w poście na blogu prezentują imponujące wyniki, zacierając granice między rzeczywistością a treściami generowanymi przez sztuczną inteligencję.

Gdzie VASA-1 mogłaby zabłysnąć?

Lepsze wrażenia z gry: wyobraź sobie postacie w grze z doskonale zsynchronizowanymi ruchami ust i wyrazistymi twarzami, tworząc bardziej wciągającą i wciągającą rozgrywkę.
Spersonalizowane wirtualne awatary: VASA-1 może zmienić media społecznościowe, umożliwiając użytkownikom tworzenie hiperrealistycznych awatarów, które poruszają się i mówią tak samo jak oni.
Tworzenie filmów w oparciu o sztuczną inteligencję: filmowcy mogą używać VASA-1 do generowania realistycznych ujęć z bliska, skomplikowanej mimiki i naturalnych sekwencji dialogowych, przesuwając granice efektów specjalnych.

Jak działa VASA-1?

VASA-1 podejmuje wyzwanie polegające na generowaniu realistycznych filmów z gadającą twarzą z pojedynczego obrazu i klipu audio. Przyjrzyjmy się technicznym aspektom osiągnięcia tego niezwykłego wyczynu.
Wyobraź sobie zdjęcie jakiejś osoby i nagranie dźwiękowe przemawiającej innej osoby. Celem VASA-1 jest połączenie tych elementów w celu stworzenia filmu, w którym osoba na zdjęciu wydaje się wypowiadać słowa z nagrania.

Przejrzystość i autentyczność obrazu: wygenerowane klatki wideo powinny wyglądać jak prawdziwy materiał filmowy i nie powinny zawierać żadnych sztucznie wyglądających artefaktów.
Dokładność synchronizacji warg: ruchy warg w filmie muszą być idealnie zsynchronizowane z dźwiękiem.
Wyraz twarzy: Wygenerowana twarz powinna ukazywać odpowiednie emocje i wyraz twarzy, pasujący do wypowiadanej treści.
Naturalne ruchy głowy: Subtelne ruchy głowy powinny zwiększyć realizm mówiącej twarzy.
VASA-1 może także zaakceptować dodatkowe elementy sterujące umożliwiające dostosowanie sygnału wyjściowego, np. kierunek spojrzenia głównego oka, odległość od głowy do aparatu i ogólne przesunięcie emocji.
Ogólne ramy
Zamiast bezpośrednio generować klatki wideo, VASA-1 działa dwuetapowo:

Generowanie ruchu i pozy: Tworzy sekwencję kodów reprezentujących dynamikę twarzy (ruchy warg, wyraz twarzy) i ruchy głowy (poza) uwarunkowane dźwiękiem i innymi sygnałami wejściowymi.

Generowanie klatek wideo: Te kody ruchu i pozy są następnie wykorzystywane do generowania rzeczywistych klatek wideo, biorąc pod uwagę informacje o wyglądzie i tożsamości wyodrębnione z obrazu wejściowego.

Oto zestawienie podstawowych komponentów VASA-1:

1. Ekspresyjna i rozplątana konstrukcja przestrzeni ukrytej twarzy
VASA-1 rozpoczyna od zbudowania specjalnego rodzaju przestrzeni cyfrowej zwanej „przestrzenią ukrytą”, zaprojektowanej specjalnie do przedstawiania ludzkich twarzy. Przestrzeń ta ma dwie kluczowe właściwości:

Ekspresyjność : umożliwia uchwycenie pełnego zakresu ludzkiej mimiki i ruchów z dużą szczegółowością.
Rozplątanie : różne aspekty twarzy, takie jak tożsamość, pozycja głowy i dynamika twarzy, są reprezentowane oddzielnie w tej przestrzeni. Pozwala to na niezależną kontrolę nad tymi aspektami podczas generowania wideo.
VASA-1 osiąga ten cel, opierając się na istniejących technikach rekonstrukcji twarzy 3D. Rozkłada obraz twarzy na kilka elementów:
Objętość wyglądu 3D (Vapp) : rejestruje szczegółowy trójwymiarowy kształt i teksturę twarzy.
Kod identyfikacyjny (z_id) : reprezentuje unikalne cechy osoby na obrazie.
Kod pozycji głowy (z_pose) : Koduje orientację i nachylenie głowy.
Kod dynamiki twarzy (z_dyn) : rejestruje bieżącą mimikę i ruchy twarzy.
Aby zapewnić prawidłowe rozplątanie, VASA-1 wykorzystuje wyspecjalizowane funkcje utraty podczas treningu. Funkcje te nakładają karę na model, jeśli miesza różne aspekty reprezentacji twarzy.
2. Holistyczne generowanie dynamiki twarzy za pomocą transformatora dyfuzyjnego
Gdy VASA-1 będzie miała już dobrze wyszkoloną przestrzeń ukrytą, potrzebuje sposobu na wygenerowanie kodów ruchu i pozy dla sekwencji gadającej twarzy w oparciu o klip audio. Tutaj z pomocą przychodzi „Transformator dyfuzyjny”.

Model dyfuzyjny : Aby to osiągnąć, VASA-1 wykorzystuje model dyfuzyjny , rodzaj architektury głębokiego uczenia się. Modele dyfuzyjne działają poprzez stopniowe dodawanie szumu do czystego sygnału, a następnie uczenie się odwracania tego procesu. W przypadku VASA-1 czysty sygnał to pożądana sekwencja ruchu i pozycji, a zaszumiony sygnał to losowy punkt początkowy. Model dyfuzyjny zasadniczo uczy się „odszumiania” w drodze powrotnej do sekwencji czystego ruchu w oparciu o dostarczone funkcje audio.
Architektura transformatora : VASA-1 wykorzystuje specyficzny typ modelu dyfuzyjnego zwany „transformatorem”. Transformatory doskonale radzą sobie z zadaniami uczenia się sekwencja po sekwencji, dzięki czemu doskonale nadają się do generowania sekwencji ruchu i kodów pozycji odpowiadających sekwencji audio.
VASA-1 kondycjonuje transformator dyfuzyjny na kilku wejściach:

Funkcje audio : te funkcje, wyodrębnione z klipu audio, reprezentują treść audio i informują modelkę o zamierzonych ruchach warg i emocjach.
Dodatkowe sygnały sterujące : Te opcjonalne sygnały umożliwiają dalszą kontrolę nad generowanym wideo. Zawierają:
Kierunek spojrzenia głównego oka (g) : określa, gdzie patrzy wygenerowana twarz.
Odległość od głowy do kamery (d) : kontroluje widoczny rozmiar twarzy w filmie.
Przesunięcie emocji (e) : Można tego użyć do nieznacznej zmiany ogólnego wyrazu emocjonalnego widocznego na twarzy.
3. Generowanie wideo mówiącej twarzy
Po wygenerowaniu kodów ruchu i pozy VASA-1 może w końcu stworzyć klatki wideo. Robi to poprzez:

Sieć dekoderów : ta sieć pobiera ruch i tworzy kody wraz z informacjami o wyglądzie i tożsamości wyodrębnionymi z obrazu wejściowego jako dane wejściowe. Następnie wykorzystuje te informacje do syntezy realistycznych klatek wideo przedstawiających osobę na obrazie wykonującą ruchy twarzy i mimikę odpowiadające dźwiękowi.
Naprowadzanie bez klasyfikatorów (CFG) : VASA-1 wykorzystuje technikę zwaną Naprowadzaniem bez klasyfikatorów (CFG), aby poprawić niezawodność i sterowalność procesu generowania. CFG polega na losowym odrzucaniu niektórych warunków wejściowych podczas treningu.
Zmusza to model do nauczenia się, jak generować dobre wyniki, nawet jeśli nie wszystkie informacje są dostępne. Na przykład model może wymagać wygenerowania początku wideo bez poprzedzających informacji o dźwięku lub ruchu.

Nadciągający cień deepfakes
Deepfakes , wysoce realistyczne filmy generowane przez sztuczną inteligencję, które manipulują wyglądem i głosem ludzi, stają się coraz większym źródłem niepokoju. Złośliwe podmioty mogą je wykorzystać do szerzenia dezinformacji, niszczenia reputacji, a nawet wpływania na wybory. Hiperrealistyczny charakter VASA-1 potęguje te niepokoje.
Tutaj leży sedno niepewnej przyszłości VASA-1 .

Decyzja Microsoftu o ograniczeniu dostępu, trzymając go z dala od opinii publicznej i niektórych badaczy, sugeruje ostrożne podejście. Potencjalne zagrożenia związane z deepfakes wymagają dokładnego rozważenia przed udostępnieniem tak potężnej technologii.
Równowaga innowacji z odpowiedzialnością
Idąc dalej, Microsoft stoi przed kluczowym wyzwaniem: zrównoważeniem innowacji z odpowiedzialnym rozwojem. Być może drogą naprzód będą kontrolowane środowiska badawcze z solidnymi zabezpieczeniami przed niewłaściwym wykorzystaniem. Ponadto wspieranie edukacji publicznej i zwiększanie świadomości na temat deepfakes może umożliwić użytkownikom odróżnienie prawdziwych treści od tych zmanipulowanych przez sztuczną inteligencję.
VASA-1 niezaprzeczalnie stanowi znaczący krok w zakresie zdolności sztucznej inteligencji do manipulowania mediami wizualnymi. Jego potencjalne zastosowania są po prostu rewolucyjne.

Jednakże względy etyczne dotyczące deepfakes wymagają wyważonego podejścia. Tylko poprzez odpowiedzialny rozwój i edukację publiczną możemy uwolnić prawdziwy potencjał VASA-1, jednocześnie ograniczając potencjalne szkody.

Przejdź do strony głównej Wróć do kategorii Blog IT