Generowanie video na podstawie tekstu

W ostatnim czasie jedne z największych firm technologicznych Meta i Google przedstawiły swoje generatory filmów na podstawie opisu. Jest to odpowiednik generatorów grafik takich jak Stable Diffusion czy DALL·E 2, ale dla video. Meta przedstawiła generator o nazwie Make-A-Video, natomiast generator od Google to Imagen Video. Poniżej trochę zdobytych dla Was informacji na ich temat. Na razie generatory nie są ogólnodostępne wiec nie ma możliwości ich przetestowania.

Make-A-Video

Generator od Meta o nazwie Make-A-Video został zaprezentowany jako pierwszy.

„To niesamowity postęp. Znacznie trudniej jest wygenerować wideo niż zdjęcia, ponieważ poza prawidłowym generowaniem każdego piksela system musi również przewidzieć, jak zmienią się w czasie” — powiedział Mark Zuckerberg

Ten początkowy model na nad którym Meta pracuje potrafi nie tylko generować film na podstawie tekstu, ale również generować film na podstawie zdjęcia. Można poprosić o dostęp do tego wstępnego generatora pod tym linkiem: Make-A-Video Interest Submission

Więcej na temat Make-A-Video znajdziecie na stronie projektu: makeavideo.studio. Moniżej klika przykładów filmów wygenerowanych Make-A-Video.

Zdezorientowany niedźwiedź grizzly na lekcji rachunku różniczkowego

Imagen Video

Generator Imagen Video to odpowiedź Google na Make-A-Video. Imagen Video został przeszkolony na 14 milionach par wideo-tekst oraz 60 milionach par obraz-tekst, a także na zestawie danych obraz-tekst LAION-400M. Generator ma możliwość tworzenie filmów w rozdzielczości 1280×768 w 24 klatkach na sekundę.

Wyszkolony model potrafi generować również tekst z czym słabo sobie radzą modele generatorów grafik. Stable Diffusion robi to fatalnie a DALL·E 2 trochę lepiej, ale też daleko mu do ideału. Google twierdzi, że Imagen Video jest w stanie nie tylko generować filmy o foto realistycznej jakości, ale również filmy generowane w różnych stylach artystycznych. Na razie Google nie umożliwia skorzystania z modelu.

Swój model Google opisuje tak:

„Przedstawiamy Imagen Video, tekstowy system generowania wideo oparty na kaskadzie modeli dyfuzji wideo. Po otrzymaniu komunikatu tekstowego Imagen Video generuje filmy w wysokiej rozdzielczości przy użyciu podstawowego modelu generowania wideo oraz sekwencji przeplatanych przestrzennych i czasowych modeli wideo w super rozdzielczości. Opisujemy, w jaki sposób skalujemy system jako model tekstu na wideo w wysokiej rozdzielczości, w tym decyzje projektowe, takie jak wybór w pełni splotowych modeli czasowych i przestrzennych o super rozdzielczości przy określonych rozdzielczościach oraz wybór v-parametryzacji dyfuzji modele. Ponadto potwierdzamy i przenosimy wyniki wcześniejszych prac nad generowaniem obrazu w oparciu o dyfuzję do ustawień generowania wideo. Na koniec, w naszych modelach wideo stosujemy destylację progresywną, korzystając ze wskazówek bez klasyfikatorów, aby zapewnić szybkie próbkowanie wysokiej jakości.”

Miś myjący naczynia.

Kolorowa profesjonalna animacja logo dla „Imagen Video”

Przykłady Imagen Video ze strony projektu: imagen.research.google/video/