Generowanie video na podstawie tekstu
W ostatnim czasie jedne z największych firm technologicznych Meta i Google przedstawiły swoje generatory filmów na podstawie opisu. Jest to odpowiednik generatorów grafik takich jak Stable Diffusion czy DALL·E 2, ale dla video. Meta przedstawiła generator o nazwie Make-A-Video, natomiast generator od Google to Imagen Video. Poniżej trochę zdobytych dla Was informacji na ich temat. Na razie generatory nie są ogólnodostępne wiec nie ma możliwości ich przetestowania.
Make-A-Video
Generator od Meta o nazwie Make-A-Video został zaprezentowany jako pierwszy.
„To niesamowity postęp. Znacznie trudniej jest wygenerować wideo niż zdjęcia, ponieważ poza prawidłowym generowaniem każdego piksela system musi również przewidzieć, jak zmienią się w czasie” — powiedział Mark Zuckerberg
Ten początkowy model na nad którym Meta pracuje potrafi nie tylko generować film na podstawie tekstu, ale również generować film na podstawie zdjęcia. Można poprosić o dostęp do tego wstępnego generatora pod tym linkiem: Make-A-Video Interest Submission
Więcej na temat Make-A-Video znajdziecie na stronie projektu: makeavideo.studio. Moniżej klika przykładów filmów wygenerowanych Make-A-Video.
Imagen Video
Generator Imagen Video to odpowiedź Google na Make-A-Video. Imagen Video został przeszkolony na 14 milionach par wideo-tekst oraz 60 milionach par obraz-tekst, a także na zestawie danych obraz-tekst LAION-400M. Generator ma możliwość tworzenie filmów w rozdzielczości 1280×768 w 24 klatkach na sekundę.
Wyszkolony model potrafi generować również tekst z czym słabo sobie radzą modele generatorów grafik. Stable Diffusion robi to fatalnie a DALL·E 2 trochę lepiej, ale też daleko mu do ideału. Google twierdzi, że Imagen Video jest w stanie nie tylko generować filmy o foto realistycznej jakości, ale również filmy generowane w różnych stylach artystycznych. Na razie Google nie umożliwia skorzystania z modelu.
Swój model Google opisuje tak:
„Przedstawiamy Imagen Video, tekstowy system generowania wideo oparty na kaskadzie modeli dyfuzji wideo. Po otrzymaniu komunikatu tekstowego Imagen Video generuje filmy w wysokiej rozdzielczości przy użyciu podstawowego modelu generowania wideo oraz sekwencji przeplatanych przestrzennych i czasowych modeli wideo w super rozdzielczości. Opisujemy, w jaki sposób skalujemy system jako model tekstu na wideo w wysokiej rozdzielczości, w tym decyzje projektowe, takie jak wybór w pełni splotowych modeli czasowych i przestrzennych o super rozdzielczości przy określonych rozdzielczościach oraz wybór v-parametryzacji dyfuzji modele. Ponadto potwierdzamy i przenosimy wyniki wcześniejszych prac nad generowaniem obrazu w oparciu o dyfuzję do ustawień generowania wideo. Na koniec, w naszych modelach wideo stosujemy destylację progresywną, korzystając ze wskazówek bez klasyfikatorów, aby zapewnić szybkie próbkowanie wysokiej jakości.”
Przykłady Imagen Video ze strony projektu: imagen.research.google/video/