CogVideo – SI tworzy video na podstawie tekstu.

Narzędzia generujące obraz na podstawie tekstu coraz bardziej rozwijają się więc to było tylko kwestią czasu, kiedy postawną pierwsze wyszkolone modele kreujące w ten sam sposób filmy video.

Nowy model CogVideo to największy wstępnie przeszkolony transformator do generowania video na podstawie opisu w domenie ogólnej, który ma 9,4 miliarda parametrów. CogVideo to zapewne pierwszy krok w kierunku generowania wysokiej jakości obrazów video na podstawie opisu.

Na razie model CogVideo może generować filmiki o rozdzielczości 480×480, czasie trwania 4 sekundy i z ograniczoną liczba 8 fps na sekundę. Ma też inne ograniczenia takie jak akceptowanie tylko j. chińskiego czy dość ograniczony zbiór filmów /41250 filmów/ na podstawie których został wyszkolony model. Jednak potencjał tej technologii jest olbrzymi i zapewne większy od generowania pojedynczych zdjęć na podstawie opisu. Model jest udostępniony na github.com jednak raczej niewiele osób go użyje, gdyż zalecaną karta graficzną do przeprowadzenia szkolenia jest Nvidia A100 za bagatela 57 tys. PLN. Zapewne dwie karty RTX 3090 z NVLink też by dały radę, ale że ich nie posiadam więc tym razem musze odpuścić sobie testy tego ciekawego algorytmu i nie przedstawię tym razem własnych wygenerowanych materiałów.

Do czego to zmierza

Wydaje się, że to tylko kwestia czasu, kiedy powstanie model kreujący video o poziomie możliwości DALL-E 2. Zastosowanie takiego modelu byłoby bardzo szerokie: od tworzeniu automatycznie filmów na podstawie artykułów blogowych, tworzenie realistycznych postaci do filmów czy gier, generowanie reklam itd.

Na pewno taki poziom nie zostanie osiągnięty szybko, potrzeba potężnej mocy komputerów i olbrzymiej ilości danych a do tego jest potrzeba sporo pieniędzy. Jednak wcześniej czy później to nastąpi i takie modele powstaną wpływając na wiele branż.

Adres projektu: https://github.com/THUDM/CogVideo

Przykłady wygenerowane przy pomocy CogVideo

pobrano: models.aminer.cn/cogvideo