Stable Video Diffusion od Stability AI
Stable Video Diffusion (SVD) Image-to-Video, opracowany i finansowany przez Stability AI, to znaczący postęp w dziedzinie generatywnych modeli przekształcania obrazów w wideo. Model ten jest zaprojektowany do generowania krótkich klipów wideo z pojedynczych obrazów, tworząc 25 klatek o rozdzielczości 576×1024 pikseli z ramki kontekstowej tego samego rozmiaru. Został on dostosowany z wcześniejszej wersji modelu SVD Image-to-Video, która generowała 14 klatek, i wykorzystuje również dostosowany dekoder f8 do zapewnienia spójności czasowej.
W celach badawczych, Stability AI poleca swoje repozytorium GitHub ’generative-models’, które implementuje popularne ramy dyfuzji zarówno do szkolenia, jak i wnioskowania. Model SVD jest przeznaczony przede wszystkim do badań, skupiając się na modelach generatywnych, bezpiecznym wdrożeniu, zrozumieniu ograniczeń i uprzedzeń, tworzeniu dzieł sztuki oraz zastosowaniach w edukacji lub narzędziach kreatywnych.
Pewne ograniczenia modelu SVD obejmują generowanie krótkich wideo (do 4 sekund) bez osiągnięcia doskonałego fotorealizmu, potencjalny brak ruchu lub powolne przesuwanie kamery, brak możliwości sterowania przez tekst i wyzwania w renderowaniu czytelnego tekstu lub generowaniu twarzy i ludzi w sposób dokładny.
Model SVD jest rozwinięciem modelu generacji obrazu na tekst Stability, Stable Diffusion. Do jego rozwoju Stability AI zebrała i opisała duży zbiór danych wideo o nazwie Large Video Dataset (LVD), zawierający 580 milionów klipów wideo obejmujących 212 lat czasu trwania. Ten obszerny zbiór danych był kluczowy dla szkolenia i dostosowania modelu do różnych zadań, w tym generacji tekstu na wideo i wielokierunkowej generacji.
Model został oceniony przez sędziów ludzkich i preferowany nad innymi komercyjnymi produktami najnowszej generacji do generacji obrazu na wideo. Ponadto, jego model generacji wielokierunkowej przewyższał inne wiodące modele. CEO Stability AI, Emad Mostaque, podkreślił potencjał modelu do szerokiego zakresu efektów i elementów tworzenia scen, wskazując na przyszłe możliwości bardziej zaawansowanej i wszechstronnej generacji wideo.
Pomimo swoich mocnych stron, niektórzy użytkownicy zwrócili uwagę na wady modelu, zwłaszcza w jego renderowaniu oświetlenia i innych niekonsekwentnych aspektach, które są zauważalne dla artystów 3D i fotografów. Ta informacja zwrotna sugeruje potencjalne obszary do ulepszenia i prawdopodobieństwo bardziej zaawansowanych modeli w przyszłości.
Kod i wagi modelu Stable Video Diffusion są dostępne na GitHubie i Huggingface, co czyni je dostępnymi do dalszych badań i rozwoju.