Stable Video Diffusion od Stability AI

Stable Video Diffusion od Stability AI

Stable Video Diffusion (SVD) Image-to-Video, opracowany i finansowany przez Stability AI, to znaczący postęp w dziedzinie generatywnych modeli przekształcania obrazów w wideo. Model ten jest zaprojektowany do generowania krótkich klipów wideo z pojedynczych obrazów, tworząc 25 klatek o rozdzielczości 576×1024 pikseli z ramki kontekstowej tego samego rozmiaru. Został on dostosowany z wcześniejszej wersji modelu SVD Image-to-Video, która generowała 14 klatek, i wykorzystuje również dostosowany dekoder f8 do zapewnienia spójności czasowej​​​​.

W celach badawczych, Stability AI poleca swoje repozytorium GitHub ’generative-models’, które implementuje popularne ramy dyfuzji zarówno do szkolenia, jak i wnioskowania. Model SVD jest przeznaczony przede wszystkim do badań, skupiając się na modelach generatywnych, bezpiecznym wdrożeniu, zrozumieniu ograniczeń i uprzedzeń, tworzeniu dzieł sztuki oraz zastosowaniach w edukacji lub narzędziach kreatywnych​​​​.

Pewne ograniczenia modelu SVD obejmują generowanie krótkich wideo (do 4 sekund) bez osiągnięcia doskonałego fotorealizmu, potencjalny brak ruchu lub powolne przesuwanie kamery, brak możliwości sterowania przez tekst i wyzwania w renderowaniu czytelnego tekstu lub generowaniu twarzy i ludzi w sposób dokładny​​.

Model SVD jest rozwinięciem modelu generacji obrazu na tekst Stability, Stable Diffusion. Do jego rozwoju Stability AI zebrała i opisała duży zbiór danych wideo o nazwie Large Video Dataset (LVD), zawierający 580 milionów klipów wideo obejmujących 212 lat czasu trwania. Ten obszerny zbiór danych był kluczowy dla szkolenia i dostosowania modelu do różnych zadań, w tym generacji tekstu na wideo i wielokierunkowej generacji​​.

Model został oceniony przez sędziów ludzkich i preferowany nad innymi komercyjnymi produktami najnowszej generacji do generacji obrazu na wideo. Ponadto, jego model generacji wielokierunkowej przewyższał inne wiodące modele​​. CEO Stability AI, Emad Mostaque, podkreślił potencjał modelu do szerokiego zakresu efektów i elementów tworzenia scen, wskazując na przyszłe możliwości bardziej zaawansowanej i wszechstronnej generacji wideo​​.

Pomimo swoich mocnych stron, niektórzy użytkownicy zwrócili uwagę na wady modelu, zwłaszcza w jego renderowaniu oświetlenia i innych niekonsekwentnych aspektach, które są zauważalne dla artystów 3D i fotografów. Ta informacja zwrotna sugeruje potencjalne obszary do ulepszenia i prawdopodobieństwo bardziej zaawansowanych modeli w przyszłości​​.

Kod i wagi modelu Stable Video Diffusion są dostępne na GitHubie i Huggingface, co czyni je dostępnymi do dalszych badań i rozwoju​​.

Dodaj komentarz

17 − szesnaście =