VQ-Diffusion: zamiana tekstu na obraz od Microsoft.

VQ-Diffusion: zamiana tekstu na obraz od Microsoft.

Blog sztuczna inteligencja

Coraz więcej firm prezentuje swoje modele zamiana tekstu na obraz. Tym razem swój model zaprezentował Microsoft. Twórcy nowego modelu wyjaśniają, że VQ-Diffusion opiera się na VQ-VAE, którego przestrzeń utajona jest modelowana przez warunkowy wariant niedawno opracowanego modelu dyfuzji DDPM. Co ma dawać znacznie lepsze wyniki generowania tekstu na obraz w porównaniu z modelami autoregresyjnymi o podobnej liczbie parametrów.

Microsoft udostępnił cały projekt na GitHub wraz z przeszkolonymi modelami, zapewne za kilka dni przedstawię grafiki wykonane za pomocą tego modelu wygenerowane na komputerze. Na razie skorzystałem z możliwości wygenerowania bezpłatnie kilku grafik wykonanych poprzez udostępnioną wersję przeglądarkową modelu która znajdziecie na stronie: https://replicate.com/cjwbw/vq-diffusion

Uczciwie muszę stwierdzić, że pierwsze próby nie zachwyciły mnie zbytnio jednak, żeby móc coś więcej powiedzieć o możliwościach VQ-Diffusion muszę przetestować udostępnione modele na komputerze. Dopiero wtedy przedstawię opinie na temat nowego modelu.  Poniżej wygenerowane grafiki w VQ-Diffusion.

Dodaj komentarz

13 − cztery =