VQ-Diffusion: zamiana tekstu na obraz od Microsoft.

Coraz więcej firm prezentuje swoje modele zamiana tekstu na obraz. Tym razem swój model zaprezentował Microsoft. Twórcy nowego modelu wyjaśniają, że VQ-Diffusion opiera się na VQ-VAE, którego przestrzeń utajona jest modelowana przez warunkowy wariant niedawno opracowanego modelu dyfuzji DDPM. Co ma dawać znacznie lepsze wyniki generowania tekstu na obraz w porównaniu z modelami autoregresyjnymi o podobnej liczbie parametrów.

Microsoft udostępnił cały projekt na GitHub wraz z przeszkolonymi modelami, zapewne za kilka dni przedstawię grafiki wykonane za pomocą tego modelu wygenerowane na komputerze. Na razie skorzystałem z możliwości wygenerowania bezpłatnie kilku grafik wykonanych poprzez udostępnioną wersję przeglądarkową modelu która znajdziecie na stronie: https://replicate.com/cjwbw/vq-diffusion

Uczciwie muszę stwierdzić, że pierwsze próby nie zachwyciły mnie zbytnio jednak, żeby móc coś więcej powiedzieć o możliwościach VQ-Diffusion muszę przetestować udostępnione modele na komputerze. Dopiero wtedy przedstawię opinie na temat nowego modelu. Poniżej wygenerowane grafiki w VQ-Diffusion.