Nowy rewolucyjny model oparty na dyfuzji

Nowy rewolucyjny model oparty na dyfuzji – Imagic

Model oparty na dyfuzji Imagic nie można nazwać inaczej jak rewolucyjnym, to coś więcej niż Stable Diffusion czy DALLE, bo po prostu potrafi znacznie więcej. Na czym polega różnica? Na tym, że po wygenerowaniu obrazu, gdzie magia innych modeli praktycznie się kończy tu dopiero się zaczyna. Po wygenerowaniu grafiki możemy nią manipulować dopracowując jej szczegóły. Spójrzcie na zdjęcie poniżej.

Pobrane ze strony projektu: https://arxiv.org/pdf/2210.09276.pdf

Imagic po wstępnym wygenerowaniu grafiki umożliwia jej edycję przy pomocy dodatkowego opisu. Imagic świetnie rozumie dodatkowy tekst i jest w stanie zachować początkową scenę edytując ją w zakresie w jakim dodaliśmy opis. Przykładowo generujemy psa a następnie tworzymy dodatkowy jego opis „A sittin dog”, „A jumping dog” itp. Model świetnie rozumie nasze intencje i generuje nam nową wersję tej samej grafiki z siedzącym czy skaczącym psem. Nie ma co się oszukiwać jest to następny krok w kierunku zastąpienia grafików przez sztuczną inteligencję.

Szkoda, że nie mogę w praktyce sprawdzić działania tego modelu, ale wymaga on karty graficznej z co najmniej 30 GB Vram.