eDiff-I - nowy generator obrazów od Nvidia

DALL·E 2 – nowy generator obrazów od Nvidia

eDiff-I to zupełnie nowy model dyfuzji tekstu na obraz od Nvidia. Po generatorach obrazu Ai OpenAI, MidJourney i Stability AI również Nvidia zademonstrowała swój generator wg. niej lepszy od modeli pozostałych firm. Twórcy eDiff-I przedstawiają sporą listę w czym ich generator jest lepszy od takich modeli jak Stable Diffusion czy Dall-E2. Poniżej najważniejsze cechy wyróżniające go od pozostałych generatorów.

Teksty – jednym z problemów z którym nie radzą sobie dobrze generatory to umieszczanie tekstów na obrazie. eDiff-I ma wykonywać to znacznie lepiej od pozostałych modeli

„Zdjęcie złotego szczeniak retrievera ubrany w zielony koszula. Koszulka ma tekst, który mówi „NVIDIA rocks”. Biuro w tle. 4k dslr.” Pierwsze zdjęcie po lewej: Stable Diffusion, środkowe: DALL·E 2, zdjęcie po prawej: eDiff. Pobrano ze strony projektu.

Długie monity – Długie opisy to duży problem dla DALL-E2 czy Stable Diffusion. Nie są one wstanie użyć wszystkich atrybutów użytych w długim opisie natomiast wg. twórców eDiff-I radzi sobie z tym problemem dużo lepiej.

Ilość obiektów – Kto próbowała tworzyć monity i generować obrazy wie, że często generatory mają problem z prawidłową ilością obiektów które zawarte zostały w opisie. Wymieniasz 2 osoby w monicie a np. otrzymujesz 3 itd. Model od Nvidia uporał się podobno z tym problemem.

Nowy model ma też kilka innych ciekawych nowych funkcji których nie znajdziesz w konkurencyjnych modelach.

O modelu tak mówią jego twórcy:

„Mamy nadzieję, że eDiff-I może służyć jako potężne narzędzie dla artystów cyfrowych do tworzenia treści i swobodnego wyrażania swojej kreatywności. Nowoczesne modele dyfuzji tekstu na obraz, takie jak nasz, mogą zdemokratyzować ekspresję artystyczną, oferując użytkownikowi możliwość tworzenia szczegółowych i wysokiej jakości obrazów bez konieczności posiadania specjalistycznych umiejętności. Wyobrażamy sobie, że eDiff-I może przynieść korzyści projektantom, fotografom i twórcom treści.„

Mamy nadzieję, że niebawem model zostanie udostępniony publicznie.

Strona projektu: https://arxiv.org/pdf/2211.01324.pdf