DALL·E 2 – nowy generator obrazów od Nvidia
eDiff-I to zupełnie nowy model dyfuzji tekstu na obraz od Nvidia. Po generatorach obrazu Ai OpenAI, MidJourney i Stability AI również Nvidia zademonstrowała swój generator wg. niej lepszy od modeli pozostałych firm. Twórcy eDiff-I przedstawiają sporą listę w czym ich generator jest lepszy od takich modeli jak Stable Diffusion czy Dall-E2. Poniżej najważniejsze cechy wyróżniające go od pozostałych generatorów.
Teksty – jednym z problemów z którym nie radzą sobie dobrze generatory to umieszczanie tekstów na obrazie. eDiff-I ma wykonywać to znacznie lepiej od pozostałych modeli
Długie monity – Długie opisy to duży problem dla DALL-E2 czy Stable Diffusion. Nie są one wstanie użyć wszystkich atrybutów użytych w długim opisie natomiast wg. twórców eDiff-I radzi sobie z tym problemem dużo lepiej.
Ilość obiektów – Kto próbowała tworzyć monity i generować obrazy wie, że często generatory mają problem z prawidłową ilością obiektów które zawarte zostały w opisie. Wymieniasz 2 osoby w monicie a np. otrzymujesz 3 itd. Model od Nvidia uporał się podobno z tym problemem.
Nowy model ma też kilka innych ciekawych nowych funkcji których nie znajdziesz w konkurencyjnych modelach.
O modelu tak mówią jego twórcy:
„Mamy nadzieję, że eDiff-I może służyć jako potężne narzędzie dla artystów cyfrowych do tworzenia treści i swobodnego wyrażania swojej kreatywności. Nowoczesne modele dyfuzji tekstu na obraz, takie jak nasz, mogą zdemokratyzować ekspresję artystyczną, oferując użytkownikowi możliwość tworzenia szczegółowych i wysokiej jakości obrazów bez konieczności posiadania specjalistycznych umiejętności. Wyobrażamy sobie, że eDiff-I może przynieść korzyści projektantom, fotografom i twórcom treści.„
Mamy nadzieję, że niebawem model zostanie udostępniony publicznie.
Strona projektu: https://arxiv.org/pdf/2211.01324.pdf