InstructPix2Pix – model do edycji obrazu za pomocą opisu.

InstructPix2Pix – model do edycji obrazu za pomocą opisu.

Naukowcy z Uniwersytetu Kalifornijskiego opracowali nowy model o nazwie InstructPix2Pix, który pozwala na edytowanie obrazów zgodnie z instrukcjami tekstowymi podanymi przez użytkownika. To, co jest szczególnie imponujące w tym projekcie, to fakt, że jest on opracowywany przez niezależną grupę badawczą, a nie przez gigantów branży IT.

Model InstructPix2Pix został opracowany przez Tima Brooksa i jego współpracowników, w tym prof. Alexei A. Efros, który jest uznanym specjalistą w dziedzinie wizji komputerowej. Celem projektu było stworzenie algorytmu, który połączyłby instrukcję tekstową z obrazem, aby automatycznie edytować ten ostatni na podstawie pierwszego. W tym celu, naukowcy musieli stworzyć model, który potrafiłby zrozumieć zarówno tekst jak i obraz, aby wiedzieć jakie modyfikacje należy wprowadzić.

Tradycyjnie, do takiego zadania potrzebne byłyby dwa osobne modele – jeden do rozumienia języka, a drugi do rozumienia obrazów. Następnie, trzeba byłoby znaleźć sposób na dobrą komunikację i współpracę między tymi modelami. Brooksa i jego zespół postanowili jednak pójść inną drogą i zdecydowali się użyć dwóch już istniejących modeli – GPT-3 i Stable Diffusion – do generowania danych potrzebnych do trenowania nowego, bardziej szczegółowego modelu.

Model GPT-3 został użyty do generowania instrukcji i edytowania podpisów obrazów, natomiast model Stable Diffusion do generowania obrazów. Następnie, nowe napisy zostały przesłane do trzeciego modelu o nazwie monit-to-prompt, który pozwalał na edytowanie napisów w celu uzyskania bardziej naturalnego języka. Ostatecznie, ostatni model, zwany prompt-to-image, generuje obrazy na podstawie edytowanych napisów. W ten sposób, InstructPix2Pix pozwala na edycję istniejących obrazów na podstawie instrukcji napisanych przez użytkownika.

Fot ze strony projektu.

Możliwość zastosowanie tego typu modelu jest bardzo szeroka i zapewne model ten może stanowić potencjalne zagrożenie dla branży graficznej, ponieważ pozwala na automatyczne edytowanie obrazów na podstawie instrukcji tekstowych bez jakichkolwiek umiejętności graficznych. Jeśli chcecie wypróbować działanie nowego modelu AI możecie skorzystać z demo: https://huggingface.co/spaces/timbrooks/instruct-pix2pix

Zdjęcia, informacje ze strony projektu:

https://www.timothybrooks.com/instruct-pix2pix/

Dodaj komentarz

piętnaście + dziewiętnaście =