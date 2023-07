Nie musieliśmy długo czekać, aby Meta upomniała się o swój kawałek tortu, który dzielą obecnie między sobą m.in. takie platformy DALL-E 2 oraz Midjourney. Gigant, za którym stoi Mark Zuckerberg, ogłosił właśnie przełom w dziedzinie generowania obrazów za pomocą sztucznej inteligencji. CM3leon, najnowszy model AI firmy z Mountain View ma stworzyć podwaliny pod jeszcze bardziej zaawansowane przekształcanie tekstu w zdjęcia i grafiki.

W ciągu ostatnich miesięcy generatory obrazów zasilane przez AI stały się szeroko dostępne. Na rynku pojawiła się niezliczona ilość startupów, które starają się zdobyć swoje 5 minut na bardzo dochodowym rynku generatywnej sztucznej inteligencji. Postęp w jakości obrazów tworzonych przez AI, mimo że zauważalny, jest nadal bardzo wolny. Tymczasem Meta twierdzi, że udało im się dokonać przełomu. Firma ogłosiła właśnie swój najnowszy model AI, CM3leon (wymawiane jako "chameleon"), który jak twierdzą, osiąga najlepsze na świecie wyniki w generowaniu obrazów z tekstu.

Jak informują w materiałach prasowych:

„(…) dzięki unikalnym zdolnościom CM3leon do generowania obrazów, AI może produkować bardziej spójne obrazy, które lepiej odpowiadają podanym instrukcjom. (…) niespotykana wydajność CM3leon w różnych zadaniach to krok w stronę generowania obrazów o wyższej wierności opisom, które są lepiej interpretowane.”

Generatory obrazów, takie jak DALL-E 2 od OpenAI, Imagen od Google i Stable Diffusion, wykorzystują proces, zwanym „diffusion”. Mimo imponujących efektów jest to bardzo zasobożerna technika tworzenia treści. Proces jest wolny, co czyni go niepraktycznym dla aplikacji działających w czasie rzeczywistym. W przeciwieństwie do nich CM3leon ma być modelem typu „transformer”, który wykorzystuje mechanizm zwany „attention” (uwaga/uważność) do oceny trafności danych wejściowych, takich jak tekst czy obrazy. Zgodnie z zapowiedziami Meta, CM3leon potrzebuje pięciokrotnie mniej mocy obliczeniowej i mniejszego zestawu danych treningowych niż wcześniejsze metody oparte na technice „transformer”.

źródło: TechCrunch

Do szkolenia CM3leon, Meta wykorzystało zestaw danych składający się z milionów licencjonowanych obrazów z Shutterstock. Firma ujawniła, że najbardziej zaawansowana wersja CM3leon ma ponad 7 miliardów parametrów, czyli ponad dwukrotnie więcej niż w DALL-E 2. Kolejny klucz do wydajności CM3leon to technika zwana „supervised fine-tuning” (SFT). Stosowano ją już przy szkoleniu takich ChatGPT i podobno ma się ona sprawdzić również w przypadku generowania obrazów za pomocą tekstu. Dostrajanie („fine-tuning”) pozwala CM3leon nie tylko tworzyć zdjęcia i grafiki, ale także pisać do nich opisy. To z kolei ma pomóc modelowi w edycji opartej na instrukcjach tekstowych, a także w odpowiadaniu na pytania.

"Większość generatorów obrazów boryka się ze złożonymi obiektami i tekstowymi wskazówkami, które zawierają zbyt wiele ograniczeń. Ale CM3leon nie – lub przynajmniej, nie tak często", podkreśliła Meta w swoim wpisie na blogu.

Wszystko to brzmi pięknie, ale to nie pierwszy raz, kiedy Meta zapewnia nas o rewolucyjnych funkcjach swoich narzędzi. Rzeczywistość może szybko zweryfikować ich „cudowne AI”, ale niestety… nie wiemy, jak szybko. Nie ma żadnych oficjalnych informacji o tym, kiedy Meta planuje wypuścić CM3leon. Póki co, możemy podziwiać 4 obrazki wygenerowane przez narzędzie, które udostępnił serwis TechCrunch.