Midjourney to zaawansowany model sztucznej inteligencji (AI), który specjalizuje się w generowaniu obrazów na podstawie opisów tekstowych, czyli tzw. "promptów". Wyróżnia się przede wszystkim charakterystycznym, często bardzo artystycznym i estetycznym stylem generowanych grafik, które często mają malarski lub surrealistyczny charakter. W porównaniu do niektórych innych modeli, Midjourney często jest chwalone za spójność wizualną i unikalną interpretację promptów. W ostatnich miesiącach Midjourney zasłynęło głównie za sprawą kilku viralowych obrazów, jak na przykład szeroko komentowane zdjęcie papieża Franciszka w modnej, białej kurtce puchowej czy rzekome zdjęcia z aresztowania Donalda Trumpa. Teraz opublikowali najnowszą wersję swojego modelu - V7-alpha, która oferuje kilka unikalnych możliwości.

Reklama

Midjourney v7 lepiej radzi sobie z palcami

Podstawową obietnicą V7 jest zauważalny wzrost jakości generowanych obrazów. Twórcy podkreślają, że model znacznie lepiej radzi sobie z interpretacją promptów tekstowych, a także daje świetne rezultaty przy użyciu obrazów jako wskazówek (tzw. image prompt). Użytkownicy mogą spodziewać się grafik o wyższej rozdzielczości, z pięknymi, dopracowanymi teksturami. Co istotne, V7 ma również znacznie lepiej radzić sobie ze spójnością detali – generowane postacie, dłonie czy różnorodne obiekty mają wyglądać bardziej naturalnie. Kolejną ważną nowością jest wprowadzenie personalizacji modelu, która jest domyślnie włączona (po jednorazowym, trwającym około 5 minut odblokowaniu). Ta funkcja ma na celu podniesienie poprzeczki w interpretowaniu tego, czego oczekuje użytkownik i co uważa za estetycznie trafione.

Tryb draft to mała rewolucja

Jedną z flagowych funkcji V7 jest bez wątpienia tryb "draft". Generuje on obrazy aż 10 razy szybciej niż standardowo, a przy tym kosztuje o połowę mniej tokenów (co oznacza 1/4 kosztu trybu Turbo). Ta zawrotna prędkość umożliwiła twórcom wprowadzenie na platformie webowej specjalnego "trybu konwersacyjnego". Możemy teraz "rozmawiać" z Midjourney, prosząc o zmiany w locie – na przykład "zamień kota na sowę" albo "zmień porę dnia na noc" – a model automatycznie zmodyfikuje prompt i rozpocznie nowe zadanie. Idąc krok dalej, po włączeniu trybu draft i kliknięciu ikony mikrofonu, aktywujemy "tryb głosowy", który pozwala dosłownie "myśleć na głos", podczas gdy obrazy generują się niemal w czasie rzeczywistym.

Twórcy uważają, ze to najlepszy dotychczas sposób na iteracyjne rozwijanie pomysłów. Co ważne, choć obrazy w tym trybie mają niższą jakość, ich estetyka i zachowanie są bardzo spójne ze standardowym trybem V7. Dzięki temu jest to wierny sposób na eksplorację, a każdy obiecujący szkic można łatwo "ulepszyć" lub "zróżnicować", aby uzyskać pełną jakość. Midjourney V7 debiutuje w dwóch trybach prędkości: turbo (2x droższy od standardowego V6) oraz relax. Standardowy tryb prędkości wymaga jeszcze optymalizacji i ma zostać udostępniony wkrótce. Należy też pamiętać, że niektóre funkcje, jak upscaling, edycja czy retekstura, tymczasowo nadal korzystają z modelu V6, ale planowana jest ich aktualizacja do V7.

Modjourney zapowiada intensywny okres rozwoju – nowe funkcje mają pojawiać się co tydzień lub dwa przez najbliższe 60 dni. Największą nadchodzącą nowością ma być nowy system referencji dla postaci i obiektów w V7, co z pewnością otworzy nowe możliwości w zakresie kontroli nad generowanymi obrazami.

źródło: Midjourney