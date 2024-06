Generowanie filmów AI jest coraz lepsze — ale jeszcze nie kompletne

W ostatnim czasie mieliśmy do czynienia z kilkoma premierami nowych narzędzi służących do generowanych przez AI wideo. Na początku tego roku OpenAI zaprezentowało swoje nowe narzędzie — Sorę. Według Sama Altmana, dyrektora generalnego firmy, w którą Microsoft zainwestował prawdziwą fortunę, Sora jest w stanie generować krótkie filmy (do 1 minuty) na podstawie opisu tekstowego, uwzględniając głównego bohatera, otoczenie oraz nawet zasady fizyki. Sora pozwala na animowanie dowolnego obrazu, edytowanie istniejącego wideo oraz dodawanie nowych scen lub poszerzanie perspektywy. Na stronie prezentującej możliwości tego modelu znajduje się kilkadziesiąt filmów wygenerowanych przez sztuczną inteligencję na podstawie krótkich opisów. Wygląda to naprawdę imponująco.

Ostatnio za to informowaliśmy, że swoje narzędzie przygotowała firma Luma Labs — mowa o Dream Machine. To model sztucznej inteligencji, który szybko tworzy wysokiej jakości, realistyczne filmy z tekstu i obrazów. Jak opisują go sami twórcy: „Jest to wysoce skalowalny i wydajny model transformer, trenowany bezpośrednio na filmach, dzięki czemu jest w stanie generować fizycznie dokładne, spójne i pełne wydarzeń ujęcia. Dream Machine to nasz pierwszy krok w kierunku zbudowania uniwersalnego silnika wyobraźni i jest już dostępny dla każdego!”.

Wideo generowane przez jedno i drugie narzędzie są naprawdę niezłe, ale mają jeden, znaczny brak — to filmiki bez dźwięku. W efekcie bardziej dostajemy GIF-a, niż właściwy film. Google postanowiło pójść o krok dalej i stworzyć narzędzie, które będzie generowało kompletne filmy, łącznie z dźwiękiem.

Google DeepMind zmienia zasady wideo generowanych przez AI

Google DeepMind zaprezentowano nowe narzędzie, które jest zdolne do przetwarzania wideo na audio (V2A). Narzędzie samo automatycznie generuje ścieżki dźwiękowe czy nawet dialogi (które, według Google, mają pasować do całej stylistyki i tonu wideo) dla filmów generowanych przez sztuczną inteligencję, wykorzystując do tego kombinację pikseli oraz podpowiedzi tekstowych. Nie trzeba raczej zaznaczać, jak dużym krokiem w kierunku tworzenia w pełni zautomatyzowanych filmów jest to przedsięwzięcie.

Źródło: Google DeepMind

Do tego, V2A od DeepMind jest zdolne wygenerować nieograniczoną liczbę ścieżek dźwiękowych dla dowolnego wideo, co pozwala na uzyskanie określonego przez nas samych rezultatu za pomocą kilku prostych promptów w postaci podpowiedzi tekstowych — ale nie tylko. Gigant z Mountain View twierdzi, że narzędzie to znacznie wyróżnia się na tle konkurencyjnych technologii możliwością generowania dźwięku wyłącznie w oparciu o piksele, a dodawanie podpowiedzi tekstowych jest opcjonalne. Przykłady działania V2A możecie zobaczyć poniżej.

Google ma ograniczone zaufanie — dlatego na premierę narzędzia jeszcze chwilę zaczekamy

Google DeepMind rozumie jednak jak działa Internet i jest w pełni świadome potencjalnych nadużyć i zagrożeń związanych z możliwościami tego narzędzia. Właśnie z tego powodu V2A jest na razie projektem niedostępnym dla wszystkich:

Zanim rozważymy udostępnienie jej szerszej publiczności, nasza technologia V2A zostanie poddana rygorystycznym ocenom i testom bezpieczeństwa.

Źródło: Depositphotos

W tym miejscu warto zaznaczyć, że OpenAI również jakiś czas temu obiecało, że Sora będzie zdolna tworzyć audio do generowanych filmów. Narzędzie ma oficjalnie wystartować nieco później w tym roku — cóż, zobaczymy więc, która opcja pojawi się wcześniej oraz która okaże się lepsza. Pewny jednak jest fakt, że ta działka sztucznej inteligencji rozwija się w zaskakującym tempie i przyglądanie się temu wyścigowi będzie całkiem interesujące.

Źródło, grafika wyróżniająca: Google DeepMind