Już nie tylko grafiki. Sztuczna inteligencja potrafi zrobić krótkie wideo na podstawie tekstu.
Nie trzeba było specjalnie długo czekać. Sztuczna inteligencja zrobi już nawet wideo na zamówienie
Napisanie opowiadania, pomysły na argumenty do rozprawki, pomoc dla programistów w pisaniu kodu, wygenerowanie w chwilę obrazu na podstawie krótkiego opisu — co łączy wszystkie te rzeczy? Fakt, że od kilku miesięcy to wszystko jest w stanie zrobić za nas sztuczna inteligencja. Technologia, która jeszcze chwilę temu była dla nas całkowicie obca, dziś jest niemalże codziennością — czego dowodem była ostatnia chwilowa awaria ChatGPT, podczas której niektórzy ludzie odchodzili od zmysłów i pełni żalu bombardowali social media twierdząc, że bez narzędzia OpenAI nie są w stanie wykonywać swojego zawodu tak efektywnie.
Polecamy na Geekweek: Szokujący raport na temat TikToka. Podsuwa dzieciom treści samobójcze?
Chociaż jesteśmy na bardzo wczesnym etapie rozwoju AI, to już w tej chwili snucie teorii na temat tego, w których zawodach sztuczna inteligencja jako pierwsza wygryzie ludzi, jest (niestety) jak najbardziej uzasadnione. Teraz do tej i tak już długiej listy powoli dochodzi branża wideo, czego dowodem jest nowy projekt firmy Runway.
Opisujesz wymarzoną scenerię, a sztuczna inteligencja przygotowuje dla Ciebie krótkie wideo zgodne z wytycznymi
Runway ogłosiło w tym tygodniu, że wkrótce rozpoczną się pierwsze publiczne testy modelu wideo sztucznej inteligencji — Gen-2. Firma dumnie w swoim ogłoszeniu stwierdziła, że jest to „pierwszy publicznie dostępny model zamiany tekstu na wideo”, co nie do końca jest prawdą — wrócimy do tego. Chociaż według wielu doniesień dotyczących tego, że tacy giganci jak Google i Meta już pracują nad swoją technologią pozwalająca na zamianę tekstu w wideo, to niewielkie Runway ich wyprzedziło.
„Niewielkie” dlatego, że Runway ma w tym momencie zaledwie 45-osobowy zespół. Firma w ostatnim czasie zasłynęła ze swoich narzędzi do edycji wideo online, w tym z modelu AI Gen-1, który pozwala na tworzenie i przekształcanie istniejących filmów na podstawie informacji tekstowych lub obrazów referencyjnych. Jak tłumaczy Gizmodo, Gen-1 już jest zaskakująco potężnym narzędziem — może przekształcić prosty render pływającej figurki w płetwonurka lub zamienić mężczyznę idącego ulicą w horror wyglądający jak animacja poklatkowa, w której produkcji wykorzystano glinę do zrobienia postaci.
Gen-2 ma być jeszcze lepsze i pozwoli użytkownikom na tworzenie 3-sekundowych filmów od zera na podstawie wpisanego tekstu. Będzie działało to podobnie do doskonale znanego DALL-E od OpenAI — naszym zadaniem będzie wyłącznie opisanie tego, co chcemy zobaczyć, a sztuczna inteligencja zajmie się resztą. Firma jeszcze nie udostępniła swojego narzędzia do szerszej publiczności, lecz opublikowała kilka poglądowych projektów, które przedstawiają, jak Gen-2 zinterpretowało kilka opisów. Wstępne materiały wideo wykreowane przez AI są naprawdę imponujące. W oficjalnym tweecie firmy poniżej możecie zobaczyć efekty pracy Gen-2.
Runway mimo wszystko nie było pierwsze
Chociaż Runway radzi sobie świetnie i wyprzedziło gigantów technologicznych, to wcale nie było pierwsze. Co ciekawe, jakiś czas temu DAMO Vision Intelligence Lab, czyli dział badawczy chińskiej firmy Alibaba, stworzył podobne narzędzie, dając dostęp użytkownikom od razu. ModelScope, bo tak właśnie nazywa się to narzędzie AI, jest open sourcem i można całość znaleźć na Hugging Face. Nie jest to jednak tak dokładne jak Gen-2 od Runway, gdyż w dużej mierze chińska propozycja bazuje na stockowych zdjęciach i często wyniki są naprawdę szokujące i wręcz dzikie. Runway więc jest pierwszym narzędziem, które robi to dobrze — ale oficjalne próby podjęto już wcześniej. Jak myślicie, kiedy swoją odpowiedź na to zaprezentuje OpenAI?
Stock Image from Depositphotos
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu