Wideo Google z Gemini to wielka ustawka . Tak to zrobili

Google pokazało imponujące możliwości Gemini. Szkoda, że tak naprawdę ich AI tego nie potrafi.

Google stara się wysforować na czoło rewolucji AI. Jednak w tym wyścigu giganta bije zdecydowanie popularniejszy ChatGPT, zintegrowany m.in. z BingAI, oraz generatory obrazów, jak Stable Diffusion, DALL-E czy Midjourney. Google w tym wypadku nieco spóźniło się na imprezę i próbowało gonić, prezentując swojego Barda.

To cię zainteresuje Straciłeś pliki w Google Drive? Oto, jak je odzyskać Aktualizujcie Pixele, Google dodał w grudniu masę fajnych funkcji

Reklama

Polecamy na Geekweek: Skradziono dane Polaków. W urzędach ogromne kolejki

Niestety, ta premiera okazała się pierwszym gwoździem do trumny, pokazując, że AI Google jest mocno w tyle, myląc się nawet w podstawowych kwestiach (zobacz: Google Bard myli się we własnej reklamie. Ta kompromitacja kosztowała firmę ponad 120 miliardów). Firma jednak nie chce się poddać i teraz prezentuje nową sztuczną inteligencję nazwaną Gemini. Ma ona łączyć w sobie wszystkie dotychczasowe "moduły", potrafiąc w czasie rzeczywistym nie tylko generować treść, ale też np. rozpoznawać to, co jest na zdjęciu czy filmie.

Firma pochwaliła się możliwościami Gemini w specjalnym klipie:

Czytaj dalej poniżej

Masz Androida? Otrzymasz opcję rodem z iPhone'a! Daniel Wójcik

Mapom Google nie warto ufać. Może się to skończyć dużym mandatem Kamil Pieczonka

Demo wydaje się być imponujące, jednak wszystko zmienia się w momencie, w którym uświadomimy sobie, że to, co widzimy, tak naprawdę nie jest realnymi odpowiedziami Gemini na to co widzi.

Google ustawiło demo. Gemini tego nie potrafi

Niestety - to, co widzimy na prezentacji Google nigdy nie miało miejsca. Jak Google przyznało w rozmowie z Bloombergiem, wideo nie tylko jest przyspieszone, żeby dać wrażenie błyskawicznych odpowiedzi, ale też - sama konwersacja nigdy nie miała miejsca. Gemini nie patrzyło na materiał wideo, a komendy nie były wydawane za pomocą głosu. Zamiast tego Google użyło pojedynczych klatek z materiału wideo, a zapytania były wprowadzane w formie tekstowej. Wideo pokazuje, że AI potrafi odgadywać kształty i obiekty w czasie rzeczywistym, podczas gdy nie jest to funkcją. Jak nazwać taki materiał?

Google naturalnie nie poczuwa się, by w wideo było cokolwiek nie tak. Ich argumentacji materiał pokazuje, jak integracja użytkownika z Gemini "mogłaby" wyglądać, co ma "zainspirować" deweloperów, prawdopodobnie do pracy z tym narzędziem. Jednak chociażby komentujący na Twitterze (jak i zapewne duża część widzów) uważa inaczej, co zostało od razu wytknięte.

Google prawdopodobnie albo chciało uniknąć blamażu, albo też - chciało pokazać, że ich program potrafi więcej niż w rzeczywistości. W końcu głupio wyszłoby gdyby przy zapowiedziach "najbardziej przełomowego AI" demo technologiczne zawierało po prostu prompty i pojedyncze zdjęcia.

Reklama

Niestety - wystarczy spojrzeć na komentarze pod materiałem "Hands on with Gemini" by zobaczyć, że 1,6 mln osób, które obejrzało ten film dało się nabrać na tę mistyfikację, nazywając nowe AI frazesami typu "mind-blowing", "incredible" czy "incredibly impressive". Jestem bardzo ciekawy, czy Google po prostu chciało jak najszybciej pochwalić się nowym produktem, nie dając twórcom czasu na doszlifowanie kodu (albo uczenie AI), albo też - nigdy nie będzie ona miała takich możliwości jak na filmie i Google bardzo dobrze o tym wie.

Reklama

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu

Reklama