Ten tydzień zdecydowanie należy do AI. Zachwyty i niepokoje związane ze sztuczną inteligencją nieco ostatnio ucichły. Teraz wszystko wraca ze zdwojoną siłą. Wczoraj poznaliśmy szczegóły dotyczące GPT-4o, a dziś, na konferencji Google I/O 2024 zaprezentowano nowe możliwości Gemini oraz innych rozwiązań AI zintegrowanych z usługami Google. Oto wszystko, co musisz wiedzieć.
Właśnie trwa jedna z najbardziej oczekiwanych konferencji technologicznych roku — Google I/O 2024. To coroczne wydarzenie organizowane przez giganta z Mountain View, które gromadzi pasjonatów technologii, programistów, przedsiębiorców oraz entuzjastów świata "tech" z całego świata. Google I/O to nie tylko przestrzeń służąca do prezentacji najnowszych osiągnięć firmy, ale także miejsce, gdzie branża technologiczna zbiera się, by wymieniać pomysły, inspiracje i wspólnie kształtować przyszłość cyfrowego świata. Na jednej z najważniejszych prezentacji, czyli Google Keynote, która odbyła się dzisiaj poznaliśmy szczegóły związane z najnowszą wersją Gemini.
Poznajcie Gemini 1.5 Pro
Gemini to chatbot ze sztuczną inteligencją opracowany przez Google, oparty na rodzinie dużych modeli językowych (LLM). Powstał jako odpowiedź na rozwój ChatGPT od OpenAI. Ostatecznie został opublikowany w wersji wstępnej w marcu 2023 roku. Do lutego 2024 roku znaliśmy Gemini pod nazwą Bart. Teraz poznaliśmy możliwości Gemini w wersji 1.5 Pro, którą od dziś można znaleźć w Workspace Labs.
Wyszukiwanie obrazów na podstawie tego, co przedstawiają
Prezentacja Google Keynote na konferencji Google I/O 2024 rozpoczęła się od prezentacji najnowszej wersji Gemini - 1.5 Pro. Na pierwszy ogień poszły możliwości Zdjęć Google. Tradycyjnym problemem, z którym borykają się użytkownicy mający tysiące zdjęć na swoim telefonie, jest trudność w odnalezieniu konkretnego obrazu w gąszczu fotografii. Dzięki narzędziu Ask Photos możliwe jest wyszukiwanie na podstawie tego, co znajduje się na fotkach. Pozwala to m.in. na odnalezienie numeru rejestracyjnego samochodu czy sekwencji zdjęć dokumentujących postępy w nauki pływania dziecka (to przykłady z prezentacji). Sundar Pichai podkreślił również, że ponad milion osób zarejestrowało się w usłudze Gemini Advanced, opartą na modelu subskrypcji, która oferuje dostęp do zaawansowanego chatbota.
Google ujawnia, czym jest projekt Astra
Google właśnie ogłosił swoje najnowsze dzieło — Projekt Astra. Ma to być uniwersalny asystent codziennego życia i jednocześnie kluczowy element, który sprawi, że Gemini będzie modelem wielomodalnym — tak Demis Hassabis przedstawił ideę projektu. Astra ma być "uniwersalnym agentem sztucznej inteligencji, który może być naprawdę pomocny w codziennym życiu", odpowiadającym na ulepszenia ChatGPT ogłoszone wczoraj. Podczas prezentacji obejrzeliśmy demo, w którym Astra rozpoznaje osobę mówiącą przez kamerę telefonu, analizuje otoczenie biura oraz rozpoznaje kod na ekranie komputera. Wszystko to dzieje się bardzo szybko. To, co zobaczyliśmy, przypominało wideo, które mieliśmy okazję zobaczyć wczoraj podczas prezentacji GPT-4o od OpenAI. Jednakże w przeciwieństwie do tego demo, wersja Google'a nie była na żywo, co eliminowało możliwość popełnienia błędów na oczach publiczności. Projekt Astra można porównać do Google Lens na sterydach. Pracowniczka Google filmowała biuro za pomocą aparatu telefonu, zadając Gemini pytania dotyczące różnych obiektów na biurku, kodu na ekranie komputera, czy nawet pytając, gdzie położyła okulary. Agent "pamiętał", gdzie były i wskazał jej właściwe miejsce, co było dość imponujące.
Generowanie obrazu i dźwięku (Music AI oraz Imagen 3)
Kolejny segment prezentacji był przeznaczony generowaniu obrazu i dźwięku. Do gry wchodzą dwa nowe narzędzia: Imagen 3 oraz Music AI. Imagen 3 zapewni bardziej fotorealistyczne i szczegółowe obrazy. Jak pokazano, "możemy nawet policzyć wąsy na pysku wilka". Dodatkowo Imagen 3 będzie rozumiał polecenia pisane "ludzkim" językiem. Rejestracja do Imagen 3 rozpoczyna się już dzisiaj w ImageFX, a wkrótce będzie dostępna dla programistów i klientów biznesowych.
Kolejnym krokiem w rewolucji AI jest generatywna muzyka. W ramach współpracy z YouTube stworzono Music AI Sandbox. Narzędzie zostało opracowane we współpracy z kompozytorami, muzykami i producentami. Mam wrażenie, że twórcy sami kręcą na siebie bat, ale czas pokaże.
Na ekranie mogliśmy oglądać Marca Rebilleta i Wyclefa Jeana, którzy eksperymentowali z narzędziami muzycznymi opartymi na sztucznej inteligencji Google.
Veo, czyli wideo generowane przez AI
Kolejnym zaprezentowanym narzędziem jest Veo. Znajdziemy je w VideoFX. Narzędzie służy do tworzenia wideo za pomocą sztucznej inteligencji. Będzie generować filmy w jakości 1080p na podstawie tekstowych sugestii w różnych stylach filmowych, które można edytować poprzez prompt. O Veo opowiedział Donald Glover (znany również jako Childish Gambino). Google zdecydowanie stawia na współpracę z wielkimi twórcami, aby wzmocnić wiarygodność narzędzi generatywnych opartych na sztucznej inteligencji.
Veo to odpowiedź Google'a na Sora od OpenAI. Glover zauważa:
"Możesz popełniać błędy szybciej" (...) Każdy stanie się reżyserem. I każdy powinien być reżyserem".
Jakość filmów generowanych przez Veo, które można było zobaczyć na prezentacji robi wrażenie. Krótkie klipy wydawały się być bardziej realistycznie niż to, co oferuje Sora. Pytanie ile trzeba będzie za to zapłacić...
Sztuczna inteligencja w wyszukiwarce Google
Oczywiście nie mogło zabraknąć nowości związanych z samym procesem wyszukiwania treści w Google ze wsparciem sztucznej inteligencji. Liz Reid, nowa szefowa wszystkich produktów związanych z wyszukiwaniem, przedstawiła planowanie wieloetapowe, w którym sztuczna inteligencja pomaga użytkownikom zarezerwować zajęcia jogi, zaplanować posiłki na kilka dni czy też wybrać się w podróż. To kolejny krok w kierunku większej autonomii, jaki Google chce zapewnić użytkownikom. W ramach tych zmian wyszukiwarka będzie generować przeglądy i sugestie, prezentując wyniki w blokach wizualnych, zamiast tradycyjnych niebieskich linków. Jest to również istotna zmiana w sposobie, w jaki wyszukiwarka Google ocenia jakość doświadczenia użytkownika, wdrażając narzędzia oparte na sztucznej inteligencji do generowania wyników.
Gemini zrewolucjonizuje Gmail?
Aparna Pappu pojawiła się na scenie, aby omówić Gemini dla Google Workspace. Dowiedzieliśmy się o nowym elemencie interfejsu. Panel boczny w Google Workspace będzie ogólnodostępny już w przyszłym miesiącu. Mamy też dobrą wiadomość dla osób korzystających z Google Meet — platforma rozszerza się na 68 języków. Mamy też nowe funkcje w Gmailu. Przycisk podsumowania pozwoli ominąć czytanie długich wiadomości. Nowością ma być również funkcja Q&A, która umożliwia szybkie uzyskiwanie odpowiedzi na pytania ze skrzynki odbiorczej. Pomysł polega na uproszczeniu przeszukiwania "inboxu". Gemini zasugeruje nam również odpowiedzi. Będą one kontekstowe, oparte na wątkach, które już prowadziliśmy.
Wirtualny kolega z pracy, czyli AI Teammate
Tym, co wydaje się być najciekawszym elementem AI związanym z Google Workspace jest AI Teammate.
"Prototypujemy wirtualnego współpracownika zasilanego przez Gemini" - usłyszeliśmy ze sceny.
Asystent posiada własne konto Google z wybranym przez nas imieniem. Ten, którego nam zaprezentowano nazywa się "Chip". Ma opis (instrukcje), które mu podajesz. Chip znajduje się w Google Chat razem z kolegami z zespołu i wkracza do akcji, gdy tylko potrzebujesz pomocy, związanej z prowadzonym projektem. Wirtualny asystent śledzi korespondencję oraz dokumenty i ma wiedzieć więcej, niż ktokolwiek inny w zespole o aktualnym statusie działań. AI Teammate nie pojawi się jednak w Google Workspace przed przyszłym rokiem.
Dzięki AI smartfony będą bardziej smart
To nie moje słowa, tylko fragment przemówienia dotyczącego AI w smartfonach i trochę trudno mi uwierzyć, że marketerzy Google nadal wykorzystują ten wyświechtany slogan. Przejdźmy jednak do sedna. Google zaprezentowało w jaki sposób Gemini wspiera korzystanie ze smartfonów z Androidem.
Gemini na Androidzie ma być jeszcze bardziej wielomodalne i kontekstowe, oferując użytkownikom bardziej spersonalizowane doświadczenia. AI dostaje nowe możliwości, włączając w to analizę treści wideo i dokumentów PDF, co pozwala na szybsze uzyskanie odpowiedzi na pytania. Podczas prezentacji faktycznie mogliśmy zobaczyć, jak AI analizuje dla nas długą instrukcję lub materiał na YouTube. Na Androidzie pojawi się również Circle to Search, nowa funkcja wyszukiwania opartą na AI, oraz Gemini Nano model AI, który ma zadebiutować na smartfonach Google Pixel już niedługo.
AI ma ochronić nas przed oszustami
Gemini Nano pomoże również łatwiej zorientować się, kiedy ktoś próbuje oszukać nas podczas rozmowy telefonicznej. Na ekranie wyświetli się wówczas alert "Wykryto oszustwo". Oznacza to, że Gemini słucha całej rozmowy, ale Google zapewnia, że wszystko odbywa się na urządzeniu, co oznacza, że nasza prywatność pozostaje nienaruszona. Ta innowacyjna funkcja może być kluczowym narzędziem w walce z oszustwami telefonicznymi, które w ostatnich latach bardzo się nasilają.
To by było na tyle, jeśli chodzi o kluczowe informacje zaprezentowane na jednej z najważniejszych prezentacji, które odbyły się na konferencję Google I/O 2024. Jutro, gdy emocje już opadną, na pewno przyjrzymy się z bliska każdej omówionej innowacji i funkcji.
PS. Jeśli wierzyć obliczeniom Gemini, słowo "AI" padło 121 razy podczas całej prezentacji... ;)
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu