Nowy projekt Microsoftu ma być mądrzejszy niż ChatGPT. Poznajcie Kosmos-1

Microsoft pracuje nad Kosmos-1 — nowym multimodalnym modelem językowym, który ma być dużo bardziej zaawansowany od GPT-3, czyli technologii stojącej za ChatGPT.

Microsoft inwestuje w sztuczną inteligencję — jak się okazuje, nie tylko pieniędzy

Chociaż gigant z Redmond inwestuje miliardy w OpenAI, firmę odpowiedzialną za ostatnie prawdziwe hity w dziedzinie sztucznej inteligencji, czyli DALL-E czy ChatGPT, to firma nie zamierza siedzieć z założonymi rękoma i sama prowadzi badania dotyczące SI. Jak widać, całość przynosi naprawdę niezłe skutki.

To cię zainteresuje Nowy Bing teraz także na smartfonach. Inteligentna wyszukiwarka z ChatGPT Obrazki wygenerowane przez Midjourney nie podlegają prawom autorskim

Reklama

Źródło: Depositphotos

Kosmos-1, bo tak właśnie nazywa się nowy multimodalny model językowy, ma być dużo bardziej zaawansowany od GPT-3. Jeśli uważaliście więc, że ChatGPT jest zaskakująco inteligentny… cóż, muszę Was „rozczarować”. To dopiero początek — a czy to jest bardziej ekscytująca, czy przerażająca wiadomość, to już musicie ocenić sami.

Kosmos-1 ma być krokiem milowym w całej układance SI. Czym różni się od GPT-3?

Według wczesnych informacji zaprezentowany w tym tygodniu przez Microsoft Kosmos-1 może analizować obrazy pod kątem zawartości, rozwiązywać wizualne łamigłówki, rozpoznawać tekst z obrazów, przechodzić wizualne testy IQ i rozumieć instrukcje języka naturalnego. Jest to więc ogromne usprawnienie względem GPT-3, które sprawi, że SI będzie dużo bardziej zaradna w wielu kwestiach i po prostu… inteligentna. Ma to także wpłynąć na proces komunikacji użytkowników ze sztuczną inteligencją.

Źródło: Microsoft

Naukowcy uważają również, że multimodalna sztuczna inteligencja, która integruje różne tryby wprowadzania danych, takie jak tekst, dźwięk, obraz i wideo, jest kluczowym krokiem do zbudowania sztucznej inteligencji ogólnej (AGI) — a ta może wykonywać ogólne zadania, zrównując się nawet z działaniem człowieka.

Czytaj dalej poniżej

Zapytałem GPT o fakty na mój temat. Niezły z niego kłamca Patryk Koncewicz

Sztuczna inteligencja ratunkiem dla metaverse? Tonący brzytwy się chwyta Kacper Cembrowski

Kosmos-1 jest w stanie interpretować… niemal wszystko. Jeśli projekt okaże się finalnie tak zaawansowany, jak w tej chwili jest postrzegany, to naprawdę możemy martwić się o swoje posady — sztuczna inteligencja będzie mogła poradzić sobie z każdym zadaniem i na papierze będzie dużo bardziej efektywna i niezawodna, niż jakikolwiek człowiek.

Źródło: Microsoft

Kosmos-1 to zależnie od perspektywy powód do ekscytacji i do zmartwień

Warto zaznaczyć, że nie są to puste słowa bez pokrycia. Oddział Microsoftu pracujący nad tym modelem językowym zaprezentowała przykłady działania Kosmos-1, które pokazują, jak model analizuje obrazy i odpowiada na pytania dotyczące tego, co się na nich znajduje, czyta tekst z obrazka, generuje podpisy do obrazów i przeprowadza wizualny test IQ z dokładnością od 22 do 26 procent.

Źródło: Microsoft

Do tej pory największe nadzieje w stworzeniu AGI upatrywało się w LLM (dużych modelach językowych), jednak teraz coraz więcej ekspertów docenia rdzeń Kosmos-1, czyli MLLM (multimodalny duży model językowy). Projekt Microsoftu może być tutaj więc przełomowy, gdyż AGI jest celem OpenAI… chociaż jak się okazuje, „partner od SI” Microsoftu w nie miał niczego wspólnego z Kosmos-1.

LLM a MLLM — czym to się różni?

LLM to właśnie GPT-3, czyli model, który działa wyłącznie tekstowo. ChatGPT jest w stanie przejrzeć internet w poszukiwaniu informacji, odczytać polecenie tekstowe napisane przez użytkownika i tym podobne. MLLM różni się tym, że obsługuje dużo więcej formatów. Na ten moment dokładne działanie całego modelu pozostaje delikatną enigmą, jednak z artykułu Microsoftu możemy się dowiedzieć — mówiąc prosto — że aby Kosmos-1 odczytywał obraz, badacze muszą najpierw przetłumaczyć obraz na specjalną serię „tokenów”, które właściwie są tekstem, który LLM może zrozumieć. Wszystko więc sprowadza się do tego samego, lecz kluczem jest zamiana innego sposobu przekazywania informacji na tekst zrozumiały dla SI.

Reklama

Źródło: Depositphotos

Kosmos-1 na razie dopiero raczkuje, lecz wynik 26 procent w teście Ravena jest imponujący na tak wczesnym etapie — i chociaż nie jest to najlepsza precyzja, to test, tak czy siak, został zaliczony. Microsoft planuje udostępnić wkrótce swój projekt w serwisie GitHub.

Źródło

Reklama

Stock Image from Depositphotos

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu

Reklama