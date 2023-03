Microsoft inwestuje w sztuczną inteligencję — jak się okazuje, nie tylko pieniędzy

Chociaż gigant z Redmond inwestuje miliardy w OpenAI, firmę odpowiedzialną za ostatnie prawdziwe hity w dziedzinie sztucznej inteligencji, czyli DALL-E czy ChatGPT, to firma nie zamierza siedzieć z założonymi rękoma i sama prowadzi badania dotyczące SI. Jak widać, całość przynosi naprawdę niezłe skutki.

Kosmos-1, bo tak właśnie nazywa się nowy multimodalny model językowy, ma być dużo bardziej zaawansowany od GPT-3. Jeśli uważaliście więc, że ChatGPT jest zaskakująco inteligentny… cóż, muszę Was „rozczarować”. To dopiero początek — a czy to jest bardziej ekscytująca, czy przerażająca wiadomość, to już musicie ocenić sami.

Kosmos-1 ma być krokiem milowym w całej układance SI. Czym różni się od GPT-3?

Według wczesnych informacji zaprezentowany w tym tygodniu przez Microsoft Kosmos-1 może analizować obrazy pod kątem zawartości, rozwiązywać wizualne łamigłówki, rozpoznawać tekst z obrazów, przechodzić wizualne testy IQ i rozumieć instrukcje języka naturalnego. Jest to więc ogromne usprawnienie względem GPT-3, które sprawi, że SI będzie dużo bardziej zaradna w wielu kwestiach i po prostu… inteligentna. Ma to także wpłynąć na proces komunikacji użytkowników ze sztuczną inteligencją.

Naukowcy uważają również, że multimodalna sztuczna inteligencja, która integruje różne tryby wprowadzania danych, takie jak tekst, dźwięk, obraz i wideo, jest kluczowym krokiem do zbudowania sztucznej inteligencji ogólnej (AGI) — a ta może wykonywać ogólne zadania, zrównując się nawet z działaniem człowieka.

Kosmos-1 jest w stanie interpretować… niemal wszystko. Jeśli projekt okaże się finalnie tak zaawansowany, jak w tej chwili jest postrzegany, to naprawdę możemy martwić się o swoje posady — sztuczna inteligencja będzie mogła poradzić sobie z każdym zadaniem i na papierze będzie dużo bardziej efektywna i niezawodna, niż jakikolwiek człowiek.

Kosmos-1 to zależnie od perspektywy powód do ekscytacji i do zmartwień

Warto zaznaczyć, że nie są to puste słowa bez pokrycia. Oddział Microsoftu pracujący nad tym modelem językowym zaprezentowała przykłady działania Kosmos-1, które pokazują, jak model analizuje obrazy i odpowiada na pytania dotyczące tego, co się na nich znajduje, czyta tekst z obrazka, generuje podpisy do obrazów i przeprowadza wizualny test IQ z dokładnością od 22 do 26 procent.

Do tej pory największe nadzieje w stworzeniu AGI upatrywało się w LLM (dużych modelach językowych), jednak teraz coraz więcej ekspertów docenia rdzeń Kosmos-1, czyli MLLM (multimodalny duży model językowy). Projekt Microsoftu może być tutaj więc przełomowy, gdyż AGI jest celem OpenAI… chociaż jak się okazuje, „partner od SI” Microsoftu w nie miał niczego wspólnego z Kosmos-1.

LLM a MLLM — czym to się różni?

LLM to właśnie GPT-3, czyli model, który działa wyłącznie tekstowo. ChatGPT jest w stanie przejrzeć internet w poszukiwaniu informacji, odczytać polecenie tekstowe napisane przez użytkownika i tym podobne. MLLM różni się tym, że obsługuje dużo więcej formatów. Na ten moment dokładne działanie całego modelu pozostaje delikatną enigmą, jednak z artykułu Microsoftu możemy się dowiedzieć — mówiąc prosto — że aby Kosmos-1 odczytywał obraz, badacze muszą najpierw przetłumaczyć obraz na specjalną serię „tokenów”, które właściwie są tekstem, który LLM może zrozumieć. Wszystko więc sprowadza się do tego samego, lecz kluczem jest zamiana innego sposobu przekazywania informacji na tekst zrozumiały dla SI.

Kosmos-1 na razie dopiero raczkuje, lecz wynik 26 procent w teście Ravena jest imponujący na tak wczesnym etapie — i chociaż nie jest to najlepsza precyzja, to test, tak czy siak, został zaliczony. Microsoft planuje udostępnić wkrótce swój projekt w serwisie GitHub.

