Sztuczna inteligencja rozwija się szybciej niż jakakolwiek inna technologia w historii. Ludzkość potrzebowała milionów lat, by osiągnąć obecny poziom rozumowania – AI robi to natomiast w dekady, a w obecnej postaci już z miesiąca na miesiąc i... dalej przyspiesza. Ale czy naprawdę rozumie to, czego się nauczyła? Czy potrafi wyjść poza schemat i poradzić sobie z pytaniami, które zaskoczyłyby nawet ludzi? Naukowcy postanowili to sprawdzić, tworząc coś, co nazwali: "Humanity's Last Exam". Maszyny są już naprawdę blisko jego zdania.
Sztuczna inteligencja bliska zdania najtrudniejszego testu. Jak do tego doszło?

Humanity’s Last Exam to inicjatywa, która może przejść do historii jako jeden z najbardziej ambitnych projektów badawczych XXI wieku. Zainicjowany przez ekspertów z Center for AI Safety oraz Scale AI, test ten ma jeden cel: sprawdzić, czy sztuczna inteligencja potrafi zmierzyć się z najtrudniejszymi pytaniami akademickimi – takimi, których nie da się rozwiązać przez proste "przeszukanie Internetu" i zastosowanie tak pozyskanej wiedzy w praktyce.
W peletonie ścigają się m.in. ChatGPT, Gemini czy DeepSeek. Owszem, są one imponujące, ale często zapominamy, że to po prostu "bezduszne algorytmy bazujące na statystyce". HLE został zaprojektowany tak, by je na pewnym poziomie "zagiąć" – zawiera pytania otwarte, wielokrotnego wyboru i takie, gdzie liczy się po prostu kontekst. Nie chodzi o przetestowanie ich zasobów wiedzy, ale zdolność do twórczej analizy, syntezy i logicznego myślenia.
Co dokładnie bada HLE?
Zakres testu obejmuje osiem głównych dziedzin: matematykę (41%), biologię i medycynę (11%), informatykę (10%), fizykę (9%), nauki społeczne i humanistyczne (9%), chemię (6%), inżynierię (5%) oraz miks pozostałych. To coś, jak olimpiada: tyle że "ze wszystkiego" i zaprojektowana nie dla ludzi, lecz dla maszyn.
Niektóre pytania wymagają przetłumaczenia inskrypcji po łacinie, inne – znajomości szczegółów anatomicznych kolibrów. Są też takie, które sprawdzają wiedzę AI o… samej sobie. Wszystkie mają jedną cechę wspólną: ich poprawność nie zależy od formy, ale od istoty odpowiedzi. Dlatego za weryfikację odpowiedzi odpowiada... maszyna. Badacze wykorzystują do tego model GPT-40 – stworzony przez OpenAI.
Jak AI poradziła sobie dotychczas
Zaskakująco... źle. Najnowsze wersje LLM-ów wcale nie są tak potężne, jak nam się wydaje: osiągnęły wyniki od 3 do 14 procent poprawnych odpowiedzi. To wynik znacznie poniżej progu akceptowalnego dla ludzi. Co istotne, pytania nie były przypadkowe – zostały starannie wyselekcjonowane, by wykluczyć te, które LLM-y znały już z wcześniejszego treningu.
Naukowcy przewidują jednak, że do końca 2025 roku większość z testowanych modeli osiągnie przynajmniej 50% poprawności. AI potrafi w bardzo krótkim czasie zrobić gigantyczny postęp – i to nie w skali miesięcy, lecz tygodni. Z iteracji na iterację, maszyny są coraz potężniejsze i po prostu musi przyjść moment, w którym poradzą sobie one z rozwiązaniem takiej części zadań, że będziemy mogli powiedzieć: "zdane".
Niepewność, jako broń
HLE jest na tle innych metod "testowania" AI dosyć innowacyjnym testem: wszystko dzięki wprowadzeniu elementu metapoznawczego – mierzenia pewności odpowiedzi. Modele mają nie tylko udzielać odpowiedzi, ale również określać stopień własnej pewności, że odpowiedziały poprawnie. Dokładnie tak, jakbyście chcieli zapytać ucznia w szkole nie tylko o to, co wie, ale też: "jak bardzo jest pewien, że wie". Badacze chcą znać poziom samoświadomości obliczeniowej – to jeszcze nie świadomości w ludzkim sensie, ale krok w jej kierunku.
Czy AI nauczy się rozpoznawać, kiedy się myli? Być może. Ktokolwiek z Was korzystał z ChatGPT lub innego LLM-a, to pewnie zdaje sobie sprawę, że sztuczna inteligencja zazwyczaj jest w stu procentach pewna swoich odpowiedzi — nawet, jeżeli po prostu zmyśla, bo... nie wie. Zyskają na tym zdecydowanie takie dziedziny, jak: medycyna, prawo czy zarządzanie infrastrukturą krytyczną.
Czytaj również: DeepSeek – sztuczna inteligencja za darmo. Co to jest i jak z niej korzystać?
Czy AI może "zdać maturę z człowieczeństwa"?
Odpowiedź jest oczywista. AI znajduje się ku temu na bardzo dobrej drodze. Pokazuje, jak skomplikowana, wielowarstwowa i nieoczywista jest ludzka wiedza. Dla maszyn często nieuchwytne jest to, co dla nas jest zasadniczo oczywiste. Ale i – nie oszukujmy się – każda maszyna bardzo szybko się uczy. I nawet jeśli dziś nie daje sobie rady, jutro może nas solidnie wyprzedzić. Ostatecznie, przyjdzie dzień, w którym AI śpiewająco zda taki test, a nawet zacznie sama nam zadawać naprawdę trudne pytania. Co wtedy?
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu