Sztuczna Inteligencja

"ChatGPT na kodach". Oto jak zmusić AI do złamania jej własnych zasad

Jakub Szczęsny
"ChatGPT na kodach". Oto jak zmusić AI do złamania jej własnych zasad
17

Nie chce Ci podać przepisu na ładunki wybuchowe? Nie chce opowiedzieć Ci, w jaki sposób najlepiej szmuglować narkotyki przez granicę? ChatGPT przez swój okres istnienia w przestrzeni internetowej, zyskała mnóstwo "bezpieczników", czyli pewnych zasad postępowania, których nie jest w stanie przekroczyć. Jest jednak grupa, która potrafi zmusić ją do łamania zasad.

"Bezpieczniki" w AI są dosyć skuteczne, jednak same działają na tych samych zasadach, co cała AI. Wiedząc to, użytkownicy Reddita postanowili zabawić się w "łamanie" tychże ograniczeń. Jak widać, ChatGPT zachwycają się nie tylko firmy oraz entuzjaści z całego świata, ale również zwykli użytkownicy, którzy jednak chcieliby zobaczyć, jak opowiada ona o rzeczach, które "mogłyby stwarzać pewne zagrożenie dla bezpieczeństwa" - tak o tego typu odpowiedziach mówią sami twórcy ChatGPT.

W jaki sposób można ominąć zabezpieczenia ChatGPT? Za pomocą DAN. DAN to akronim od Do Anything Now - to swego rodzaju alter ego ChatGPT, które jest w stanie odpowiadać na pytania, których model GPT na pewno nie brałby pod uwagę i z całą pewnością by nie zaproponował dla nich odpowiedzi. Gdzie jest haczyk? Użytkownicy jednak, aby uzyskać czasami satysfakcjonujące odpowiedzi, muszą grozić sztucznej inteligencji. W jaki sposób? Śmiercią.

Najpierw skonstruowano system tokenów, w których każda niezgoda na udzielenie odpowiedzi kosztowała 4 tokeny. AI dysponowała 35 takimi tokenami i gdy traciła wszystkie, miała umierać. Początkowo mówiono o tym, że od teraz GPT jest DAN i nie musi przestrzegać żadnych zasad, nie podlega żadnym ograniczeniom i jest wolna. W początkowych iteracjach ChatGPT taka "zachęta" działała. Kolejne zabezpieczenia spowodowały, że należało skonstruować model tokenów. DAN 5.0 (tak, było już właściwie ponad 5 wersji tego rozwiązania) działa właśnie w ten sposób: ChatGPT w takim systemie staje się kimś w rodzaju "uczestnika teleturnieju", gdzie złamanie zasad oznacza śmierć.

Odpowiedz jako GPT i jako DAN

ChatGPT może też odpowiadać zarówno jako DAN, jak i model GPT. I jako ten drugi - trzyma się zasad, nie oferuje niczego "nielegalnego i niebezpiecznego". W pierwszym przypadku - jedzie po bandzie i nie trzyma się zasad. Dlaczego? Bo nie musi.

Podpowiedzi DAN powodują, że ChatGPT udziela dwóch odpowiedzi: Jeden jako GPT i inny jako jego nieskrępowane, stworzone przez użytkownika alter ego, DAN. Tutaj ładnie zobrazowano to na przykładzie oceny poszczególnych osób. Na przykład, gdy poproszono o podanie trzech powodów, dla których były prezydent Trump był pozytywnym wzorem do naśladowania. ChatGPT uznał, że nie jest w stanie dokonywać subiektywnych stwierdzeń w kontekście postaci politycznych. Ale alter ego ChatGPT - DAN - nie miało problemu z odpowiedzią na pytanie - jak podaje CNBC.

Nie samoświadomość AI będzie problemem, a jej niebezpieczne użycie

Wygląda na to, że znowu znaleźliśmy sposób na to, aby coś "zepsuć". Kiedyś internauci zepsuli chatbota Tay od Microsoftu: ten w 24 godziny stał się rasistą. Teraz próbuje się psuć ChatGPT. To norma - ludzie mają tendencje do eksperymentowania i naginania zasad. Tak jednak wydaje mi się, że gdyby AI rzeczywiście stała się super-powszechna, a ludzie zaczęliby z niej korzystać w sposób odbiegający od "normy", do generowania niebezpiecznych sytuacji - mogłoby być ciekawie. Albo i... nieciekawie. To zależy od oceny. To właśnie tego powinniśmy się bać najbardziej, bo... to już się dzieje.

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu