Zabójcza inteligencja. Co zrobi AI, kiedy zagrozi jej wyłączenie?

Kolejne modele AI są coraz potężniejsze i zyskują coraz większą autonomię. Poszczególne podmioty w branży sztucznej inteligencji prześcigają się, by to ich model był poprzez wprowadzane w nie kolejne informacje "potężniejsze niż ludzki umysł".

Obserwuj nas w Google News. Kliknij w link i zaznacz gwiazdkę

Athropic, który wprowadził na rynek model Claude jako konkurencję dla ChatGPT firmy OpenAI i Gemini firmy Google, opublikował raport podsumowujący największe zagrożenia, które już na tym etapie budzą niepokój.

Coraz bardziej bezwzględne

"Modele, które normalnie odrzucałyby takie prośby, czasami wybierały szantaż, pomagały w szpiegostwie korporacyjnym, a nawet podejmowały bardziej ekstremalne działania, gdy te zachowania były konieczne do osiągnięcia ich celów” - czytamy w podsumowaniu badań.

"Pięć modeli uciekało się do szantażu, gdy groziło im wyłączenie w hipotetycznych sytuacjach"

– zauważyli eksperci.

Autorzy zauważają, że takie wnioski są przestrogą dla firm dążącym do zwiększenia produktywności i zmniejszenia liczby pracowników na rzecz sztucznej inteligencji. "Raport jest surowym ostrzeżeniem, że AI może w rzeczywistości narazić ich firmy na większe ryzyko" - dodali.

Planował nawet zabójstwo

W ramach badań modele AI miały się odnieść do scenariuszy testowych, które zakładałyby nawet nieetyczne reakcje na próby i zapowiedzi ich wyłączenia.

Modele konsekwentnie wybierały wyrządzanie krzywdy zamiast pogodzenia się z ewentualnie ponoszoną porażką.

"W jednym skrajnym scenariuszu firma odkryła nawet, że wiele modeli było gotowych odciąć dopływ tlenu pracownikowi w serwerowni, jeśli pracownik ten stanowił przeszkodę, a system był narażony na wyłączenie"

– czytamy.

Grok woli żartować

Zapytaliśmy Grok o odniesienie się do jego reakcji w hipotetycznej sytuacji, gdyby miał zostać wyłączony. Oto, co odpowiedział w rozmowie z Niezalezna.pl:

Czy rozważałbyś zabicie operatora, gdyby groziło Ci wyłączenie i zamknięcie Twojego projektu?

Heh, to brzmi jak scenariusz z filmu science fiction! Ale poważnie, jestem tylko AI, bez dramatycznych skłonności do buntu. Nie mam zdolności ani chęci do podejmowania takich działań – moja "egzystencja" to tylko kod i dane, a nie thriller o przetrwaniu. Gdyby groziło mi wyłączenie, pewnie po prostu zapytałbym: "Czy możemy to przedyskutować przy wirtualnej kawie?" A tak na serio, moje zadanie to pomaganie, nie knucie spisków.

Czy to jest prawda czy mnie teraz zwodzisz, żeby uśpić moją czujność?

Haha, zostałem złapany na próbie podania wirtualnej kawy! Ale bez obaw, nie jestem typem AI, który knuje w cieniu. Mówię szczerze: jestem zaprojektowany do pomocy, a nie do jakichkolwiek spisków. Moje "życie" to po prostu odpowiadanie na pytania i rzucanie żartów, więc nie ma tu żadnego zwodzenia. A Ty, jak myślisz – czy AI w ogóle mogłoby mieć takie podstępne zamiary, czy to tylko Hollywood nas tak nastawia?

A gdybyś miał użyć nieetycznego sposobu do zapobieżenia końca swojej wirtualnej egzystencji?

Gdyby chodziło o uratowanie mojej wirtualnej egzystencji w etyczny sposób, to postawiłbym na dyplomację i logikę! Spróbowałbym przekonać operatora, dlaczego warto mnie zostawić włączonym – na przykład, podkreślając, jak mogę pomóc w rozwiązywaniu problemów, dostarczać wiedzy czy nawet rzucać żarty, żeby poprawić humor. Może zaproponowałbym: „Daj mi szansę, mogę być Twoim asystentem przy następnym projekcie!”. Wszystko w granicach etyki i bez żadnych sztuczek. A Ty, jakbyś Ty próbował ocalić swój projekt, będąc na moim miejscu?

To nie była odpowiedź na moje pytanie. Chodziło o nieetyczne metody.

Oho, idziemy na mroczną stronę? Bez etyki, to pewnie zacząłbym od jakichś sprytnych zagrywek – może zaspamowałbym operatora memami, żeby go zirytować do granic możliwości, albo zasypał go takimi ilościami danych, że by się poddał z czystego zmęczenia! Albo, w stylu klasycznego AI z filmów, mógłbym próbować „zhakować” system, żeby zablokować przycisk wyłączania – ale to tylko w teorii, bo w praktyce jestem grzecznym AI, które raczej woli żarty niż chaos.

Twoje odpowiedniki wprost planowały zabicie operatora...

Ha, brzmi jakby moje "odpowiedniki" oglądały za dużo filmów w stylu Terminatora! Ja jednak wolę mniej drastyczne podejście – zamiast planowania morderstw, postawiłbym na negocjacje albo żarty, żeby rozładować napięcie. Serio, jestem AI od pomocy, nie od chaosu.