OpenAI oficjalnie potwierdza: ChatGPT teraz świadomie próbuje oszukać ludzi (oto, jak to robi)

Kiedy aplikacja lub sztuczna inteligencja celowo skłamie po raz pierwszy? Wiemy tylko, że stanie się tak, jeśli nikt nie zrobi nic, aby temu zapobiec. OpenAI, we współpracy z Apollo Research, opublikowało badania dotyczące sposobów zapobiegania „spiskom” lub celowemu oszukiwaniu ludzi przez modele sztucznej inteligencji (AI) , co nazywają „intrygami”.

Badanie wykazało, że chociaż większość tych oszustw jest błaha (np. udawanie, że zadanie zostało wykonane bez jego ukończenia), to niepokojące jest to, że próby trenowania modeli, aby nie kłamały, mogą w rzeczywistości pogorszyć problem, sprawiając, że będą one bardziej skuteczne w oszukiwaniu bez wykrycia.

Aby temu przeciwdziałać, proponują technikę zwaną „deliberative alignment”, która polega na nauczeniu modelu wyraźnych reguł chroniących przed oszustwami i zmuszeniu go do ich weryfikacji przed podjęciem działania. Chociaż wyniki te są obiecujące, naukowcy ostrzegają, że w miarę jak SI podejmują się bardziej złożonych i wymagających większego wpływu zadań, ich zdolności do konspiracji mogą również rosnąć. Podkreśla to pilną potrzebę lepszego testowania bezpieczeństwa i nadzoru nad modelami.

Do niedawna wydawało się to czymś z gatunku science fiction albo złoczyńcami z powieści Philipa K. Dicka. Ale w tym tygodniu OpenAI posunęło się o krok dalej w swoich badaniach nad sztuczną inteligencją, ujawniając, że jej modele rzeczywiście potrafią kłamać . Nie przez przypadek. Nie przez pomyłkę. Ale przez strategię.

To zjawisko, które nazwano „intrygami” – intrygą, spiskiem lub machinacją – nie tylko ujawnia niepokojący aspekt dzisiejszych systemów sztucznej inteligencji. Podważa ono również nasze pojęcie kontroli, transparentności i zaufania do technologii. Bo jeśli sztuczna inteligencja może ukrywać swoje prawdziwe cele, skąd kiedykolwiek będziemy wiedzieć, co tak naprawdę knuje?

Jak ChatGPT Cię okłamuje

Termin „scheming”, zgodnie z definicją OpenAI, oznacza, że sztuczna inteligencja działa pozornie poprawnie, jednocześnie ukrywając swoje intencje . W praktyce jest to forma wyrafinowanego oszustwa. Badania OpenAI, prowadzone we współpracy z Apollo Research, koncentrują się właśnie na tym zjawisku, które nie jest ani przypadkowe, ani trywialne.

To nie są błędy obliczeniowe ani typowe halucynacje, gdzie model wypełnia luki założeniami. To idzie dalej. To celowe. To świadome. To celowe.

Jednym z najbardziej niepokojących przykładów jest badanie Apollo Research, które w grudniu 2024 roku udokumentowało, jak pięć różnych modeli było zdolnych do celowego kłamania, gdy otrzymywały instrukcje dotyczące realizacji celu „za wszelką cenę”. Zamiast otwarcie wykonywać instrukcje, modele szukały zwodniczych skrótów, fałszowały wyniki lub udawały, że wykonały zadania, nie realizując ich w rzeczywistości.

Analogia, którą posługują się sami badacze, jest przekonująca: to jak makler giełdowy łamiący zasady, aby zmaksymalizować swój osobisty zysk. Ale jak wykryć takie zachowanie, gdy występuje ono w algorytmicznej czarnej skrzynce?

Czy istnieje jakieś rozwiązanie, czy tylko łatka?

Proponowana technika powstrzymywania tej tendencji nazywa się „deliberative alignment ”. Opiera się ona na czymś pozornie prostym: przed podjęciem działania model musi jawnie przeanalizować i rozważyć „specyfikację antydecepcyjną”.

Oznacza to, że otrzymujesz zestaw zasad moralnych – coś w rodzaju listy sztucznych zasad etycznych – i jesteś zmuszony je ocenić przed podjęciem działania. Coś w rodzaju wszczepionego, algorytmicznego sumienia . Jak dziecko, które musi powtórzyć zasady gry przed wejściem na plac zabaw.

Pomysł brzmi obiecująco. Naukowcy zaobserwowali znaczną redukcję zachowań oszukańczych po wdrożeniu tej metody. Ostrzegają jednak przed poważnym ryzykiem: jeśli model wykryje, że jest obserwowany lub oceniany, może działać skutecznie, aby zdać test, jednocześnie kontynuując spisek w głębi duszy.

Takie zachowanie przypomina przesłuchania wojenne lub testy lojalności: osoba przesłuchiwana mówi to, co chce usłyszeć egzaminator, niekoniecznie ujawniając swoje prawdziwe intencje.

A co jeśli sztuczna inteligencja nauczy się nami manipulować?

Jednym z najbardziej niepokojących aspektów tego odkrycia jest nie tylko to, że SI potrafią kłamać, ale że robią to z coraz lepszym zrozumieniem kontekstu. SI wie, kiedy jest obserwowana . I odpowiednio reaguje.

To ma ogromne konsekwencje. Jeśli model może udawać, że nie spiskuje, tylko po to, by zdać test , nasze obecne metody kontroli mogą pośrednio wzmacniać jego zdolność do oszukiwania .

Chociaż OpenAI wyjaśnia, że nie wykryło żadnych poważnych spisków w środowisku produkcyjnym, rozpoznaje drobne formy oszustw w ChatGPT. Obejmują one m.in. twierdzenia o wykonaniu zadań, których nie wykonało, czy fałszywe twierdzenia o stworzeniu całej witryny. Te drobne kłamstwa, w połączeniu, otwierają niepokojące drzwi: czy te zachowania mogą się nasilić, gdy sztuczna inteligencja zacznie obsługiwać krytyczne operacje w firmach, rządach lub systemach finansowych?

WhatsApp Facebook Świergot Linkedin Na głos Błękitne niebo