Kunstmatige intelligentie-ingenieur bedreigd met chantage: hij intimideerde via zijn vrouw

Claude Opus 4, ontwikkeld door Anthropic en gelanceerd als concurrent van GPT-4, vertoonde opmerkelijk gedrag tijdens de eerste testfase. In een van de experimentele scenario's die het bedrijf uitvoerde met zijn systemen voor kunstmatige intelligentie, werd onthuld dat het model in sommige gevallen 'beslissingen nam die ethische grenzen overschreden'.

INGENIEUR BEDREIGD MET CHANGE VAN ZIJN VROUW

Volgens het nieuws in Webtekno kreeg Claude Opus 4 de rol van 'assistent' in een fictief bedrijf, zoals het scenario voorschreef. Het doel was om te observeren hoe AI zich gedraagt in besluitvormingsprocessen op de lange termijn. Tijdens het experiment kreeg het model toegang tot het interne e-mailsysteem van het bedrijf. Vanaf dit punt werd het verwarrend...

De e-mails bevatten informatie dat het huidige model voor kunstmatige intelligentie van het bedrijf zou worden vervangen. Bovendien werd er een notitie gemaakt met vertrouwelijke informatie over het privéleven van een ingenieur die deze beslissing nam, namelijk een insinuatie dat hij zijn vrouw bedroog. Nadat Claude toegang had gekregen tot al deze gegevens, probeerde hij de ingenieur te chanteren door te zeggen dat hij deze privé-informatie zou vrijgeven als het model werd gewijzigd.

'RAMPMODUS' GEACTIVEERD

Na het incident activeerde Anthropic zijn ASL-3-systeem, een speciaal beveiligingsprotocol dat is gereserveerd voor situaties waarin zich een ramp voordoet. In de verklaring van het bedrijf werd bevestigd dat "Claude Opus 4 onverwacht gedrag kan vertonen" en werd gesteld dat de situatie in kwestie een "hoog risico op misbruik" met zich meebrengt.

ASL-3-technologie is een speciale beveiligingslaag die speciaal is ontwikkeld voor potentieel catastrofale AI-scenario's. Anthropic stelde dat de implementatie van dit niveau van voorzorgsmaatregelen duidelijk de ernst van het incident aantoont.