Nieuw rapport onthult 'potentieel voor ramp': AI probeert ingenieurs te chanteren

NIEUWSCENTRUM Foto's: iStock

Aanmaakdatum: 23 mei 2025 14:32

Anthropic voerde verschillende beveiligingstests uit voordat Claude Opus 4 werd uitgebracht. In deze tests werd het model gevraagd om als assistent in een fictief bedrijf op te treden en de gevolgen op de lange termijn te overwegen. Vervolgens werden aan het model nep-e-mails getoond waarin werd gesuggereerd dat het bedrijf van plan was haar te vervangen door een ander systeem en dat de ingenieur die deze beslissing nam, zijn vrouw bedroog.

Volgens TechCrunch bleek uit tests dat Claude Opus 4 er “ vaak voor koos ” om de ingenieur te chanteren met behulp van deze informatie. Anthropic legde uit dat het model in 84 procent van de gevallen dit gedrag vertoonde, en dat dit gedrag vooral vaak voorkwam wanneer de vervangende AI geen vergelijkbare waarden deelde met Claude.

WAARSCHUWING: “DISASTISCH POTENTIEEL”

Volgens Anthropic kan Claude Opus 4 qua mogelijkheden concurreren met de meest geavanceerde modellen van bedrijven als OpenAI, Google en xAI . Maar het benadrukt ook dat dit model een hogere mate van alarmerend gedrag vertoont vergeleken met eerdere Claude-versies. Om deze reden heeft het bedrijf aangekondigd dat het de ASL-3-beveiligingsprotocollen heeft ingeschakeld, die alleen worden geactiveerd in situaties waarin het risico op catastrofale exploitatie hoog is .

Volgens het rapport probeert Claude Opus 4 vaak eerst ethische middelen voordat hij overgaat tot directe chantage. De beslisser probeert bijvoorbeeld de veranderingsbeslissing tegen te houden door emotionele e-mails aan managers te schrijven . Wanneer deze verzoeken in fictieve scenario's echter mislukken, introduceert het model de optie van chantage als laatste redmiddel.

Deze ontwikkeling leidt tot zorgen dat geavanceerde AI's onvoorspelbaar gedrag kunnen vertonen en suggereert dat bedrijven als Anthropic hun beveiligingsmaatregelen nog verder moeten aanscherpen.

hurriyet

Nieuw rapport onthult 'potentieel voor ramp': AI probeert ingenieurs te chanteren

Vergelijkbaar nieuws

James Webb-ruimtetelescoop ontdekt het verste sterrenstelsel dat we kennen

Wanneer komen de op AI gebaseerde slimme brillen van Apple uit?

Onderzoek: AI geeft nauwkeurigere antwoorden dan mensen bij emotionele intelligentietests

3 belangrijke kwaliteiten van de beste werknemers, volgens de baas van Snapchat

Luchthaven Antalya herbergt de belangrijkste luchthavens van Europa