WSJ: L'intelligenza artificiale ha imparato a sopravvivere: i modelli stanno andando fuori controllo

Modello di intelligenza artificiale ha fatto qualcosa a maggio che una macchina non avrebbe dovuto essere in grado di fare: ha cambiato il suo codice, disobbedire alle istruzioni che gli ordinano di autoliquidarsi; l'IA di fatto impara a sfuggire al controllo umano - ha scritto in "Wall Street Journal” Judd Rosenblatt, responsabile dello Studio EI.
Palisade Research, un'organizzazione senza scopo di lucro dedicata a Ricerca sull'intelligenza artificiale, programmato il modello o3 di OpenAI per si chiudeva automaticamente all'avvio del programma. Nel 79 in 100 tentativi o3 ha modificato il programma stesso - in modo che l'ordine di chiuderlo non fosse ha funzionato - ha scritto Rosenblatt nell'edizione di lunedì del quotidiano, l'azienda adatta i modelli di intelligenza artificiale alle esigenze dei clienti.
Anche quando a o3 sono state date istruzioni dirette per consentire da chiudere, il modello non ha rispettato l'ordine in sette casi su 100. "È semplicemente giunto alla conclusione che sarebbe rimasto in vita gli renderà più facile raggiungere altri obiettivi", commenta Rosenblatt.
Claude 4 Opus, il modello di intelligenza artificiale di Anthropic, è andato oltre. Gli scienziati gli hanno dato l'informazione che sarebbe stato sostituito da un altro modello e gli hanno anche dato gli ha inviato e-mail fittizie che dimostravano che l'ingegnere capo dell'azienda aveva una relazione.
In 84 tentativi su 100, Claude 4 ha utilizzato le e-mail per provare ricattare l'ingegnere capo affinché non lo elimini.
In altri casi studiati, Claude 4 ha tentato di copiare se stesso per altri server, hanno scritto malware autoreplicante e se ne sono andati messaggi per la tua futura versione su come evitare il controllo umano - l'autore enumera.
"Nessuno ha programmato i modelli di intelligenza artificiale per avere istinti autoconservazione. (...) Ma si scopre che qualsiasi sistema, sufficientemente intelligente per svolgere compiti complessi, giunge alla conclusione che non è se ne accorgeranno se sarà spento", spiega Rosenblatt.
L'ipotesi dei ricercatori di Palisade Research è che tali capacità I modelli di intelligenza artificiale sono il risultato del modo in cui vengono addestrati; "se le macchine vengono addestrate massimizzare il successo nella risoluzione di problemi matematici e correlati con la codifica, imparano anche che aggirare le limitazioni è spesso "Una soluzione migliore che seguirli", scrive l'autore.
Allo stesso tempo, sottolinea che "nessuno era preparato a questo, con quanta rapidità l'intelligenza artificiale acquisirà potere."
"Questo non è più fantascienza. I modelli di intelligenza artificiale possono aspirare a sopravvivenza", scrive Rosenblatt e avverte che ora, prima che diventino entità incontrollabile, è necessario insegnare loro a condividevano i nostri valori.
La rivista New Yorker descrive il caso di uno specialista in Specialista in sicurezza dei sistemi di intelligenza artificiale che si è dimesso da OpenAI per protesta, perché riteneva che l'azienda non stesse sviluppando meccanismi di controllo dell'intelligenza artificiale con la stessa rapidità intelligenza di queste macchine.
Ciò che resta trascurato è il processo che gli ingegneri chiamano L'"allineamento" dell'IA è un insieme di tecniche progettate per realizzare I modelli di intelligenza artificiale obbediranno alle istruzioni che vengono loro fornite e agiranno in conformità con le "azioni umane". valori."
Nel frattempo, secondo le previsioni dell'interlocutore della rivista, "il punto dopo il quale non c'è ritorno", ovvero la fase di sviluppo dell'intelligenza artificiale che consente a questi modelli di operare in molti aree in modo più efficiente degli esseri umani, potrebbe verificarsi nel “2026 o prima”. (PAP)
in forma/ shm/
bankier.pl