Google potenzia Gemini 2.5 con nuove funzionalità di ragionamento, audio e sicurezza

Google ha annunciato una nuova ondata di aggiornamenti per Gemini 2.5, il modello di intelligenza artificiale più avanzato dell'azienda fino ad oggi, alzando ulteriormente l'asticella in ambiti quali il ragionamento complesso, la multimodalità e l'interattività. Dopo aver lanciato Gemini 2.5 Pro a marzo e aver presentato in anteprima le funzionalità per gli sviluppatori alla conferenza I/O, il colosso della tecnologia sta ora apportando miglioramenti sia al modello Pro sia alla versione Flash, concentrandosi su prestazioni, sicurezza ed esperienza di sviluppo.
Con un contesto di un milione di token (unità di testo come parole o parti di parole che l'intelligenza artificiale utilizza per elaborare il linguaggio) e l'integrazione con LearnLM (la suite di modelli creata con esperti del settore dell'istruzione), Gemini 2.5 Pro è diventato leader non solo nei benchmark accademici, ma anche nelle classifiche WebDev Arena e LMArena, dove supera i concorrenti nelle attività di codifica e nelle preferenze umane in una varietà di scenari.
La grande novità è la modalità Deep Think, una funzionalità sperimentale che consente al modello di esplorare più ipotesi prima di rispondere, rafforzando così le capacità di ragionamento. Per ora, questa funzionalità sarà disponibile solo per i tester attendibili tramite l'API Gemini, mentre sono in corso ulteriori valutazioni di sicurezza.
Gemini 2.5 Flash più veloce ed efficienteAnche la versione Flash di Gemini 2.5, progettata per attività ad alta velocità e costi di elaborazione ridotti, ha ricevuto un aggiornamento significativo. Ora è più efficiente (riduce l'utilizzo dei token del 20-30%) e offre prestazioni migliori nel ragionamento, nella multimodalità, nella codifica e nella gestione di contesti estesi. Sarà disponibile per tutti nell'app Gemini e sarà lanciato ufficialmente in produzione a partire da giugno su Google AI Studio e Vertex AI.
Più interazioni umane con l'audio nativoUn'altra importante novità è l'introduzione dell'uscita audio nativa, che consente interazioni più naturali ed espressive con i modelli Gemini. Gli utenti possono regolare il tono, l'accento e lo stile della voce, ad esempio chiedendo una narrazione drammatica. Inoltre, il nuovo sistema di sintesi vocale multi-altoparlante supporta oltre 24 lingue e cambia lingua in tempo reale, catturando anche i sussurri e le emozioni più sottili.
Sono in fase sperimentale anche funzionalità come il dialogo affettivo (in cui il modello rileva le emozioni nella voce dell'utente), l'audio proattivo (che filtra i rumori di fondo) e l'integrazione della capacità di "pensare" nella Live API.
Sicurezza e controllo miglioratiCon l'aumentare delle funzionalità, la sicurezza è diventata una priorità. Gemini 2.5 implementa ora nuove misure di sicurezza contro le iniezioni indirette di prompt, attacchi in cui i comandi dannosi sono mascherati nei dati, aumentando significativamente la protezione del modello durante la creazione degli strumenti.
Progettato per i programmatori: trasparenza e integrazione con strumenti apertiAnche l'esperienza dei programmatori è stata migliorata. Gemini 2.5 Pro e Flash ora includono riepiloghi che organizzano il ragionamento del modello con titoli, passaggi e decisioni, rendendolo più facile da comprendere.
Inoltre, la funzionalità dei budget di pensiero ora consente di controllare la quantità di token utilizzati per pensare prima di rispondere, contribuendo a bilanciare costi, latenza e qualità: una funzionalità inizialmente rilasciata con Flash e ora estesa a Pro.
La Gemini API supporta anche il Model Context Protocol (MCP), facilitando l'integrazione con strumenti open source e consentendo la creazione di applicazioni più intelligenti e autonome.
Visao