AlphaEvolve de Google : l'agent d'IA qui a récupéré 0,7 % du calcul de Google – et comment le copier

Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières actualités et des contenus exclusifs sur les sujets de pointe en IA. En savoir plus
Le nouveau AlphaEvolve de Google montre ce qui se passe lorsqu'un agent d'IA passe de la démonstration en laboratoire au travail de production, et vous avez l'une des entreprises technologiques les plus talentueuses qui le pilote.
Développé par DeepMind de Google, le système réécrit de manière autonome le code critique et est déjà rentable au sein de Google. Il a pulvérisé un record vieux de 56 ans en multiplication matricielle (au cœur de nombreuses charges de travail d'apprentissage automatique) et a récupéré 0,7 % de la capacité de calcul des centres de données mondiaux de l'entreprise.
Ces exploits majeurs sont importants, mais la leçon la plus importante pour les responsables technologiques d'entreprise réside dans la manière dont AlphaEvolve les réalise. Son architecture – contrôleur, modèles à élaboration rapide, modèles à réflexion approfondie, évaluateurs automatisés et mémoire versionnée – illustre le type de structure de production qui permet un déploiement sécurisé à grande échelle des agents autonomes.
La technologie d'IA de Google est sans conteste inégalée . L'enjeu est donc de savoir comment en tirer des enseignements, voire l'utiliser directement. Google annonce l'arrivée prochaine d'un programme d'accès anticipé pour ses partenaires universitaires et une « disponibilité plus large » à l'étude, mais les détails restent flous. En attendant, AlphaEvolve est un modèle de bonnes pratiques : si vous souhaitez des agents capables de gérer des charges de travail à forte valeur ajoutée, vous aurez besoin d'une orchestration, de tests et de garde-fous comparables.
Prenons l'exemple du gain du centre de données. Google refuse de chiffrer les 0,7 % récupérés, mais ses dépenses d'investissement annuelles s'élèvent à des dizaines de milliards de dollars . Une estimation même approximative chiffre les économies à des centaines de millions de dollars par an – suffisamment, comme l'a souligné le développeur indépendant Sam Witteveen dans notre récent podcast , pour financer la formation de l'un des modèles phares de Gemini, dont le coût est estimé à plus de 191 millions de dollars pour une version comme Gemini Ultra.
VentureBeat a été le premier à annoncer l'arrivée d'AlphaEvolve en début de semaine. Nous allons maintenant approfondir le sujet : comment fonctionne le système, où se situe réellement la barre d'ingénierie et les mesures concrètes que les entreprises peuvent prendre pour construire (ou acheter) un système comparable.
AlphaEvolve s'appuie sur ce que l'on pourrait qualifier de système d'exploitation agent – un pipeline distribué et asynchrone conçu pour une amélioration continue à grande échelle. Ses éléments clés sont un contrôleur, deux grands modèles de langage (Gemini Flash pour l'étendue et Gemini Pro pour la profondeur), une base de données de mémoire programme versionnée et une flotte d'évaluateurs, tous optimisés pour un débit élevé plutôt qu'une simple faible latence.

Cette architecture n'est pas conceptuellement nouvelle, mais son exécution l'est. « C'est une réalisation tout simplement incroyable », déclare Witteveen.
L' article d'AlphaEvolve décrit l'orchestrateur comme un « algorithme évolutif qui développe progressivement des programmes qui améliorent le score sur les mesures d'évaluation automatisées » (p. 3) ; en bref, un « pipeline autonome de LLM dont la tâche est d'améliorer un algorithme en apportant des modifications directes au code » (p. 1).
À retenir pour les entreprises : si vos plans d’agent incluent des exécutions non supervisées sur des tâches à forte valeur ajoutée, prévoyez une infrastructure similaire : files d’attente de tâches, une mémoire versionnée, traçage de maillage de services et sandboxing sécurisé pour tout code produit par l’agent.
Un élément clé d'AlphaEvolve est son cadre d'évaluation rigoureux. Chaque itération proposée par les deux LLM est acceptée ou rejetée selon une fonction « evaluate » fournie par l'utilisateur, qui renvoie des métriques évaluables par machine. Ce système d'évaluation commence par des tests unitaires ultra-rapides sur chaque modification de code proposée – des tests simples et automatiques (similaires aux tests unitaires déjà écrits par les développeurs) qui vérifient que l'extrait compile toujours et produit les bonnes réponses sur une poignée de micro-entrées – avant de soumettre les survivants à des benchmarks plus approfondis et à des analyses générées par les LLM. Tout cela s'exécute en parallèle, garantissant une recherche rapide et sécurisée.
En bref : laissez les modèles suggérer des correctifs, puis comparez chaque solution à des tests fiables. AlphaEvolve prend également en charge l'optimisation multi-objectifs (optimisation simultanée de la latence et de la précision), en faisant évoluer les programmes qui atteignent plusieurs indicateurs simultanément. Contre toute attente, équilibrer plusieurs objectifs peut améliorer un indicateur cible unique en encourageant des solutions plus diversifiées.
À retenir pour les entreprises : les agents de production ont besoin d'indicateurs déterministes. Qu'il s'agisse de tests unitaires, de simulateurs complets ou d'analyses de trafic Canary, les évaluateurs automatisés sont à la fois votre filet de sécurité et votre moteur de croissance. Avant de lancer un projet d'agent, demandez-vous : « Disposons-nous d'une métrique sur laquelle l'agent peut s'auto-évaluer ? »
AlphaEvolve aborde chaque problème de codage selon un rythme à deux modèles. Gemini Flash lance d'abord des brouillons rapides, offrant au système un large éventail d'idées à explorer. Gemini Pro étudie ensuite ces brouillons plus en profondeur et renvoie un ensemble plus restreint de candidats plus performants. Un « générateur d'invites » léger, un script d'aide qui assemble la question posée à chaque modèle, alimente les deux modèles. Il combine trois types de contexte : les tentatives de code précédentes enregistrées dans une base de données de projet, les garde-fous ou règles rédigés par l'équipe d'ingénierie et des documents externes pertinents tels que des articles de recherche ou des notes de développement. Grâce à ce contexte plus riche, Gemini Flash peut évoluer librement, tandis que Gemini Pro se concentre sur la qualité.
Contrairement à de nombreuses démonstrations d'agents qui modifient une fonction à la fois, AlphaEvolve édite des dépôts entiers. Il décrit chaque modification sous forme de bloc de différences standard (le même format de correctif que les ingénieurs publient sur GitHub), ce qui lui permet de modifier des dizaines de fichiers sans perdre le fil. Ensuite, des tests automatisés déterminent si le correctif est appliqué. Au fil des cycles, la mémoire des succès et des échecs de l'agent s'enrichit, ce qui lui permet de proposer de meilleurs correctifs et de réduire le gaspillage de ressources informatiques en impasses.
À retenir pour les entreprises : confiez le brainstorming à des modèles moins coûteux et plus rapides, puis faites appel à un modèle plus performant pour affiner les meilleures idées. Conservez chaque essai dans un historique consultable, car cette mémoire accélère les travaux ultérieurs et peut être réutilisée par les équipes. Par conséquent, les fournisseurs s'empressent de fournir aux développeurs de nouveaux outils pour gérer des éléments tels que la mémoire. Des produits comme OpenMemory MCP , qui fournit une mémoire portable, et les nouvelles API de mémoire à long et court terme de LlamaIndex rendent ce type de contexte persistant presque aussi facile à intégrer que la journalisation.
L'agent d'ingénierie logicielle Codex-1 d'OpenAI, également publié aujourd'hui, illustre le même modèle. Il lance des tâches parallèles dans un environnement sandbox sécurisé, exécute des tests unitaires et renvoie des brouillons de requêtes d'extraction – une écho spécifique au code de la boucle de recherche et d'évaluation plus large d'AlphaEvolve.
Les gains tangibles d'AlphaEvolve (récupération de 0,7 % de la capacité du centre de données, réduction de 23 % du temps d'exécution du noyau de formation Gemini, accélération de 32 % de FlashAttention et simplification de la conception TPU) partagent un trait commun : ils ciblent des domaines avec des métriques hermétiques.
Pour la planification des centres de données, AlphaEvolve a développé une heuristique évaluée à l'aide d'un simulateur des centres de données de Google basé sur l'historique des charges de travail. Pour l'optimisation du noyau, l'objectif était de minimiser le temps d'exécution réel sur les accélérateurs TPU à partir d'un ensemble de données d'entrées de noyau réalistes.
À retenir pour les entreprises : Lorsque vous démarrez votre parcours d'IA agentique, privilégiez les workflows où la « meilleure » est un indicateur quantifiable que votre système peut calculer, qu'il s'agisse de latence, de coût, de taux d'erreur ou de débit. Cette approche permet une recherche automatisée et réduit les risques liés au déploiement, car le résultat de l'agent (souvent du code lisible par l'humain, comme dans le cas d'AlphaEvolve) peut être intégré aux pipelines de révision et de validation existants.
Cette clarté permet à l’agent de s’améliorer et de démontrer une valeur sans ambiguïté.
Si les réalisations d’AlphaEvolve sont inspirantes, le document de Google est également clair sur sa portée et ses exigences.
La principale limitation réside dans la nécessité d'un évaluateur automatisé ; les problèmes nécessitant une expérimentation manuelle ou un retour d'expérience en laboratoire sont actuellement hors de portée de cette approche spécifique. Le système peut consommer une quantité de calcul importante – « de l'ordre de 100 heures de calcul pour évaluer une nouvelle solution » (article d'AlphaEvolve, page 8 ), ce qui nécessite une parallélisation et une planification rigoureuse des capacités.
Avant d’allouer un budget important à des systèmes d’agents complexes, les responsables techniques doivent se poser des questions cruciales :
- Problème évaluable par machine ? Disposons-nous d'une mesure claire et automatisable permettant à l'agent d'évaluer ses propres performances ?
- Capacité de calcul ? Pouvons-nous nous permettre la boucle interne potentiellement gourmande en ressources de calcul que sont la génération, l'évaluation et le perfectionnement, notamment pendant les phases de développement et de formation ?
- Base de code et préparation de la mémoire ? Votre base de code est-elle structurée pour des modifications itératives, éventuellement basées sur des différences ? Et pouvez-vous implémenter les systèmes de mémoire instrumentés indispensables à l'apprentissage d'un agent à partir de son histoire évolutive ?
À retenir pour les entreprises : l’accent croissant mis sur une gestion robuste des identités et des accès des agents, comme on le voit avec des plateformes comme Frontegg, Auth0 et d’autres, souligne également l’infrastructure mature requise pour déployer des agents qui interagissent en toute sécurité avec plusieurs systèmes d’entreprise.
Le message d'AlphaEvolve aux équipes d'entreprise est multiple. Premièrement, le système d'exploitation autour des agents est désormais bien plus important que l'intelligence du modèle. Le plan directeur de Google met en avant trois piliers incontournables :
- Évaluateurs déterministes qui attribuent à l’agent un score sans ambiguïté à chaque fois qu’il effectue un changement.
- Orchestration de longue durée capable de jongler avec des modèles « brouillons » rapides comme Gemini Flash avec des modèles plus lents et plus rigoureux, qu'il s'agisse de la pile de Google ou d'un framework tel que LangGraph de LangChain.
- Mémoire persistante pour que chaque itération s'appuie sur la dernière au lieu de réapprendre à partir de zéro.
Les entreprises disposant déjà de journaux, de systèmes de test et de référentiels de code versionnés sont plus proches du but qu'elles ne le pensent. L'étape suivante consiste à intégrer ces ressources dans une boucle d'évaluation en libre-service afin que plusieurs solutions générées par des agents puissent rivaliser et que seuls les correctifs les mieux notés soient livrés.
Comme l'a déclaré Anurag Dhingra, vice-président et directeur général de la connectivité et de la collaboration d'entreprise chez Cisco, lors d'une interview accordée à VentureBeat cette semaine : « C'est en train de se produire, c'est très, très réel », a-t-il déclaré à propos des entreprises utilisant des agents d'IA dans les secteurs de la fabrication, des entrepôts et des centres de contact client. « Ce n'est pas un avenir. Cela se produit déjà. » Il a averti qu'à mesure que ces agents se généraliseront, effectuant un « travail quasi humain », la pression sur les systèmes existants sera immense : « Le trafic réseau va exploser », a déclaré M. Dhingra. Votre réseau, votre budget et votre avantage concurrentiel en ressentiront probablement les effets avant que l'engouement ne retombe. Commencez dès ce trimestre à tester un cas d'utilisation circonscrit et basé sur des indicateurs, puis déployez ce qui fonctionne.
Regardez le podcast vidéo que j'ai réalisé avec le développeur Sam Witteveen, où nous approfondissons les agents de qualité production et comment AlphaEvolve montre la voie :
Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de votre abonnement. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat