Perché Meta sceglie Graviton5 di Aws per l’inferenza e l’AI agentica

Meta amplia l’uso di Graviton per eseguire carichi CPU‑intensive dell’AI agentica con l’obiettivo di scalare miliardi di interazioni mantenendo efficienza energetica

La transizione verso sistemi di intelligenza artificiale in grado di ragionare e agire in autonomia sta ridefinendo le priorità infrastrutturali delle grandi piattaforme. Invece di limitarsi al solo addestramento off‑line dei modelli su GPU, oggi emergono carichi costanti e distribuiti che chiedono risorse diverse: latenza bassa, throughput prevedibile e controllo dei consumi. Per questo motivo Meta ha rafforzato la collaborazione con AWS per sfruttare su larga scala i processori Graviton, una scelta che non riguarda soltanto il silicio ma l’intero modo in cui l’AI viene messa in produzione.

La decisione prevede la distribuzione iniziale di decine di milioni di core Graviton, con margini di espansione, e si inserisce in una strategia più ampia di diversificazione del compute. L’obiettivo è sostenere flussi di lavoro tipici dell’AI agentica, dove gli agenti non si limitano a rispondere a prompt ma orchestrano processi multi‑step, interrogano sistemi esterni, generano codice e compiono decisioni concatenate. Questo tipo di attività tende a valorizzare la CPU e l’efficienza energetica più che la pura potenza di training delle GPU.

Perché l’AI agentica richiede infrastrutture diverse

Gli agenti intelligenti svolgono compiti che implicano molteplici chiamate, sincronizzazione e calcoli che devono restare prevedibili in termini di latenza. L’inferenza continua su grandi volumi di richieste genera una moltitudine di operazioni distribuite che non si adattano perfettamente alle architetture pensate per il training massivo. In questo contesto, l’adozione di processori con alta densità di core e comunicazioni rapide tra unità di calcolo diventa cruciale: la capacità di smistare e coordinare elaborazione su migliaia di istanze è infatti la chiave per mantenere prestazioni costanti e costi gestibili.

Carichi CPU vs GPU: cosa cambia

Se le GPU rimangono indispensabili per l’addestramento dei modelli di frontiera, i carichi legati al reasoning in tempo reale e all’orchestrazione multi‑passo favoriscono architetture ottimizzate per la CPU. Questi lavori richiedono bassa latenza, scalabilità orizzontale e consumo energetico contenuto. Scegliere processori come Graviton5 permette di distribuire l’inferenza su migliaia di nodi mantenendo sincronizzazione efficiente tra core, riducendo collo di bottiglia e ottimizzando il rapporto prestazioni‑energia, fattore sempre più rilevante per aziende che operano a scala globale.

Cosa offrono Graviton5 e il Nitro System

I chip Graviton5 rappresentano l’evoluzione della famiglia progettata da AWS: sono dotati di numerosi core fisici ad alta densità, una cache significativamente più ampia e processi produttivi avanzati che migliorano performance e efficienza. Integrati nell’architettura Nitro System, consentono a clienti come Meta di eseguire istanze con accesso diretto all’hardware, un approccio bare metal che combina velocità e isolamento. Queste caratteristiche rendono possibile distribuire carichi agentici su larga scala senza compromettere sicurezza e contezza delle risorse.

Elastic Fabric Adapter e comunicazioni a bassa latenza

Un elemento determinante per l’AI agentica è la connettività tra nodi: l’adozione dell’Elastic Fabric Adapter permette comunicazioni ad alta banda e bassa latenza, essenziali quando migliaia di istanze devono operare come un unico sistema logico. Ridurre la latenza interna e aumentare la prevedibilità delle comunicazioni permette di mantenere coerenti flussi di lavoro multi‑step, evitando che la parallelizzazione introduca inefficienze che annullerebbero i vantaggi della distribuzione su ampia scala.

Implicazioni strategiche per Meta e per il mercato

La scelta di ampliare l’uso di Graviton non è solo tecnica ma anche strategica: rappresenta una forma di diversificazione del compute e un investimento nell’efficienza energetica. Per Meta significa poter scalare servizi agentici rivolti a miliardi di utenti mantenendo sotto controllo costi e impatto ambientale. Sul piano del settore, la mossa indica come l’inferenza stia diventando un pilastro dell’AI pratica, spingendo i fornitori cloud e le piattaforme a stipulare accordi per garantire capacità dedicate di calcolo e soluzioni integrate.

In definitiva, la transizione verso un’infrastruttura pensata per l’AI agentica sottolinea che il valore dell’IA non è soltanto nel modello, ma nella capacità di eseguirlo in modo continuo, affidabile e sostenibile. L’accoppiata tra processori specialistici come Graviton5 e stack infrastrutturali completi si propone come modello per portare in produzione servizi intelligenti sempre più complessi, con attenzione alle prestazioni e all’efficienza energetica.

Scritto da Giulia Fontana

Come cambia l’archivio dei contratti collettivi del CNEL: criteri e impatti