Come i moduli di potenza ad alta densità ridurranno il consumo energetico dell’Intelligenza Artificiale Generativa

I data center consumano una quantità di energia sorprendente per alimentare e raffreddare l’hardware di calcolo e di infrastruttura dell’intelligenza artificiale generativa (GenAI). L’addestramento dei modelli di reti neurali artificiali dell’AI generativa richiede tipicamente mesi di tempo, con migliaia di processori da miliardari di transistor, memorie a semiconduttore e magnetiche ad alta larghezza di banda e processori di rete ottica che operano ininterrottamente.(1)(2) Il New York Times ha riportato che “In uno scenario intermedio, entro il 2027 i server AI potrebbero utilizzare tra 85 e 134 terawattora (TWh) all’anno”.(3) L’addestramento dei modelli di AI generativa presenta una sfida di consumo energetico impegnativa e urgente che che non è in linea con gli obiettivi della società di riduzione dei gas serra. Questo articolo illustra le opzioni di alimentazione dei processori GenAI e come i moduli di alimentazione avanzati ad alta densità di corrente e i metodi di erogazione verticale dell’energia possano migliorare significativamente le prestazioni di elaborazione, riducendo al contempo le perdite di potenza e risparmiando terawatt di energia all’anno su scala globale.

Alimentazione dei moderni processori GenAI

 

Figura 1. I processori di addestramento GenAI, comprese le memorie ad alta larghezza di banda (HBM), sono montati sui circuiti stampati dei moduli acceleratori (AM).

 

Negli ultimi anni sono stati introdotti numerosi processori GenAI destinati all’addestramento di modelli linguistici di grandi dimensioni. Le innovazioni nei processi e nel packaging dei semiconduttori (Figura 1) sono sbalorditive, con più di 100 miliardi di transistor fabbricati in tecnologie di processo logico CMOS a 4 nm e più di 144 gigabyte di memoria ad alta larghezza di banda (HBM) (altri 1,128 trilioni di transistor) in grado di trasferire più di 9,6 terabyte al secondo (4), le richieste di corrente operativa di questi processori sono molto significative e si stanno avvicinando a 2.000 ampere di picco, con conseguenti livelli di perdita di potenza del processore e relativa complessità di gestione termica. L’erogazione di 2.000 ampere a 0,7 V mediante regolatori di tensione al punto di carico (Point-of-Load) rappresenta una sfida molto interessante e importante in termini di prestazioni termiche ed elettriche. Le soluzioni attuali utilizzano trenta o più fasi di regolazione di tensione (Voltage Regulator ) modulate disposte lateralmente attorno al processore di addestramento dell’IA generativa, aggiungendo dispendiose perdite I2R di 50 watt o più nei piani di potenza in rame del PCB della scheda madre. Una soluzione a questa eccessiva perdita di potenza e al carico di gestione termica consiste nel limitare le prestazioni del processore di addestramento dell’AI generativa a una zona operativa sicura, lasciando sul tavolo tera-FLOPS (operazioni in virgola mobile al secondo) di prestazioni. Una soluzione migliore consiste nel passare a un’erogazione di potenza a PoL verticale, ma ciò richiede un significativo aumento della densità di corrente dei componenti e una nuova tecnologia di packaging per i moduli di potenza..

Modellazione delle perdite di potenza dei PCB

La resistenza del circuito stampato (PCB) dipende dalla resistività del rame, dall’area , dallo spessore del piano di potenza e dalla temperatura.

Figura 2. Modello di PCB (Printed circuit board)

 

La resistenza del piano di potenza del PCB in rame è concettualmente modellata dall’equazione:

R = [(ρ • L) / (T • W)] • [1 + • (Temperatura del piano di rame in gradi Celsius – 25 °C)]

Dove:

ρ = resistività del rame (1.7 x 10-6 ohm-cm)

L = lunghezza del piano (cm)

W = larghezza del piano (cm)

T = spessore del piano (cm)

= coefficiente termico del rame (3.9 x 10-3/°C)

Come indicato nell’equazione, la resistenza del piano di potenza è direttamente proporzionale alla sua area di sezione trasversale. Riposizionando i convertitori PoL più vicino al processore di addestramento dell’AI generativa, si riduce l’area del piano di potenza e la resistenza DC della rete di distribuzione di potenza (Power Delivery Network). I progettisti dei sistemi di alimentazione dei processori di AI generativa riconoscono sempre più l’importanza cruciale dell’area del piano di potenza del PCB per minimizzare le perdite di potenza complessive del modulo acceleratore (AM). Di conseguenza, sono alla ricerca di soluzioni ingegneristiche per aumentare la densità di corrente e migliorare il packaging dei moduli di potenza PoL VR (Voltage Regulator), al fine di consentirne un posizionamento più vicino ai pin di alimentazione del processore.

 

Opzioni di Posizionamento dei Modulo di Potenza per Processori GenAI

La gestione dell’alimentazione PoL per i processori di addestramento GenAI è complessa, con molteplici domini di alimentazione. Il rail principale (core VDD), operando a soli 0,7 volt, presenta tolleranze estremamente ristrette agli overshoot e undershoot, limitati a circa ± 5%. L’assorbimento di corrente, fortemente influenzato dal carico di lavoro dell’algoritmo, genera picchi estremamente elevati di variazione temporale della corrente (dI/dt) che possono superare i 2.000 ampere al microsecondo. Tale dinamica richiede soluzioni di alimentazione PoL in grado di fornire correnti di picco, tipicamente per durate di 1-2 millisecondi, circa il doppio rispetto al valore di corrente continua nominale. Le memorie HBM (High Bandwidth Memory) nell’array del processore operano a un proprio dominio di tensione (HBM VDD) nominale di 1,1V o 1,2V. Esse sono inoltre soggette a vincoli in termini di requisiti di corrente continua e di picco, di variazione temporale della corrente (dI/dt) e di limiti di tensione transitoria al di sopra e al di sotto della tensione di funzionamento nominale, al fine di prevenire danni ai circuiti o una degradazione della durata operativa. Nell’array del processore sono presenti anche domini di tensione ausiliari (aux VDD) con requisiti di corrente compresi tra circa 250 e 400 ampere.  La Figura 3 mostra tre opzioni di posizionamento dei moduli di potenza per l’erogazione di potenza VR: laterale (LPD), latero-verticale (LVD) e verticale (VPD). Posizionando i VR direttamente sotto il processore, come nelle opzioni LVD e VPD, si riduce la resistenza della PDN. Ciò minimizza l’area del piano di potenza con i vantaggi discussi, ma è tipicamente dove si trova la grande matrice di condensatori di bypass, che forniscono bypass ad alta banda e alimentazione di corrente transitoria per i carichi di lavoro dinamici dell’IA generativa.

Figura 3. Opzioni di posizionamento dei PoL della power delivery network

 

Considerazioni sui Condensatori di Bypass per Processori GenAI

I condensatori di disaccoppiamento necessari per supportare un processore di addestramento GenAI devono essere posizionati il più vicino possibile alle micro-saldature di alimentazione e di massa del complesso package chiplet, entrando così in competizione con i VR per l’area PCB disponibile. La capacità di bypass richiesta è correlata alla tolleranza di ripple dell’alimentazione del rail del processore, alla risposta in frequenza del sottosistema di regolazione di tensione e ad altri fattori.(6) Non sorprende che un processore di addestramento GenAI con una corrente di progetto termica (Thermal Design Current o assorbimento continuo) di 1.000 ampere richieda una grande quantità di capacità di bypass, 3 mF o più, che tipicamente occupa l’intera area del PCB sotto il processore, lasciando poco spazio per il posizionamento dei VR all’interno dell’array di componenti dei condensatori. Con una densità di corrente VR di 1 A/mm², che rappresenta lo stato dell’arte attuale, è appena possibile inserire un modulo di potenza in grado di erogare 350 ampere (continui) in un’area di 3.500 mm² tra i condensatori di bypass, e comunque raggiungere le prestazioni dI/dt richieste. Per valutare le prestazioni di questo metodo di posizionamento dei VR, è stata sviluppata una scheda di prova (Figura 4) per misurare il miglioramento delle perdite termiche che l’erogazione di potenza LVD offre a un processore core VDD da 1.000 ampere rispetto a un posizionamento puramente laterale dei moduli. Il modulo posizionato verticalmente sul lato inferiore condivide il compito di erogazione di corrente del rail principale del processore con altri due moduli da 350 ampere (continui) con la stesso footprint, che erogano potenza lateralmente sul lato superiore della scheda come mostrato in Figura 4.

Figura 4. Scheda di prova di valutazione con erogazione di potenza laterale-verticale (LVD)

 

L’approccio di layout latero-verticale ha mostrato vantaggi significativi rispetto a un design puramente laterale. Una nota importante: la scheda di prova è stata progettata con un modulo di carico e non con un processore reale, dove sarebbe necessario considerare il routing dei segnali ad alta velocità (come le linee seriali basate su SERDES) e altre considerazioni di progettazione del PCB. I risultati dei test dimostrano che la migrazione di uno dei moduli di potenza PoL core VDD dal posizionamento laterale al posizionamento verticale sotto il processore ha ridotto l’impedenza della PDN di un fattore sei. L’impedenza della PDN parallela raggruppata è diminuita da 60 a 11 in aggregato per i tre moduli di potenza utilizzati per fornire i 1.000 ampere continui totali, e la dissipazione del PCB è diminuita da 60 watt nell’erogazione di potenza laterale a 11 watt nell’erogazione di potenza latero-verticale. Ciò rappresenta una riduzione di 50 WPCB a 1.000 ampere di corrente di carico per modulo acceleratore e di 3.200 WPCB continui per un rack del data center di processori GenAI comprendente 64 AM GenAI. Utilizzando le previsioni di domanda di dominio pubblico dei moduli acceleratori GenAI nei prossimi anni (oltre 2,5 milioni di unità nel 2024)(9)(10)(11) e utilizzando stime ragionevoli e lungimiranti del costo dell’energia elettrica (30 USD per megawattora), questo risparmio di 50 watt per AM porta, entro il 2027, a terawattora di risparmio energetico a livello globale dei data center, equivalenti a miliardi di dollari di costi operativi elettrici, oltre a milioni di tonnellate di riduzioni delle emissioni di anidride carbonica annualmente (a seconda del mix di energia rinnovabile) e in perpetuo.

 

VPD Puro – La Sfida dello Stoccaggio di Energia, del Guadagno di Corrente e della Densità di Corrente

Per ottenere un’erogazione puramente verticale per i rail di alimentazione principali ad alta corrente in questo esempio sarebbe necessario un aumento della densità di corrente VR di 3 volte o più, da circa 1 A/mm² a circa 3 A/mm² (per un tipico impronta del package del processore di addestramento di 3.500 mm²) per adattarsi all’interno dell’array di condensatori di bypass (Figura 5). Raggiungere questo aumento moltiplicativo della densità di corrente richiede una completa riconsiderazione dell’approccio VR tradizionale, incluso il packaging del modulo di potenza.

Figura 5. Regolatore di tensione posizionato nell’array di condensatori di bypass del processore.

 

La sfida generale nell’aumentare la densità di corrente dei VR PoL è la dimensione dei componenti magnetici necessari per lo stoccaggio di energia. Le architetture VR multifase e VR a induttori accoppiati (Trans-Inductor Voltage Regulator o TLVR) si basano sullo stoccaggio di energia in componenti magnetici (induttori o trasformatori rispettivamente) e sul trasferimento dell’energia immagazzinata (come corrente) al processore. I moduli di potenza di questo tipo introdotti di recente presentano frequenze di commutazione e specifiche di corrente di uscita leggermente più elevate e sono più compatti, con due fasi modulate per modulo di potenza. Questi componenti generalmente regolano da 12V in ingresso, alimentati da convertitori di bus a rapporto fisso 48V (K = 1/4). Approcci alternativi utilizzano MOSFET laterali a tensione inferiore (tipicamente 6V in ingresso) che commutano a frequenze leggermente più elevate, riducendo le dimensioni degli induttori di stoccaggio di energia. Questi VR PoL a tensione di ingresso inferiore sono alimentati da convertitori di bus 48V in ingresso a 6V in uscita (K = 1/8), che erogano livelli di corrente molto più elevati, intorno ai 160 ampere, aumentando sfavorevolmente le perdite di potenza del bus intermedio nel PCB (WPCB). A causa dei limiti fisici sulla frequenza di commutazione massima, anche a 6V, gli approcci multifase e TLVR tradizionali raggiungono una densità di corrente massima di circa 1 A/mm². Entrambe le topologie si traducono in moduli di potenza alti (da 4 a 8 mm) e relativamente pesanti, in gran parte a causa dei componenti magnetici (tipicamente in ferrite) per lo stoccaggio di energia. Un altro approccio iniziale, introdotto da Vicor nel 2016, ha integrato l’array di condensatori di bypass in un modulo di potenza impilato come mostrato di seguito (Figura 6). Un addizionale “gearbox layer” mappa l’alimentazione sul ball grid array del processore, rendendo però ogni modello di dispositivo una soluzione personalizzata. Questo metodo presenta sia sfide di scalabilità che di costo rispetto a una famiglia di prodotti standard.

Figura 6. Package del modulo per VPD con un stack-up che include un gearbox layer.

 

La commutazione a frequenze significativamente più elevate (superiori a 1 MHz) riduce le dimensioni dei componenti di stoccaggio di energia. Tuttavia, per i VR buck multifase o TLVR, questo approccio rende necessario ridurre la tensione operativa dei transistor MOSFET di potenza. L’architettura legacy FIVR (Fully Integrated Voltage Regulator) è un classico esempio, in cui, per evitare il problema della densità del PCB dei condensatori di bypass, si riusciva a raggiungere le densità di corrente necessarie con dei regolatori buck on-silicon wafer che commutano a frequenze di MHz. Le CPU dei server a quel tempo utilizzavano una tensione di alimentazione off-chip di 1,8 VEXT, pertanto, con l’approccio FIVR si ottieneva un guadagno di corrente di soli 2 volte (1,8 VEXT / 0,85 core VDD). L’efficienza inoltre era dichiarata nell’ordine dell’80%.(7)(8) Per un processore di addestramento GenAI TDC da 1.000 a 2.000 ampere, sono necessari guadagni di corrente ben più elevati e maggiori efficienze per evitare eccessive perdite termiche. Nelle architetture VR da 12V e 6V citate in precedenza, i guadagni di corrente sono nell’ordine di 20x e 10x rispettivamente (per un processore core VDD da 0,7V). Ma con le 30 o più fasi modulate necessarie per il rail principale, queste architetture non raggiungono la densità di corrente di 3 A/mm² richiesta per consentire il posizionamento dei VR incorporati all’interno del campo dell’array di condensatori di bypass.

 

Moduli di potenza avanzati 3Di (Three Dimensional interconnect)

I moduli di potenza che utilizzano la moltiplicazione di corrente basata su trasformatori invece della tradizionale media di tensione presentano il vantaggio di guadagni di moltiplicazione di corrente più elevati, nell’intervallo da 48 a 60x. Questa topologia ha intrinsecamente tensioni di commutazione degli interruttori più basse, ad esempio, con una moltiplicazione di corrente di fattore 48 (K = 48/1), è possibile utilizzare interruttori di potenza a bassa tensione al PoL. Questi moduli funzionano a frequenze superiori a 1 MHz con efficienze nell’ordine del 94%, grazie alle commutazioni a tensione e corrente zero (ZVS e ZCS) e alle tecniche di stoccaggio di energia zero. I componenti magnetici vengono utilizzati solo per la trasformazione di tensione e corrente e non vengono utilizzati per lo stoccaggio di energia magnetica. Con elevate frequenze di commutazione, i moduli possono essere resi notevolmente piccoli. Con i nuovi packaging dei moduli di potenza 3Di, è possibile raggiungere la densità di corrente richiesta di 3 A/mm² per la VPD pura sul rail core VDD, ed ulteriori progressi nella densità di corrente sono possibili in futuro. I progressi nel packaging dei moduli di potenza per abilitare la VPD devono inoltre essere favorevoli agli ambienti di produzione in serie a elevato volume. Il package del modulo (Figura 7) deve essere termicamente adeguato per semplificare la soluzione di gestione termica per la VPD. I progressi nella scienza dei materiali e nei magnetici con frequenze di commutazione superiori a 1 MHz hanno abilitato le tecnologie 3Di, risultando in package molto sottili (<1,8 mm) con resistenza termica molto bassa e favorevoli capacità di montaggio superficiale. I package 3Di sono meccanicamente rigidi, presentano un elevato grado di complanarità e la placcatura del package 3Di contribuisce a mitigare le interferenze elettromagnetiche radiate (EMI).

Figura 7. Esempio di moduli di potenza 3D interconnect sovrastampati

 

Man mano che i futuri processori di addestramento GenAI diventeranno più complessi, con die impilati e array di chip multi-processore in un singolo package, i livelli di corrente operativa continua si avvicineranno rapidamente a 2.000 ampere e 1.500 watt o più di potenza. I supercomputer exascale GenAI che eseguono modelli linguistici di grandi dimensioni con miliardi di parametri continueranno a utilizzare migliaia di processori AI e CPU per sistema.(12) Questa applicazione rimarrà senza dubbio la più intensiva dal punto di vista energetico e termico nel mondo del calcolo moderno nel prossimo futuro. I fornitori dell’ecosistema dei componenti GenAI hanno l’obbligo etico di contribuire a mitigare il consumo energetico di questa nuova straordinaria tecnologia.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Menu