La nostra abitudine all'intelligenza artificiale sta già cambiando il modo in cui costruiamo i data center • Il registro

Analisi La folle corsa per proteggere e implementare l’infrastruttura AI sta costringendo gli operatori dei data center a rivalutare il modo in cui costruiscono e gestiscono le proprie strutture.

Nel tuo data center tipico, l'aria fredda viene aspirata attraverso un rack pieno di sistemi di elaborazione, rete e storage. Nella parte posteriore, l'aria riscaldata viene poi catturata ed espulsa dall'infrastruttura di raffreddamento della struttura.

Questo paradigma funziona perfettamente per rack da 6-10 kW, ma inizia a sgretolarsi quando si iniziano a implementare i tipi di sistemi utilizzati per addestrare modelli di intelligenza artificiale come GPT-4. I moderni nodi GPU possono facilmente consumare l'energia di un intero rack. E questo sta costringendo gli operatori dei data center ad apportare alcune importanti modifiche alla progettazione.

Tesla sembra essere l’ultimo a rendersene conto. Come riportato all'inizio di questa settimana, il produttore statunitense di veicoli elettrici è alla ricerca di persone che lo aiutino a costruire "datacenter primi nel suo genere".

In un recente annuncio di lavoro, la società ha dichiarato di essere alla ricerca di un responsabile del programma di ingegneria senior per i data center, che "guiderà la progettazione e l'ingegneria end-to-end dei primi data center di Tesla nel suo genere e sarà uno dei membri chiave di il suo team di ingegneri."

Questa persona sarebbe anche responsabile della supervisione della costruzione di un nuovo data center. Ciò suggerisce che ciò potrebbe non essere correlato ai rapporti di The Information secondo cui Tesla ha recentemente rilevato un contratto di locazione di un datacenter a Sacramento abbandonato da Twitter in seguito all'acquisizione del social network da parte del CEO Elon Musk.

Anche se non è esattamente chiaro cosa intenda l'azienda per "datacenter primi nel suo genere" - abbiamo chiesto a Tesla e non abbiamo ancora ricevuto risposta - potrebbe avere qualcosa a che fare con l'acceleratore AI Dojo personalizzato mostrato a Hot Chips l'anno scorso. .

La società prevede di investire oltre 1 miliardo di dollari nel progetto da qui alla fine del 2024 per accelerare lo sviluppo del suo software di guida autonoma. Parlando a luglio, Musk ha rivelato che il sistema completo potrebbe superare i 100 exaFLOPS, quelle che presumiamo siano le prestazioni di BF16.

Ciò significa che Tesla dovrà trovare un posto in grado di ospitare la cosa, e qualcuno che mantenga le luci accese e tutti quei punti fluttuanti. E sulla base di ciò che sappiamo dell’acceleratore Dojo, progettare e gestire una struttura in grado di fornire energia e raffreddamento adeguati per mantenere attivo l’acceleratore AI potrebbe essere un po’ un incubo.

Dojo è un supercomputer componibile, sviluppato interamente internamente da Tesla. Tutto, dal calcolo, alla rete, all'I/O, all'architettura del set di istruzioni, all'erogazione di potenza, al confezionamento e al raffreddamento, è stato realizzato su misura con il preciso scopo di accelerare gli algoritmi di apprendimento automatico di Tesla.

L'elemento base di questo sistema è il chiplet D1 di Tesla. Venticinque di questi sono assemblati insieme utilizzando la tecnologia system-on-wafer di TSMC nel riquadro Dojo Training. Nel complesso, il sistema da mezzo metro cubo dispone di 11 GB di SRAM, 9 TB/s di connettività fabric e può gestire 9 petaFLOPS di prestazioni BF16. Puoi trovare un'analisi completa del massiccio acceleratore di intelligenza artificiale sul nostro sito gemello, The Next Platform.

Naturalmente, racchiudere tutte queste prestazioni in un fattore di forma così compatto presenta alcune sfide uniche, come come alimentare e raffreddare un singolo acceleratore da 15 kW, per non parlare dei sei che compongono il sistema 1 exaFLOPS Dojo V1. E questi sono solo gli acceleratori. È inoltre necessario alimentare e raffreddare tutti i sistemi di supporto utilizzati per alimentare e coordinare il flusso di dati attraverso gli acceleratori.

Poi c'è la questione della mesh ad alta velocità, che potrebbe rivelarsi proibitiva in termini di come queste tessere possono essere dispiegate. A quelle velocità, più vicini puoi compattarli, meglio è, ma anche maggiore sarà il carico termico. Pertanto, non sarebbe sorprendente se Tesla abbandonasse del tutto l'idea di utilizzare i rack tradizionali a favore di qualcosa di completamente unico.

Questo umile avvoltoio personalmente adorerebbe vedere un ritorno ai selvaggi e stravaganti progetti di supercalcolo di un tempo. I supercomputer erano strani e divertenti. Non mi credi? Basta cercare CM-1 o Cray-2 di Thinking Machine. Quelle erano delle macchine di bell'aspetto.