Casa Endavant pensant Google cloud tpus forma part d’una tendència cap a processadors específics de ai

Google cloud tpus forma part d’una tendència cap a processadors específics de ai

2024

Vídeo: BERT on Steroids: Fine-tuning BERT for a dataset using PyTorch and Google Cloud TPUs (De novembre 2024)

En les darreres setmanes, s’han produït diverses introduccions importants de noves plataformes informàtiques dissenyades específicament per treballar en xarxes neuronals profundes per a l’aprenentatge automàtic, inclosos els nous "TPUs en núvol" de Google i el nou disseny Volta de Nvidia.

Per a mi, aquesta és la tendència més interessant en l’arquitectura d’ordinadors, fins i tot més que AMD i ara Intel que introdueix CPU de 16 nuclis i 18 nuclis. Per descomptat, hi ha altres enfocaments alternatius, però Nvidia i Google mereixen una gran atenció per als seus enfocaments únics.

A Google I / O, el vaig veure presentar un "TPU en núvol" (per a la unitat de processament de tensió, que indica que està optimitzat per al marc d'aprenentatge de màquines TensorFlow de Google). L’anterior TPU de la generació, presentada a la fira de l’any passat, és un ASIC dissenyat principalment per fer conferències –execució d’operacions d’aprenentatge de màquines–, però la nova versió està dissenyada per fer referència i formar aquests algoritmes.

En un document recent, Google va donar més detalls sobre la TPU original, que va descriure com que conté una matriu de 256 unitats per acumulació múltiple (MAC) (65.536 en total) amb un rendiment màxim de 92 teraops (milers de milions d'operacions per segon). Rep les instruccions d’un CPU host a través del bus PCIe Gen 3. Google va dir que es tractava d'una matriu de 28 nm que era inferior a la meitat de la mida d'un processador Intel Haswell Xeon de 22 nm i que va sobrepassar aquell processador i el processador K80 de 28 nm de Nvidia.

La nova versió, anomenada TPU 2.0 o núvol TPU, (vist més amunt), conté en realitat quatre processadors al tauler, i Google va dir que cada placa és capaç d’arribar a 180 teraflops (180 trilions d’operacions en punt flotant per segon). De la mateixa manera que és important, els taulers estan dissenyats per treballar junts, utilitzant una xarxa personalitzada d’alta velocitat, de manera que actuen com una única màquina d’aprenentatge de supercomputació que Google anomena “pod TPU”.

Aquest pod TPU conté 64 TPU de segona generació i proporciona fins a 11, 5 petaflops per accelerar la formació d’un model únic d’aprenentatge de grans màquines. A la conferència, Fei Fei Li, que dirigeix la investigació AI de Google, va dir que mentre que un dels models d’aprenentatge a gran escala de la companyia per a traducció triga un dia complet a formar-se en 32 dels millors GPU comercials, ara pot formar-se als la mateixa precisió en una tarda utilitzant un vuitè d'una vaina TPU. Això és un gran salt.

Entengueu que no es tracta de sistemes petits: un pod sembla ser de la mida de quatre bastidors informàtics normals.

I cadascun dels processadors individuals sembla tenir embornals de calor molt grans, el que significa que les juntes no es poden apilar massa. Google encara no ha donat gaires detalls sobre el que ha canviat en aquesta versió dels processadors o de la connexió de connexió, però és probable que també es basi al voltant de MACs de 8 bits.

La setmana anterior, Nvidia va presentar la seva última entrada en aquesta categoria, un xip massiu conegut com el Telsa V100 Volta, que va descriure com el primer CPU amb aquesta nova arquitectura Volta, dissenyat per a GPU de gamma alta.

Nvidia va dir que el nou xip és capaç de 120 teraflops TensorFlow (o 15 TFLOPS de 32 bits o 7, 5 de 64 bits). Aquesta utilitza una nova arquitectura que inclou 80 Streaming Multiprocessors (SMS), cadascun dels quals inclou vuit nous "Tensor Cores". i és una matriu 4x4x4 capaç de realitzar 64 operacions de rellotge FMA (Fused Multiply-Add) per rellotge. Nvidia va dir que oferirà el xip a les seves estacions de treball DGX-1V amb 8 plaques V100 el tercer trimestre, després de la anterior DGX-1 que utilitzava l'arquitectura P100 anterior.

La companyia va dir que aquesta caixa de 149.000 dòlars hauria de lliurar 960 teraflops de rendiment de formació, amb 3200 watts. Més endavant, el primer dit, enviaria una estació DGX personal amb quatre V100, i al quart trimestre, va dir que els grans venedors de servidors enviaran servidors V100.

Aquest xip és el primer anunci que utilitza el processador de 12 nm de TSMC, i serà un enorme xip amb 21.1 mil milions de transistors amb 815 mil·límetres quadrats. Nvidia va citar Microsoft i Amazon com a primers clients del xip.

Observeu que hi ha grans diferències entre aquests enfocaments. Els TPU de Google són xips realment personalitzats, dissenyats per a aplicacions TensorFlow, mentre que el Nvidia V100 és un xip una mica més general, capaç de fer diferents tipus de matemàtiques per a altres aplicacions.

Mentrestant, els altres grans proveïdors de núvols estan buscant alternatives, amb Microsoft que utilitza tant GPU per a la formació com les matrius de porta programables de camp (FPGA) per fer referència, i oferir tant als clients. Amazon Web Services ara posa a disposició dels desenvolupadors tant les instàncies de GPU com FPGA. I Intel ha estat pressionant els FPGA i una sèrie d'altres tècniques. Mentrestant, hi ha diverses noves empreses que treballen en enfocaments alternatius.

D’alguna manera, aquest és el canvi més dràstic que hem vist en els processadors d’estacions de treball i de servidors en anys, almenys des que els desenvolupadors van començar a utilitzar “GPU computar” fa diversos anys. Serà fascinant veure com es desenvolupa això.