Casa Endavant pensant Per què l’aprenentatge automàtic és el futur

Per què l’aprenentatge automàtic és el futur

Taula de continguts:

Vídeo: El portafolis electrònic, eina per a aconseguir un ... (De novembre 2024)

Vídeo: El portafolis electrònic, eina per a aconseguir un ... (De novembre 2024)
Anonim

A la conferència de supercomputació SC16 d’aquest mes, destaquen dues tendències. El primer és l’aparició dels darrers Xeon Phi d’Intel (Knights Landing) i l’últim Tesla de Nvidia (el P100 basat en Pascal) a la llista Top500 dels ordinadors més ràpids del món; tots dos sistemes arriben al primer lloc 20. El segon és un gran èmfasi en com els fabricants de xips i sistemes prenen conceptes dels sistemes moderns d'aprenentatge de màquines i ho apliquen als supercomputadors.

Sobre la revisió actual de la llista Top500, que s'actualitza dues vegades l'any, la part superior del gràfic es manté fermament en mans de l'ordinador Sunway TaihuLight del Centre Nacional de Supercomputació de la Xina a Wuxi i de l'ordinador Tianhe-2 del superordinador nacional de la Xina. Centre a Guangzhou, com ho ha estat des del saló ISC16 de juny. No hi ha altres ordinadors propers al rendiment total, amb els sistemes de la tercera i quarta posició (encara el supercomputador Titan a Oak Ridge i el sistema Sequoia de Lawrence Livermore), que proporcionen aproximadament la meitat del rendiment de Tianhe-2.

El primer d'ells es basa en un processador xinès únic, el SW26010 d'1, 45 GHz, que utilitza un nucli RISC de 64 bits. Això compta amb un incomparable 10.649.600 nuclis que proporciona 125, 4 petaflops de màxim rendiment teòric i 93 petaflops de màxim rendiment mesurat en la referència de Linpack, amb 15, 4 Megawatts de potència. Cal destacar que, encara que aquesta màquina supera els gràfics en el rendiment de Linpack per un enorme marge, no surt bé en altres proves. Hi ha altres punts de referència, com ara l’índex de referència d’alt rendiment de conjugats (HPCG), on les màquines solen veure només entre l’1 i el 10 per cent del seu màxim rendiment teòric i on el sistema superior –en aquest cas, la màquina Riken K– encara proporciona menys. més d’un petaflop.

Però les proves Linpack són l’estàndard per parlar d’informàtica d’alt rendiment (HPC) i el que s’utilitza per crear la llista Top500. Utilitzant les proves de Linpack, la màquina número 2, Tianhe-2, va ser la número 1 del gràfic durant els últims anys i utilitza acceleradors Xeon E5 i Xeon Phi (Knights Corner) més antics. Això ofereix 54, 9 petaflops de màxim rendiment teòric i punts de referència a 33, 8 petaflops a Linpack. Molts observadors creuen que la prohibició de l'exportació de les versions més noves de Xeon Phi (Knights Landing) va portar als xinesos a crear el seu propi processador de supercomputadors.

Knights Landing, formalment Xeon Phi 7250, va exercir un paper important en els nous sistemes de la llista, a partir del supercomputador Cori del laboratori nacional Lawrence Berkeley que va arribar al cinquè lloc, amb un rendiment màxim de 27, 8 petaflops i un rendiment mesurat de 14 petaflops.. Es tracta d’un sistema Cray XC40, que utilitza la interconnexió Aries. Tingueu en compte que Knights Landing pot actuar com a processador principal, amb 68 nuclis per processador que proporcionen 3 teraflops punta. (Intel enumera una altra versió del xip amb 72 nuclis amb 3, 46 teraflops de rendiment teòric màxim de doble precisió a la seva llista de preus, però cap de les màquines de la llista utilitza aquesta versió, potser perquè és més car i utilitza més energia.)

Xeon Phis anteriorment només podia funcionar com a acceleradors en sistemes controlats per processadors Xeon tradicionals. En sisè lloc, es va situar el sistema Oakforest-PACS del Centre Conjunt per a Informàtica Avançada d'Alt Rendiment del Japó, que va anotar 24, 9 petaflops. Fujitsu està construït mitjançant la connexió Omni-Path de Knights Landing i Intel. Knights Landing també s'utilitza en el sistema número 12 (l'ordinador Marconi del CINECA d'Itàlia, construït per Lenovo i amb Omni-Path) i en el sistema núm. 33 (el Camphor 2 de la universitat de Kyoto del Japó, construït per Cray i utilitzant Àries interconnectar).

Nvidia també estava ben representada a la nova llista. El sistema número 8, Piz Daint al The Swiss National Supercomputing Center, es va actualitzar a un Cray XC50 amb Xeons i Nvidia Tesla P100, i ara ofereix poc menys de 16 petaflops de màxim rendiment teòric i 9, 8 petaflops de rendiment Linpack. actualització dels 7.8 petaflops de rendiment màxim i 6.3 petaflops del rendiment Linpack en la seva iteració anterior basada en el Cray XC30 amb els acceleradors Nvidia K20x.

L’altre sistema basat en P100 de la llista era el propi DGX Saturn V de Nvidia, basat en els sistemes DGX-1 propis de l’empresa i una interconnexió Infiniband, que entrava al número 28 de la llista. Tingueu en compte que Nvidia ara ven tant els processadors com l’aparell DGX-1, que inclou programari i vuit Tesla P100. El sistema DGX Saturn V, que Nvidia utilitza per a la investigació interna de la IA, suma prop de 4, 9 petaflops màxims i 3, 3 petaflops Linpack. Però el que Nvidia destaca és que només utilitza 350 quilowatts de potència, cosa que el fa molt més eficient energèticament. Com a resultat, aquest sistema ocupa la llista Green500 dels sistemes més eficients energèticament. Nvidia assenyala que és considerablement menys energètic que el sistema Camphor 2 basat en Xeon Phi, que té un rendiment similar (gairebé 5, 5 petaflops màxim i 3, 1 petaflops Linpack).

És una comparació interessant, amb Nvidia que ofereix una millor eficiència energètica en GPU i Intel que ofereix un model de programació més familiar. Estic segur que veurem més competència en els propers anys, ja que les diferents arquitectures competeixen per veure quines d'elles seran les primeres en arribar a la "computació exascal" o si hi haurà el plantejament casolà xinès. Actualment, el departament d’informàtica a gran escala del Departament d’Energia dels Estats Units preveu que les primeres màquines extraescales s’instal·lin el 2022 i puguin viure l’any següent.

Em sembla interessant tenir en compte que malgrat l’èmfasi en els acceleradors de molts nuclis com les solucions Nvidia Tesla i Intel Xeon Phi, només 96 sistemes utilitzen aquests acceleradors (inclosos els que utilitzen Xeon Phi sols); enfront dels 104 sistemes de fa un any. Intel continua sent el major proveïdor de xips, amb els seus xips en 462 dels 500 millors sistemes, seguit dels processadors IBM Power en 22. Hewlett-Packard Enterprise va crear 140 sistemes (inclosos els construïts per Silicon Graphics, que HPE va adquirir), Lenovo va construir. 92, i Cray 56.

Competència d'aprenentatge de màquines

Hi va haver diversos anuncis a la fira o a l'entorn, la majoria dels quals van tractar alguna forma d'intel·ligència artificial o aprenentatge automàtic. Nvidia va anunciar una col·laboració amb IBM en una nova eina de programari d'aprenentatge profund anomenada IBM PowerAI que gestiona servidors IBM Power mitjançant la interconnexió NVLink de Nvidia.

AMD, que ha estat una reflexió tant en entorns HPC com d'aprenentatge automàtic, treballa per canviar-ho. En aquest àmbit, la companyia es va centrar en les seves pròpies GPU Radeon, va impulsar les seves GPU del servidor FirePro S9300 x2 i va anunciar una col·laboració amb Google Cloud Platform per tal que es pugui utilitzar al núvol. Però AMD no ha invertit tant en programari per a programar GPUs, com ha estat emfasitzant OpenCL sobre l'enfocament més propietari de Nvidia. Al saló, AMD va introduir una nova versió de la seva plataforma Radeon Open Compute Platform (ROCm), i va proposar donar suport a les seves GPU en escenaris de computació heterogènia amb múltiples CPU, incloses les seves pròximes CPU "Zen" x86, arquitectures ARM que comencen amb ThunderX de Cavium i CPU de l'IBM Power 8.

Al saló, Intel va parlar d’una nova versió del seu xip actual Xeon E5v4 (Broadwell) ajustat per a càrregues de treball en punt flotant, i de com es publicarà la propera versió basada en la plataforma Skylake l’any que ve. Però en un esdeveniment posterior aquella setmana, Intel va fer una sèrie d’anuncis dissenyats per situar els seus xips a l’espai d’intel·ligència artificial o d’aprenentatge de màquines. (A continuació, expliquem ExtremeTech.) Bona part té conseqüències per a la informàtica d’altes prestacions, però és principalment separada. Per començar, a més dels processadors estàndard Xeon, la companyia també està promovent FPGA per fer gran part de la conferència en xarxes neuronals. Aquesta és una de les raons principals per a les quals l'empresa va comprar recentment Altera i que ara utilitzen FPGA com empreses com Microsoft.

Però la setmana passada es va centrar en l'AI sobre alguns xips més recents. En primer lloc, hi ha Xeon Phi, on Intel ha indicat que l'any actual la versió actual de Knights Landing es complementarà amb una nova versió anomenada Knights Mill, dirigida al mercat del "aprenentatge profund". Es va anunciar a IDF, aquesta és una altra versió de 14nm, però amb suport per a càlculs de mitja precisió, que s'utilitzen freqüentment en les xarxes neuronals d'entrenament. De fet, un dels grans avantatges dels actuals xips Nvidia en l'aprenentatge profund és el seu suport per a càlculs de precisió de mitja precisió i operacions integrals de 8 bits, que Nvidia sol anomenar "tera-ops" d'aprenentatge profund. Intel ha dit que Knights Mill oferirà fins a quatre vegades el rendiment de Knights Landing per a un aprenentatge profund. (Aquest xip encara es preveu per seguir després amb una versió de 10nm anomenada Knights Hill, probablement dirigida més al mercat tradicional d’informació d’alt rendiment.)

El més interessant per a l’any vinent és un disseny de Nervana, que Intel va adquirir recentment, que utilitza una sèrie de clústers de processament dissenyats per fer operacions matemàtiques senzilles connectades a la memòria d’amplada banda (HBM). El primer lloc d'aquesta família serà Lake Crest, dissenyat abans que Intel comprés l'empresa i es fabricés en un procés TSMC de 28nm. A causa de la versió de prova de la primera meitat de l'any vinent, Intel diu que oferirà un rendiment de càlcul més brut que una GPU. A continuació, seran seguits per Knights Crest, que d’alguna manera implementa la tecnologia de Nervana al costat de Xeon, amb detalls encara no anunciats.

"Esperem que les tecnologies de Nervana produeixin un avenç de 100 vegades més gran en el rendiment en els pròxims tres anys per formar xarxes neuronals complexes, permetent als científics de dades resoldre els seus majors reptes d'AI", va escriure el director general d'Intel, Brian Krzanich.

Intel també va anunciar recentment els plans per adquirir Movidius, cosa que fa que els xips basats en DSP siguin especialment indicats per a la confecció de visió per ordinador, de nou, prenent decisions basades en models prèviament formats.

És una història complicada i en evolució, certament no tan senzilla com l’empenta de Nvidia per a les seves GPU a tot arreu. Però el que queda clar és la rapidesa amb què s’està enlairant l’aprenentatge automàtic i les moltes maneres diferents que les empreses planegen abordar el problema, des de GPUs com les de Nvidia i AMD, fins a molts processadors x86 bàsics com Xeon Phi, fins a FPGAs, a productes especialitzats per a formació com Nervana i TrueNorth d’IBM, a motors de referència personalitzats com DSP com les unitats de processament de tensors de Google. Serà molt interessant veure si el mercat té cabuda a tots aquests plantejaments.

Per què l’aprenentatge automàtic és el futur