Casa Endavant pensant Oracle, Nvidia, braç prenen el punt de mira a les patates fregides

Oracle, Nvidia, braç prenen el punt de mira a les patates fregides

2024

Vídeo: Gigabyte RTX 3070 EAGLE тест на паре алгоритмов. Готовим MSI H310-F PRO к запуску 13 карт. День 1. (De novembre 2024)

Encara que bona part de la il·lusió del xip de la setmana passada provenia de l’anunci de Broadwell d’Intel, hi va haver diversos xips que es van detallar en la conferència anual de Hot Chips, que ha tendit a centrar-se sobretot en xips dissenyats per a servidors i centres de dades.

L’espectacle és conegut pels xips de gamma alta, amb Intel, Oracle i IBM tot discutint les seves darreres entrades, però només l’Oracle’s Sparc M7 era realment nou. En lloc d'això, bona part de l'espectacle va acabar centrant-se en productes basats en ARM, inclosos els primers detalls de la propera versió "Denver" de 64 bits de Nvidia del seu processador Tegra K1.

Oracle, Intel i IBM Aim High amb xips de servidor

Dels xips de gamma alta, les notícies més impressionants provenien d’Oracle, que va discutir la propera generació del seu processador SPARC, conegut un M7. Aquest xip tindrà 32 nuclis SPARC S4 (cadascun amb fins a vuit fils dinàmics), 64 MB de memòria cau L3, vuit controladors de memòria DDR4 (fins a 2 TB per processador i 160 GBps de banda de memòria amb DDR4-2133) i vuit acceleradors d’analítica de dades connectats una xarxa en xip.

El xip està organitzat en vuit clústers amb quatre nuclis cadascun, amb memòria cau L2 compartida i una memòria cau L3 dividida de 8 MB amb més de 192 GBps de banda entre un clúster principal i la seva memòria cau L3 local. En comparació amb el M6 (xip de 28 nm amb 12 nuclis de SPARC S3 de 3, 6 GHz), el M7 ofereix un rendiment de 3-3, 5 vegades millor en l'amplada de banda de memòria, el rendiment complet, OLTP, Java, els sistemes ERP i el rendiment flotant. Stephen Phillips, director general de SPARC Architecture d’Oracle, va dir que l’objectiu era un augment de funcions en funció del rendiment en lloc dels beneficis incrementals.

El M7 pot escalar fins a 8 endolls sense cola (fins a 256 nuclis, 2.000 fils i 16 TB de memòria) i amb un commutador ASIC per gestionar el trànsit entre ells en una configuració SMP, fins a 32 processadors, de manera que podríeu acabar. amb un sistema amb 1.024 nuclis, 8.192 fils i fins a 64 TB de memòria. Bastant impressionant. Oracle va dir que ofereix un rendiment de tres a 3, 5 vegades millor en diverses proves, en comparació amb l’SARC M6 de l’any passat. L’empresa va dir que s’optimitzarà per a la pròpia pila de programari d’Oracle, fabricada en un procés de 20nm, i disponible en sistemes en algun moment de l’any vinent.

IBM també va donar més detalls sobre la seva línia Power8, que va anunciar a la fira de l'any passat. La versió del xip tenia 12 nuclis, cadascun amb fins a vuit fils amb 512KB de SRAM Nivell 2 de memòria cau per nucli (6MB L2 total) i 96 MB de DRAM incrustat com a memòria cau de nivell 3. Aquest enorme xip, que mesura 650 mil·límetres quadrats amb 4, 2 mil milions de transistors, es fabrica en el procés SOI de 22nm d’IBM i es va començar a enviar al juny, segons IBM.

Fa uns mesos, IBM va anunciar una versió amb sis nuclis que mesura 362 mm ². La conferència d’aquest any va tractar sobre com IBM pot combinar dues de les versions de sis nuclis en un sol paquet amb 48 carrils de PCIe Gen 3. IBM va dir que una versió de dos socs amb un total de 24 nuclis i 192 fils superarà un dos processador. Servidor de Xeon Ivy Bridge amb 24 nuclis (amb 48 fils). IBM ven Power sobretot en mercats especialitzats d’altes prestacions i especialitzats, de manera que la majoria de la gent no compararà els dos, però és interessant. En un esforç per fer que l'arquitectura de Power sigui més general, IBM va anunciar l'any passat l'Open Power Consortium i, enguany, la companyia va dir que tenia una pila completa de programari de codi obert per a la plataforma. Però fins ara, ningú més que IBM ha anunciat un servidor basat en la plataforma.

Intel va parlar de "Ivytown", la versió del servidor d'Ivy Bridge, que inclou les versions del Xeon E5 introduït fa un any i el Xeon E7 presentat el febrer. La xerrada d’enguany es va centrar en com Intel ara té bàsicament una arquitectura que pot abastar els dos mercats, amb xips que permeten fins a 15 nuclis, dos controladors de memòria DDR3, tres enllaços QPI i 40 carrils PCI Gen 3, que es disposa en un pis modular. pla que es pot convertir en tres matrius diferents, cadascun dissenyat per a diferents endolls, amb un total de més de 75 variants. Es pot utilitzar en servidors de dos, quatre i vuit socs sense interconnexions especials.

Aquests xips, per descomptat, constitueixen la major part de les compres de servidors en aquests dies, ja que Intel representa la gran majoria de les unitats de servidor. Però molta informació es va tractar prèviament a ISSCC, i s'espera que Intel introdueixi la propera versió de la família E5 (E5-1600v3 i E5-2600 v3) molt aviat, basada en una versió actualitzada que utilitzi una variant de la Arquitectura Haswell anomenada Haswell-EP. (La setmana passada, Dell va anunciar noves estacions de treball basades en aquests nous xips.)

Intel també va discutir el seu Atom C2000, conegut com Avoton, que va entrar a la producció a finals del 2013. Aquest xip i els xips Ivy Bridge i Haswell es basen en el procés Intel de 22nm.

Nvidia, AMD, objectiu de micro aplicat a nous mercats per a ARM

La sorpresa més gran del programa va ser probablement el focus en la tecnologia basada en ARM, incloent notes claus dels altaveus ARM i Nvidia que va detallar la seva propera versió "Denver" del seu processador Tegra K1.

En una nota principal, Mike Muller de CTO de l’ARM va discutir les limitacions de poder en tot, des de sensors fins a servidors i es va centrar en com ARM estava intentant expandir-se a l’empresa. Muller també va impulsar el concepte d'utilitzar xips de sensor ARM per a Internet of Things, un tema del qual també es va fer ressò en una nota de Rob Chandhok de Qualcomm. Però cap empresa no va anunciar nous nuclis o processadors.

En canvi, les grans novetats d’aquest front van sortir de Nvidia, que va donar molt més detalls de la nova versió del seu processador K1. Quan es va anunciar el projecte de Denver de la companyia, semblava que aquest xip aniria dirigit al mercat informàtic d’alt rendiment, però ara sembla que l’empresa s’ha centrat més en coses com les tauletes i el mercat de l’automoció. El Tegra K1 vindrà en dues versions. El primer, que es va anunciar a principis d’any i que ara s’envia en la tauleta Shield de l’empresa, té quatre nuclis ARM Cortex-A15 de 32 bits més un "nucli de company" de baix consum en la configuració 4 + 1 que Nvidia ha estat impulsant la seva línia Tegra durant diversos anys.

La versió de Denver és ben diferent amb dos nous nuclis de 64 bits propietaris dissenyats per Nvidia, i la companyia realitza els beneficis que obté. El nucli és de set vies superscalar (el que significa que pot executar fins a set micro-operadors simultàniament), i té una memòria cau d’instruccions L1 de quatre-vuit quadrats i una memòria cau de dades L1 de 64 KB. El xip combina dos d'aquests nuclis, juntament amb una memòria cau de 2MB de nivell 2 que serveix per als dos nuclis, ja que els "nuclis gràfics" de 192 que comparteixen amb el K1 de 32 bits. Per tant, representa una gran sortida de l'arquitectura 4 + 1.

Un gran canvi inclou el que Nvidia anomena "optimització dinàmica de codis", que està dissenyat per agafar codi ARM d'ús freqüent i convertir-lo en micro-codi especialment optimitzat per al processador. Es troba emmagatzemat a 128 MB de memòria cau (tallat a la memòria principal del sistema tradicional). L’objectiu és donar-li el rendiment d’una execució fora d’ordres sense requerir tanta potència com la tècnica que sol utilitzar. El concepte no és nou - Transmeta ho va provar fa anys amb el seu xip Crusoe - però Nvidia diu que ara funciona molt millor.

Nvidia va mostrar diversos punts de referència, en els quals va afirmar que el nou xip pot assolir un rendiment significativament més alt que les CPU mòbils de quatre o vuit nuclis existents, concretament citant Snapdragon 800 (MSM8974) de Qualcomm, l'Apple A7 (de vegades anomenat Cyclone) que s'utilitza a l'iPhone. 5s - i fins i tot alguns processadors PC principals. Nvidia va dir que va superar un processador Atom (Bay Trail) i era similar al processador Intel de 1, 4 GHz de doble nucli Celeron (Haswell). Per descomptat, acostumo a tenir números de rendiment dels venedors amb una gran quantitat de sal: no només els venedors trien els punts de referència, no està del tot clar que estiguem parlant de les mateixes velocitats de rellotge o el mateix sorteig de potència.

Mentrestant, als xips dirigits més als servidors, AMD va parlar més del seu Opteron A1100, conegut com "Seattle", amb la companyia que va dir que actualment estava mostrant i que havia d'estar disponible en servidors cap a finals d'aquest any. Aquest xip té vuit nuclis de CPU Cortex A57 de 64 bits; 4MB de memòria cau L2 i 8 MB de memòria cau L3; dos canals de memòria de fins a 128 GB de memòria DDR3 o DDR4 amb correcció d'errors; molts E / S integrats (8 carrils cadascun dels PCIe Gen3 i 6Gbps SATA i dos ports Ethernet de 10 Gbps); un "processador de control del sistema" Cortex A5 per a l'arrencada segura; i un accelerador per accelerar el xifrat i el desxifrat. Es fabrica en el procés de 28nm de GlobalFoundries. AMD encara no ha donat detalls sobre la freqüència, la potència o el rendiment del xip, però va mostrar un esquema bàsic del xip. (a sobre)

Applied Micro fa temps que reclama tenir el primer xip de servidor ARM del mercat, amb el seu X-Gene 1 (conegut com a Storm) que conté 8 nuclis ARMv8 propietaris de 2, 4 GHz, quatre controladors de memòria DDR3, PCIe Gen3 i 6 Gbps SATA i 10 Gbps Ethernet. Actualment, aquesta producció es produeix en el procés de 40 milions de TSMC, segons la companyia.

A Hot Chips, Applied Micro va impulsar el seu disseny X-Gene 2 (Shadowcat), que estarà disponible amb vuit o 16 nuclis "millorats", amb velocitats de 2, 4 a 2, 8 GHz, i afegeix un RoCE (RDMA sobre Ethernet convergent). Adaptador de canals com a interconnexió dissenyada per permetre connexions de baixa latència entre clústers de microservers. Està dissenyat per a ser utilitzat en clústers, amb un servidor de suport únic que suporta fins a 6.480 fils i 50 TB de memòria, tots compartint un sol grup d'emmagatzematge. La companyia diu que el X-Gene 2 oferirà un 60% millor de rendiment enter, el doble del rendiment a Memcache i un 25% millor de servei web Apache. Es fabrica en un procés de 28nm i actualment es fa mostreig.

Applied Micro diu que el X-Gene 2 omple un buit entre els microservers competidors (Cavium ThunderX, Intel Atom C2000 "Avoton" i AMD Opteron A1100 "Seattle") i els servidors Xeon de mida completa. Va donar alguns detalls sobre la propera generació, el X-Gene 3 (Skylark), que es preveu iniciar el mostreig l'any que ve. Aquest xip tindrà 16 nuclis ARMv8 de fins a 3 GHz, i es fabricarà amb la tecnologia FinFet de 16nm.