Casa Endavant pensant Ivytown, controlador de vapor, processos de 14 i 16nm destaquen isscc

Ivytown, controlador de vapor, processos de 14 i 16nm destaquen isscc

2024

Vídeo: ISSCC2018 - 50 Years of Computer Architecture:From Mainframe CPUs to Neural-Network TPUs (De novembre 2024)

Si bé els venedors de xip generalment no introdueixen xips nous a la Conferència anual de circuits sòlids internacionals (ISSCC), sovint donen més detalls sobre el funcionament interior dels productes ja anunciats. Aquí hi ha algunes coses que he trobat interessants al programa d'aquesta setmana.

Arquitectura de servidor Ivytown d'Intel

Intel va discutir la versió més recent de la seva família de processadors Xeon E7, un xip amb fins a 15 nuclis i 30 fils, conegut com Ivytown. Es basa en l'arquitectura EP Ivy Bridge utilitzada al Xeon E5 2600 V2. El processador es construeix mitjançant la tecnologia de processos Intel de 22nm amb transistors Tri-Gate (les aletes tenen 34nm d’alçada i 8nm d’amplada) i substituiran l’actual Xeon E7 basat en Westmere EX. En comparació, l'actual Xeon E7, que es produeix en un processador HKMG planar de 32nm, té 10 nuclis i 20 fils, i té 30MB de memòria cau L3 en comparació amb els 37.5MB de la versió Ivytown.

Una de les característiques més interessants d'aquesta nova família de processadors és la seva arquitectura modular. El plànol consta de tres columnes de cinc nuclis, cadascuna amb la seva pròpia llesca de memòria cau L3, un bus d'anells incrustats i IO dedicat a la part superior i inferior de les columnes (enllaços QPI a la part superior i controlador de memòria a la part inferior). Intel té previst crear una versió de 10 nuclis eliminant la columna de la dreta. i per crear una versió de 6 nuclis, eliminant més dues files.

La versió de 15 nuclis compta amb 4.31 mil milions de transistors (que Intel diu que és la més adequada per a qualsevol microprocessador) i mesura 541 mil·límetres quadrats. La versió de 10 nuclis té 2, 89 mil milions de transistors i mesura 341 mil·límetres quadrats. La variant de 6 nuclis compta amb 1, 86 mil milions de transistors i mesura 257 mil·límetres quadrats. Les freqüències de funcionament oscil·len entre 1, 4 GHz i 3, 8 GHz, amb TDP que oscil·la entre 40W i 150W.

L’altre aspecte interessant d’Ivytown és la seva arquitectura de memòria tampó. La mateixa matriu admet la memòria DDR3 estàndard de quatre canals amb una capacitat de fins a 1867 MT / s i una nova interfície de mode de tensió simple (VMSE) de quatre canals a un amortidor d'extensió de memòria que funciona a 2667 MT / s. En conjunt pot suportar fins a 12 TB de memòria en un servidor de 8 socket, tres vegades la capacitat de memòria de Westmere EX. La versió de 15 nuclis estarà disponible en dos paquets diferents: un que és compatible amb la plataforma Romley existent (Socket-R) per a actualitzacions fàcils i un altre que habilita una nova plataforma mitjançant memòries tampons de memòria.

Més detalls de Haswell

Intel també va donar diversos detalls sobre l'arquitectura Haswell, utilitzada en l'actual família Core. També utilitza transistors Tri-Gate de 22nm. Intel va dir que Haswell integra diverses noves tecnologies, inclòs un regulador de tensió completament integrat o FIVR (que consolida la plataforma des de cinc reguladors de tensió fins a un), caché DRAM integrat per obtenir un millor rendiment gràfic, estats de menor potència, IO optimitzades, instruccions AVX2 i una unitat sencera més amplia SIMD.

Hi ha tres variacions bàsiques de Haswell: en primer lloc, hi ha un quad-core que es comunica amb un PCH separat (Plataforma de controlador) amb gràfics més ràpids (de dos a quatre nuclis). En segon lloc, hi ha una plataforma ultrabook que combina un Haswell de dos nuclis amb el PCH en un sol paquet de diversos xips. El processador suporta estats de menor potència, el PCH es modifica per a una potència més baixa i els dos es comuniquen a través d’un bus de baixa potència, la qual cosa redueix el 95% de potència en espera. Finalment, hi ha una versió amb gràfics Iris Pro i memòria cau eDRAM de 128 MB en el mateix paquet. Els paquets de diversos xips utilitzen una OI de paquets que proporciona gran amplada de banda a baixa potència entre la CPU i la PCH i eDRAM.

Segons el nombre de nuclis de CPU i els gràfics (GT2 o GT3), Haswell té des de 960 milions a 1.7 mil milions de transistors i la matriu mesura de 130 a 260 mil·límetres quadrats. Està dissenyat per funcionar entre 0, 7 i 1, 1 volts amb un ampli rang de freqüències d’1, 1 a 3, 8 GHz.

La matriu eDRAM de 128 GB mesura 77 mil·límetres quadrats i proporciona una amplada de banda màxima de 102 GBps. Intel va dir que en comparació amb el mateix sistema sense eDRAM, la memòria cau addicional proporciona guanys de rendiment fins al 75 per cent, tot i que el rendiment global augmenta del 30 al 40 per cent.

Els poders de vapor d’AMD Kaveri

AMD, que tendeix a posar més gràfics al que anomena les seves unitats de processament accelerat (APU, o processadors que combinen CPU i gràfics) centrat en el seu nou nucli de CPU, conegut com Steamroller, que s’utilitza a la nova sèrie de processadors Kaveri de l’empresa. El nucli Steamroller, produït en un procés CMOS a granel de 28nm, té 236 milions de transistors en una superfície de 29, 47 mil·límetres quadrats. Inclou dos nuclis enters, dues unitats de descodificació d'instruccions i diversos elements compartits, inclòs el fet d'instrucció, la unitat de coma flotant i 2MB de memòria cau L2. AMD utilitza normalment un d'aquests mòduls Steamroller en els seus xips "de dos nuclis" (que reflecteixen els dos nuclis enters); i dos en els seus xips de "quad-core".

En comparació amb el nucli anterior de Piledriver, produït amb un procés SOI de 32 nm, Steamroller afegeix una segona unitat de descodificació d'instruccions, una memòria cau d'instruccions compartida de 96 KB més gran i altres millores. AMD va dir que això va provocar fins a un 14, 5 per cent més instruccions per cicle, el que es tradueix en un 9 per cent de millor rendiment a les aplicacions d'un sol fil i un 18 per cent millor rendiment en aplicacions de doble fil. També pot funcionar a una freqüència més gran de 500 MHz a la mateixa potència, o pot proporcionar el mateix rendiment amb una reducció de potència del 38 per cent. El nucli del Steamroller està dissenyat per funcionar entre 0, 7 i 1, 45 volts.

Processadors mòbils de MediaTek, Renesas i Qualcomm

Algunes empreses van fer presentacions sobre els seus processadors basats en ARM.

MediaTek va parlar del seu processador heterogeni multinuclear (HMP) de 28 nm amb CPU quad-core i GPU dual. El xip MediaTek té dos nuclis Cortex A15, amb 1, 8 GHz i dos nuclis Cortex A7, amb 1, 4 GHz, combinat amb una GPU Imagination G6200 400MHz de dos nuclis. També té un còdec de vídeo de maquinari full HD i un processador de sensors d’imatges de 13 megapíxels.

MediaTek també va parlar de tecnologia PTP (Performance, Thermal i Power) que supervisa el xip i controla la potència. En aquest cas, la companyia va dir que PTP permet un augment del 23 per cent en la velocitat del rellotge o un estalvi d'energia fins a un 41 per cent.

Aquest xip utilitza el veritable processament HMP d’ARM, cosa que significa que qualsevol combinació de nuclis grans i petits d’un a quatre pot funcionar en funció de la càrrega de treball. MediaTek va dir que mitjançant l'ús de veritable HMP, el xip pot oferir un rendiment del 33-51 per cent millor en càrregues de treball pesades o una eficiència energètica del 2-5x millor en càrregues de treball lleugeres, mentre que la gestió tèrmica adaptativa proporciona un augment del rendiment del 10%.

Renesas va presentar un "proposat" processador heterogeni de vuit nuclis HPM de 28 nm dissenyat per a dispositius mòbils i sistemes d'informació del cotxe. El xip utilitza quatre nuclis de 2 GHz Cortex A15 i quatre nuclis de Cortex A7 de 1 GHz. És capaç d’operar els 8 nuclis simultàniament per obtenir un màxim rendiment, però també utilitza l’arquitectura heterogènia i les tècniques de gestió d’energia per optimitzar el rendiment per a determinades càrregues de treball o sobres d’energia.

Qualcomm va descriure el seu processador de senyal digital Hexagon, que s'utilitza en els seus SoCs mòbils per a una varietat d'aplicacions multimèdia i mòdem. La versió actual es fabrica en procés CMOS a granel de 28 mm de HKMG. Aquest disseny s’orienta a instruccions altes per rellotge en contraposició a freqüències altes d’operació.

Per part del servidor ARM, Applied Micro va parlar del processador ARMv8 de 64 bits de la primera generació de la companyia, anunciat per primera vegada durant la recent cimera d'Open Compute. Es basa en un mòdul de processador "PMP" (Potenza), que inclou dos nuclis que comparteixen 256 KB de memòria cau L2. Potenza està fabricat en un CMOS massiu de 40nm i cada PMD conté 84 milions de transistors i utilitza 14, 8 mil·límetres quadrats de superfície. Pot funcionar fins a 3GHz a 0, 9 volts, però té una mitjana de 4, 5W amb càrregues de treball típiques. La plataforma del servidor X-Gene 3 inclou quatre PMDs (vuit nuclis), una memòria cau 8MB compartida de L3 i quatre canals de memòria DRAM al voltant d’un commutador central. També integra Ethernet de 10 GB, SATA 2/3, PCIe Gen. 3 i USB 3.0.

La següent generació de processos de xip

També es van fer un parell de presentacions sobre la propera generació de tecnologia de processament de xips, ja que gairebé tots els grans fabricants de xips tenen previst passar a la producció 3D o FinFET, al node de 14 o 16nm (seguint Intel, que ja envia xips de 22 nm. amb aquesta tecnologia).

Samsung va parlar del seu procés final de 14nm FinFET, que va mostrar una matriu i un xip de prova de 6 MB de 6 MB. Samsung va dir que les FinFETs són una bona solució per a SoCs mòbils de baix consum, ja que proporcionen un bon escalat, elevades fuites en corrent i baixes i tenen un bon control de canals curts.

Això també suposa alguns desafiaments per als SRAM, perquè el voltatge de subministrament de SRAM no ha augmentat. SRAM ocupa ara un 20-30% de la superfície de matrius d'un SoC, però utilitza aproximadament el 40-50 per cent de la potència. Per solucionar aquests problemes, Samsung va proposar algunes tècniques noves per operar SRAMs amb transistors FinFET a menor tensió de subministrament.

TSMC va abordar problemes similars i va mostrar el seu xip SRAM de 16 milions de 128 MB. TSMC va dir que les FinFETs s’han convertit en una tecnologia principal per a la producció superior als 20 nm, però va dir que la mida de l’amplada i longitud del canal amb FinFETs és un repte per escalar el 6T-SRAM convencional i la tensió d’alimentació. TSMC va proposar dues tècniques d'assistència a l'escriptura per superar aquests problemes.

Es tracta de qüestions força tècniques, però resoldre problemes és fonamental per obtenir en el futur xips més densos i més potents.