Vídeo: Hot Chip - Over and Over (Official Video) (HD) (De novembre 2024)
El tema més interessant de la informàtica en aquests dies és l'aprenentatge automàtic, i això és certament visible per al maquinari. En les darreres setmanes, hem sentit a parlar molt sobre nous xips dissenyats per a l'aprenentatge profund, des de Tesla P100 de Nvidia i Drive PX 2 fins a les unitats de processament de tensors de Google fins a Xeon Phi d'Intel. Així doncs, no és estrany que a la conferència Hot Chips de la setmana passada vam escoltar diverses empreses diferents amb alguns enfocaments molt diferents per dissenyar a mida per a l'aprenentatge de màquines i el processament de la visió.
Potser la notícia més important va ser la publicació de Nvidia de més detalls sobre el seu xip Parker, utilitzat en el mòdul Drive PX 2 per a cotxes autopropulsats i dirigit a l'aprenentatge profund per a màquines autònomes. Aquest xip utilitza dos nuclis de CPU de Denver compatibles amb ARM personalitzats, quatre nuclis ARM Cortex-A57 i 256 dels nuclis que Nvidia termes Pascal CUDA (gràfics).
Nvidia va dir que aquest va ser el seu primer xip dissenyat i classificat per a ús d’automòbils, amb característiques especials de resiliència, i va parlar de la seva velocitat i memòria més ràpides, destacant que el nucli de Denver proporciona una millora significativa en el rendiment per watt. Entre les noves funcions destaquen la virtualització assistida per maquinari, amb fins a 8 VMS per permetre la integració de les funcions del cotxe que tradicionalment es fan en equips separats. En general, la companyia va dir que el model Drive PX 2 pot tenir dos d'aquests xips Parker i dues GPU discretes, amb un rendiment total de 8 teraflops (doble precisió) o 24 operacions d'aprenentatge profund (de 8 bits o de mitja precisió). l'empresa va incloure punts de referència comparant-la favorablement amb el processament mòbil actual amb SpecInt_2000, un punt de referència relativament antic. Però el rendiment sembla impressionant, i recentment Volvo va dir que ho utilitzarà per provar vehicles autònoms a partir de l’any vinent.
Per descomptat, hi ha molts altres enfocaments.
La startup xinesa DeePhi va discutir una plataforma basada en FPGA per a xarxes neuronals, amb dues arquitectures diferents segons el tipus de xarxa implicada. Aristòtil està dissenyat per a xarxes neuronals convolucionals relativament petites i basat en Xilinx Zynq 7000, mentre que Descartes està dissenyat per a xarxes neuronals recurrents més grans utilitzant memòria de llarga durada (RNN-LSTM), basada en el Kintex Ultrascale FPGA. DeePhi afirma que el seu compilador i l'arquitectura van reduir el temps de desenvolupament en comparació amb la majoria dels usos dels FPGA i també que l'ús d'un FPGA pot oferir millors resultats que les solucions Tegra K1 i K40 de Nvidia.
Un altre enfocament és utilitzar un processador de senyal digital o DSP, que normalment realitza una funció específica o un petit conjunt de funcions molt ràpidament, utilitzant molt poca energia. Sovint s’incorporen a altres xips més complexos per accelerar determinades funcions, com ara el processament de la visió. Diverses empreses, entre elles Movidius, CEVA i Cadence, estaven compartint les seves solucions a Hot Chips.
Movidius mostrava la seva solució basada en DSP coneguda com la unitat de processament de visió Myriad 2 i la tenia presentada al drone DJI Phantom 4. També va mostrar com el Myriad 2 supera les GPU i la xarxa neuronal profunda GoogLeNet usada al concurs ImageNet 2014.
CEVA estava promovent el seu DSP Vision CEVA-XM4, específicament sintonitzat per al processament de la visió i dirigit al mercat de l’automoció, juntament amb la seva plataforma CEVA Deep Neural Network 2, que segons ell podria prendre qualsevol cosa escrita per als marcs Caffe o TensorFlow i optimitzar-la per funcionar. al seu DSP. El nou processador hauria d'estar a SoCs l'any que ve.
Mentrestant, Cadence, que converteix la família Tensilica en els processadors de visió (que es poden incrustar en altres productes), va discutir la seva versió més recent, la Vision P6, que ha afegit noves funcions com el suport de punt flotant vectorial i altres funcions per a xarxes neuronals convolutives.. Els primers productes haurien de sortir en breu.
Microsoft va parlar sobre els detalls del maquinari per als seus auriculars HoloLens, dient que utilitzava un processador Intel Atom Cherry Trail de 14nm que feia funcionar Windows 10 i un concentrador de processos personalitzat Holographic Processing Unit (HPU 1.0), fabricat per TSMC en un procés de 28nm. Inclou 24 nuclis DSP Tensilica.
Una de les diapositives de Cadence va mostrar-me especialment una presentació de diferències en el rendiment i l'eficiència de les GPU, FPGA i diferents tipus de DSP en termes d'operacions de multiplicacions, un dels blocs bàsics de les xarxes neuronals. Tot i que, evidentment, és autònom (com ho són totes les presentacions de venedors), però va assenyalar com varien les diferents tècniques en termes de velocitat i eficiència (rendiment per watt), sense oblidar el cost i la facilitat de programació. Aquí hi ha moltes solucions per a diferents enfocaments, i serà interessant veure com s’estranya els darrers anys.