Vídeo: BIG DATA - архитектор матрицы (De novembre 2024)
Una de les coses que em va impressionar a la Cimera de Tecnologia Empresarial de Bloomberg d’ahir va ser el focus en tractar les dades de maneres noves, és a dir, en tractar el que sovint s’anomena "big data".
Algunes de les converses van tractar el valor de les grans dades, i si es tractava d'una "oportunitat de bilions de dòlars", mentre que d'altres van tractar els reptes específics que les organitzacions i la indústria en general es van enfrontar a desplegar més àmpliament aquestes noves tècniques.
Gerard Francis, responsable mundial de Bloomberg Enterprise Solutions, Bloomberg LP va començar la jornada al suggerir que el més important que poden fer les empreses és "capitalitzar el valor de les dades mitjançant la seva utilització" i centrar-se en l'accés, la qualitat i el flux de dades dins d’una organització. En els panells posteriors, es va parlar de noves eines que tracten les dades, així com de problemes específics en l’emmagatzematge, la gestió i la cerca de persones que s’ocupen de les dades.
En un panell general sobre les tendències empresarials, Dwight Merriman, president i cofundador de MongoDB, va dir que la capa de dades de la pista d’aplicacions està tenint "la major interrupció i canvi que hem vist durant 25 anys". Va dir que les empreses han estat utilitzant bases de dades relacionals durant 25 anys o més, fent que la tecnologia més antiga de la pila. Però ara hi ha coses amb l'emmagatzematge basat en fitxers com Hadoop i les noves tecnologies de bases de dades, sovint agrupades com a "NoSQL". Va assenyalar que Big Data no tracta de "gran", sinó de la forma de les dades, els tipus de dades i la orientació cap a la gestió de dades en temps real.
El responsable d'informació de Google, Benjamin Fried, va acordar que la majoria de les empreses no tenen problemes de "gran dada". Va dir que molts dels conjunts de dades (amb dades com les dades de recursos humans i les dades financeres) no són tan grans. L’important és la flexibilitat que necessiteu per tractar adequadament les dades.
Què és Big Data de totes maneres?
Aquest concepte, que és tan important com la mida de les dades, es va fer ressò en un altre panell més tard del dia. Allà, els participants van coincidir en què les empreses han estat ocupant-se d’aplicacions pesades en dades durant molt de temps, però l’escala ha canviat recentment. Per exemple, Mark F. Bregman, vicepresident sènior i cap de tecnologia de Neustar, va assenyalar que algunes empreses "estan emmagatzemant tot" amb l'esperança que resulti valuós.
"El gran està millor definit com a complexitat", segons Gary Bloom, conseller delegat i president de MarkLogic. Va assenyalar que moltes de les aplicacions "big data" inclouen molts tipus de dades diferents, però no el tipus de volum que normalment se sol parlar en aplicacions "big data".
Va citar un exemple de trànsit aeri que combina dades meteorològiques, dades de l'aeroport, dades geospatials, dades de vols, dades de reserves d'aerolínies i dades socials. Va assenyalar que el fet de tractar dades heterogènies era realment difícil de fer amb les bases de dades relacionals tradicionals, fent ressò dels comentaris anteriors del Merriman de MongoDB que aquest era el "primer canvi generacional de la base de dades en 25 anys", des que passàvem del mainframe a l'era de les bases de dades relacionals.
Va assenyalar que moltes persones parlen de dades de mitjans socials, però realment cal combinar-ho amb altres dades per tenir realment alguna cosa sobre la qual pugueu treure profit. Combinar aquestes dades és "el valor real".
Per descomptat, algunes aplicacions comporten molta informació, amb Bregman que diu que l'heterogeneïtat només és un factor. Va citar dades DNS, que poden generar fàcilment 8 TB d'informació al dia, i la necessitat d'emmagatzemar aquestes coses a Hadoop. Bregman i els altres van assenyalar que quan es tracta de "capitalització de dades", el valor real no està en les dades brutes, sinó que es troba en les analítiques quan es converteix en alguna cosa que podeu utilitzar. Els altres del grup van estar d’acord.
Mark Palmer, director general de Streambase, va dir que combinar grans quantitats de dades amb analítica de streaming era important en moltes aplicacions; i vam parlar sobre el valor addicional que es pot crear combinant analítiques tradicionals i en temps real.
Però va coincidir que la complexitat de les dades és un problema. Va citar com Vivek Ranadivé, que dirigeix Tibco (que ara és propietari de Streambase), va comprar en part un equip de bàsquet per esbrinar com la tecnologia pot millorar l'experiència del fan. Va tornar a parlar de "esborrar diferents tipus de dades", a partir d'un flux de Twitter, però també d'aprofitar un altre tipus de dades.
Bloom va assenyalar que tot depèn de l'aplicació, dient que "la latència està en els ulls de l'espectador". Algunes aplicacions han de analitzar les dades del fil abans que fins i tot arribi a la base de dades, mentre que d’altres no.
Bregman va plantejar el problema que, en comptes de ser difícil moure els recursos de càlcul, ara cada cop és més difícil moure les dades. Va assenyalar que per a moltes aplicacions, el "bloqueig" és la ubicació de les dades. Un cop emmagatzemi les dades en un núvol públic, és molt difícil moure-les. Com a resultat, va dir, moltes organitzacions volen emmagatzemar quantitats massives de dades a les seves pròpies ubicacions, per després poder traslladar-se a diferents proveïdors per obtenir la funcionalitat de càlcul. Aprofitant un terme del Bloom de MarkLogic, va parlar de com les organitzacions podrien necessitar un "centre de dades centrat en les dades" com a lloc on guardeu quantitats massives de dades.
El Big Data és una "oportunitat de trilions de dòlars?"
Porter Bibb de MediaTech Capital Partners, Cloudera's Doug Cutting, Snaplogic, Gaurav Dhillon i Bloomberg Link, Jason KellyUn altre grup va discutir les oportunitats i els reptes que aporten les grans dades, reflexionant sobre un comentari de Porter Bibb, gerent de partner de MediaTech Capital Partners. Bibb va dir que hi ha més que un bilió de dòlars de beneficis per a les empreses que utilitzen les noves tècniques. Fins a la data, va dir, "ni tan sols hem començat a aprofitar el potencial que ofereix aquesta tecnologia".
Bibb va parlar de com era important que les organitzacions alineessin la seva estratègia de dades amb l'estratègia empresarial i es preocupava que la majoria de sistemes empresarials i governamentals estiguessin malalinats.
En aquella primera sessió, Scott Weiss d'Andreessen Horowitz va dir que "Hadoop és com l'emmagatzematge criogènic", de manera que el moderador Jason Kelly de Bloomberg Link va preguntar a l'arquitecte cap de Cloudera, Doug Cutting, que va ser un dels creadors d'Hadoop en primer lloc, com va veure ell. això.
Tallar va dir que Hadoop permetrà que la gent treballi amb més dades. Va dir que les organitzacions estan traient dades fora de cinta, en lloc de fer-les en línia i fer-les servir. Els clients passen de treballar amb 90 dies de dades a cinc o deu anys de dades en un "arxiu actiu".
Alguns dels problemes concrets sobre com es tractaven totes aquestes dades van tornar a aparèixer en aquest panell. El conseller delegat de Snaplogic, Gaurav Dhillon, va parlar de "gravetat de dades", dient que no té sentit agafar dades locals a Hadoop i traslladar-les al núvol. Però, al mateix temps, si hi ha dades al núvol, com ara anàlisis de clics de clics, no té sentit moure-les a les instal·lacions locals. Com a resultat, va dir, veia molt poques "oportunitats transfrontereres" en traslladar les dades.
Tallar va dir que no creia que hi hagi una escassetat de científics de dades. En canvi, va dir que hi ha molta gent que entén les matemàtiques i els negocis, però no tenen eines. Podeu conèixer els conceptes bàsics de les eines i què fan d’aquí a un parell de setmanes, va dir, però comprendre el vostre negoci requereix anys. Però hi ha molta gent que ho entén.
Dhillon també va reflectir la seva preocupació per la legislació sobre quina informació es pot emmagatzemar. Va dir que alguns mercats verticals requereixen que es guardi informació local als locals, però estava preocupat per coses com ara requisits per a no allunyar les dades del seu país d'origen. Molt d’això suposa una reacció excessiva a coses com ara les revelacions de Snowden i les incompliments de dades, va dir, i va assenyalar que “la pressa per legislar mai és bona”.
Preguntat sobre si li preocupava que els incompliments de Snowden i Target temessin els clients per les dades, Cutting va dir que estava preocupat perquè tanta gent estigui preocupada. Va dir que molta gent té por de la tecnologia, i va resultar un fracàs de la indústria deixar còmodes els clients en la idea que no es feien servir les seves dades. "No cal que sigui espantós", va dir.
Al final, es va debatre sobre les valoracions, amb Bibb que va suggerir que la recent inversió d'Intel a Cloudera era un "gran", ja que valida el que fa la companyia. Va dir que altres grans empreses com Oracle, IBM, Microsoft i Amazon estaven girant al voltant de les empreses d’analítica predictiva. "La pressa d'or tot just comença."
Dhillon va dir que les valoracions reflecteixen el que aporten les empreses de lampisteria al gran mercat de dades. Va dir que estava feliç de veure que aquests nois de "recollida i pala" obtinguessin bones valoracions, però va dir que tenia una mica de por que les valoracions avancessin al mercat.
Bibb va dir que pensava que es podrien sobreexposar grans dades als mitjans de comunicació, però no es troba en la "c-suite" (és a dir, que són consellers delegats, CFO i altres executius més importants). Va dir que té un "potencial potencial econòmic enorme que encara no s'ha de descobrir. ".