Vídeo: Inside a Google data center (De novembre 2024)
La revolució del Big Data ha redefinit el funcionament de les empreses; les dades subratllen tot. No només les eines de codi obert com Apache Hadoop i Spark han facilitat les quantitats de dades més fàcils de recollir, processar i emmagatzemar en temps real, sinó que les eines d’intel·ligència empresarial (BI) i visualització de dades han començat a ajudar-nos a rascar la superfície d’anàlisi. i transformant aquestes dades per informar sobre les decisions bàsiques del negoci.
Tot i que, malgrat la evolució de la Big Data i la tecnologia de BI, encara estem tractant volums tan massius de dades que constantment es componen que trobar els punts adequats per analitzar encara se sent com bussejar agulles en un paller sense fi. La solució? Redissenyar el paller.
Introduïu llacs de dades, un nou tipus d’arquitectura empresarial basada en núvol que estructura les dades d’una manera més escalable que facilita la seva experimentació; fa que sigui més obert a l'exploració i la manipulació que no pas bloquejat en esquemes i sitges rígids. Nasry Angel, investigadora en arquitectura empresarial de Forrester Research, va explicar per què les empreses adopten arquitectures de llac de dades.
"Sona tòpic, però quan penses en un entorn de dades modern i eficaç, és molt més experimental", va dir Angel. "Heu de poder aprendre ràpidament i fallar ràpidament. En el passat, gestionar dades, sobretot en un magatzem, era tot de qualitat, fins al punt decimal; assegurar-se que tot era completament precís i cert. Es deia perseguir una sola A continuació, es genera un informe perfecte per a píxels i es pot eliminar a 5.000 usuaris.
"Avui en dia, és un procés més científic. Hi aneu amb una hipòtesi sobre les dades que voleu provar i voleu poder jugar amb les dades, barrejar i fer coincidir, per provar coses diferents abans d'anar a produir alguna cosa."
Què hi ha en un llac de dades?
Un llac de dades és un dipòsit d'emmagatzematge. Tot i que, a diferència d’un magatzem de dades o “data mart”, Angel va explicar que els llacs de dades es distribueixen en diversos nodes en lloc de l’entorn fix i estructurat d’un magatzem de dades que es basa en esquemes (vegeu infografia més avall).
"Un llac de dades us permet aplicar un esquema quan escriviu les dades vers un magatzem de dades que requereix que feu un esquema en lectura. Així, essencialment, un magatzem de dades requereix que modifiqueu les dades abans que entengueu el seu context, cosa que no. No té sentit ", va dir Àngel.
Font: JustOne Database, Inc. (Feu clic al gràfic superior per veure la vista completa.)
"Normalment, en un magatzem, teniu professionals informàtics amb els que creuen que són els millors models de dades i no són els usuaris eventuals de les dades. Podeu veure ràpidament com això dificulta la productivitat i el valor empresarial", va afegir. "En última instància, vosaltres i els usuaris comercials heu de ser els que prengueu decisions sobre l'estructura de les dades i, en un llac de dades, primer podeu explorar i esbrinar què hi ha i després esbrinar un esquema per organitzar-lo millor".
Els llacs de dades es construeixen generalment a Hadoop, i les distribucions d’empresa Hadoop com Hortonworks i MapR ofereixen arquitectures de llac de dades. Les empreses també poden crear llacs de dades mitjançant núvols d’Infraestructura com a servei (IaaS), inclosos Amazon Web Services (AWS) i Microsoft Azure. El núvol de càlcul elàstic d'Amazon (EC2) suporta llacs de dades mentre Microsoft té una plataforma dedicada a Azure Data Lake per emmagatzemar i analitzar dades en temps real. Àngel va dir que els llacs de dades s'estan madurant fins al punt de l'espai Big Data on les empreses poden començar a invertir en elles amb una confiança raonable.
"Uns anys enrere, Hadoop era tota la ràbia. Ara estem arribant a un punt en què Hadoop està mercantilitzat", va dir Àngel. "La pregunta no és si Hadoop, sinó quan, i què faríeu amb això. Quins tipus d'aplicacions heu de crear a la part superior de Hadoop un cop hagueu obtingut les dades en un lloc com un llac de dades? En aquest moment, es tracta d’utilitzar les dades per desenvolupar aplicacions per satisfer les vostres necessitats de negoci específiques."
Construint a la part superior d’un dipòsit de dades
La part més emocionant del Big Data és tota la possibilitat que es desconnecti. Un cop hàgiu configurat un llac de dades on reproduir i experimentar amb diferents combinacions de dades i resultats empresarials, podeu començar a oferir tècniques d’anàlisi innovadores.
Els algorismes d'aprenentatge automàtic (ML) ja s'estan convertint en part del teixit de la infraestructura del núvol i els investigadors milloren contínuament tècniques d'aprenentatge profund i xarxes neuronals per formar màquines i sistemes de dades per reconèixer patrons complexos. L’analítica predictiu s’està integrant en cada cop més eines de dades i plataformes empresarials, que s’utilitzen per a tot, des de la puntuació predictiva i la segmentació automatitzada per a la gestió de relacions amb els clients (CRM) fins a identificar les tendències del mercat financer i atrapar preventivament els errors mecànics de la maquinària.
Tot això passa per sobre de qualsevol tipus de magatzem de dades que la vostra empresa alimenta i escala segons les seves necessitats. Àngel va parlar d'alguns casos d'ús del món real en els quals ha vist com els llacs de dades canvien el funcionament de les organitzacions.
"Vaig estar treballant amb una editorial que compta amb una cartera de revistes diferents, tenen una publicació per a advocats, una altra per a comptables, una altra per a consultors, etc., i cada publicació tenia el seu propi magatzem de dades. Efectivament, cada publicació tenia la seva. sitja ", va explicar Àngel.
"Així que vam extreure totes les dades d'un magatzem i les vam posar en un llac de dades, i el llac de dades els va permetre veure a les sitges. Van poder explorar les dades i fer descobertes de dades, i es van adonar que a través de totes aquestes diferents publicacions, Els clients de totes les revistes estaven interessats en la ciberseguretat. La lectura de la ciberseguretat va ser forta en tots aquests diferents rols. I què van fer? Van fer de la ciberseguretat el tema de la seva conferència anual ".
Un altre exemple de què va parlar Angel és el comerç electrònic. Un altre client, un minorista d’art en línia, enviava un munt d’informació a un llac de dades i l’utilitzava no només com a dipòsit, sinó com a llenç de tota mena per a obtenir informació empresarial. El minorista va aportar dades de transaccions (comandes, factures, pagaments, etc.), dades del flux de clics (successió de clics i pàgines de cada visitant del lloc web), i dades del magatzem de dades del minorista tot al llac, i les van utilitzar de manera concertada per combatre el carret de la compra. abandonament i conversions.
"Voleu construir sobre un llac de dades i utilitzar-lo per formular informació empresarial complexa", va dir Àngel. "El minorista d'art va poder mirar les dades del flux de clics d'un client i fer coincidir els clics amb els perfils del client, després utilitzar dades transaccionals per veure què va comprar el client en el passat i utilitzar aquestes dades per executar campanyes de correu electrònic molt específiques. Així, si un client s'abandona. el seu carretó, el comerciant podia fer el seguiment dues hores més tard i dir: "Vam veure que esteu comprovant aquest Picasso; aquí teniu l'enllaç si voleu tornar-lo a mirar".
Els llacs de dades són universalment aplicables a tot tipus de casos d’ús empresarial. Però, quan un oficial tècnic en cap (CTO) o un oficial de seguretat de la informació (CISO) consideri migrar cap a l'arquitectura, Angel ha destacat que els magatzems de dades encara no estan obsolets, ni per cap tram. Per a la majoria d’organitzacions empresarials, tant si utilitzeu un proveïdor de núvols com una distribució personalitzada Hadoop, les empreses encara necessiten totes dues coses.
Els llacs de dades us ofereixen accés a visions inigualables mitjançant l’eliminació dels límits de conformació de les dades a un esquema determinat i ofereixen un cost total de propietat molt inferior donat l’ús d’emmagatzematge de núvols barat i flexible com ara AWS per escalar amunt i avall, mentre que només pagant el poder de processament que realment utilitzeu. És més car fer servir un magatzem de dades i, per tant, fer que els professionals de les TI siguin més selectius sobre quines dades entren i surten. Però, per a les dades més importants en les empreses, no és gens dolent.
"El magatzem de dades té avantatges en termes de seguretat i és una eina molt fàcil per controlar la governança de dades", va dir Angel. "Així que encara voleu guardar la informació més sensible al magatzem, les coses fonamentals per a la missió. Però quan es tracta de noves oportunitats de negoci i es descobreixen visions ocultes, voleu aprofitar un llac de dades".