Casa Negocis Fonaments bàsics de dades: com elaborar un pla de governança de dades

Fonaments bàsics de dades: com elaborar un pla de governança de dades

Vídeo: Harvard i-lab | Data Visualization for Non-Programmers (Setembre 2024)

Vídeo: Harvard i-lab | Data Visualization for Non-Programmers (Setembre 2024)
Anonim

Hem escrit molt sobre el paper de les dades en els negocis moderns. Des de startups i petites i mitjanes empreses (SMB) fins a grans empreses, les dades i les anàlisis de dades són més accessibles per a empreses de totes les mides que mai. Això és, en part, gràcies a l’auge de les eines d’intel·ligència empresarial d’autoservei (BI) i de visualització de dades.

Tot i que, abans de poder utilitzar eines de BI o executar analítiques de predicció en un conjunt de dades, hi ha una gran quantitat de factors que poden separar. Comença simplement per comprendre què és Big Data, què no ho és (suggeriment: no una bola de cristall) i com gestionar l'emmagatzematge de dades, l'organització, els permisos i la seguretat dins de l'arquitectura de dades de l'empresa. Aquí és on arriba la governança de dades. Els processos mitjançant els quals assegureu que la governança dins d’una empresa difereixi amb qui parli. Però, en el seu nucli central, la governança de dades es refereix a la confiança i la rendició de comptes de dades, casada amb bones pràctiques de seguretat de dades.

Vaig parlar amb Hortonworks i MapR, dos dels majors proveïdors d’empresa Hadoop del mercat. Scott Gnau, cap de tecnologia de Hortonworks, i Jack Norris, vicepresident sènior de dades i aplicacions de MapR, van explicar cadascú què significa el govern de dades per a les seves organitzacions. Van debatre sobre com afrontar el complex repte d’assegurar el govern de dades dins de les complexes arquitectures de dades i jerarquies organitzatives d’una gran empresa.

Què és exactament Governança de dades i per què ho necessitem?

El govern significa assegurar-se que les dades empresarials estan autoritzades, organitzades i autoritzades en una base de dades amb el mínim d'errors possibles, mantenint tant la privadesa com la seguretat. No és un equilibri fàcil trobar, sobretot quan la realitat d’on i com s’allotgen i processen les dades està constantment fluïda. Norris de MapR va explicar per què les empreses han de mirar de governar les dades des d'un nivell més alt i centrar-se en el pipeline de dades més gran en joc.

"Quan comenceu a escalar la varietat i la velocitat del Big Data amb què tractem, haureu de tenir una governança de dades, però és en aquest context més ampli. Quines són les dades que teniu, qui hi té accés i com esteu? gestionar el llinatge d'aquestes dades al llarg del temps? " va dir Norris. "Des d'un punt de vista de governança de dades, podeu tenir diferents etapes de les dades que existeixen en un sistema que es pot capturar de forma instantània, de manera que podeu tornar en qualsevol moment del pipeline. Es tracta de crear auditivitat i control d'accés a la plataforma de dades. Assegureu que el descobriment de dades i les analítiques siguin transparents, tant si sou un gestor d’empreses que mira els conjunts de dades financeres com si és un científic que treballa amb dades aigües amunt ".

Font: Rimes. Feu clic a la imatge per a la vista completa

Gnau d’Hortonworks va introduir un punt similar. Tant si es tracta d’un magatzem de dades com d’una arquitectura del llac de dades, el govern de les dades consisteix en equilibrar forces oposades. Es tracta d’accés a dades sense restriccions per impulsar la innovació i obtenir informació i permisos granulars i privadesa per protegir simultàniament aquestes dades.

"Compareu i contrasteu el vell món del govern tradicional a l'espai de dades; va ser una mica més fàcil", va dir Gnau. "Les dades solien estar ben definides pel paper o l'aplicació laboral. Al nou món, obté el màxim valor quan els científics de dades tenen accés a tantes dades com sigui possible, i trobar aquest mitjà feliç és molt important.

"Està impulsant un paradigma completament nou en com cal abordar la governança", va afegir Gnau. "En aquest nou món, considero que s'han de tractar temes de governança i seguretat. Moltes empreses encara estan lluitant per avançar per permetre que els seus científics de dades siguin efectius per trobar aquests nous casos d'ús., que comprendre com gestionar la seguretat, la privadesa, el govern: totes les coses que són importants des d'una perspectiva de fons i també des de la reputació de l'empresa ".

Com suposa que el pla de governança de dades empresarials inclogui i satisfà totes aquelles forces oposades? Abordant cada requisit de manera metòdica, un pas a la vegada.

Com elaborar un pla de govern de dades

Hortonworks, MapR i Cloudera són els tres principals jugadors independents de l’espai Hadoop. Les empreses tenen les seves pròpies esferes d’influència quan es tracta de governança de dades. MapR ha publicat diversos llibres blancs sobre el tema i ha creat una governança de dades al llarg de la seva plataforma de dades convergents, mentre que Hortonworks té la seva pròpia solució de govern i seguretat de dades i co-va fundar el Data Governance Initiative (DGI) el 2015. Això va provocar l’obertura -Source Apache Atlas que ofereix un marc de govern de dades obert per a Hadoop.

Però quan es tracta de com cada proveïdor elabora diverses estratègies de govern i dades de seguretat, Gnau i Norris van parlar de la mateixa manera. A continuació, es mostren els passos combinats que Hortonworks i MapR recomanen a les empreses a tenir en compte a l’hora de crear un pla de govern de dades.

El gran: accés i autorització de dades granulars

Les dues empreses coincideixen en que no es pot tenir un govern de dades efectiu sense controls granulars. MapR ho aconsegueix principalment mitjançant les expressions de control d'accés (ACE). Tal com va explicar Norris, els ACE utilitzen l’agrupament i la lògica booleana per controlar l’accés i l’autorització de dades flexibles, amb permisos basats en papers i configuracions de visibilitat.

Va dir pensar-ho com un model de Gartner. A l’eix Y a l’extrem inferior hi ha un govern estricte i una baixa agilitat, i a l’eix X a l’extrem superior hi ha una major agilitat i menys governabilitat.

"Al nivell baix, protegiu les dades sensibles obfuscant-les. Al capdamunt, teniu contractes confidencials per a científics de dades i analistes de BI", va dir Norris. "Solem fer-ho amb funcions d'emmagatzematge i vistes diferents en què tanqueu les dades brutes a la part inferior del possible i, a poc a poc, proporcioneu més accés fins que, a l'extrem superior, ofereu una visibilitat més àmplia als administradors. Però, com podeu donar accés a les persones adequades?

"Si ens fixem en una llista de control d'accés avui, diria una cosa així com" tothom en enginyeria pot accedir a això ", va afegir Norris. "Però si voleu que tingueu accés a uns quants directors d'un projecte dins de les TI o a tots, tret de la persona, heu de crear un grup especial. És una manera excessivament complicada i complicada de mirar-ne l'accés."

És per aquí que es concedeix la concessió de drets d'accés a diferents nivells i grups, segons Norris. "Hem combinat els ACE amb les diverses maneres d’accedir a les dades: mitjançant fitxers, taules, fluxos, etc., i hem implementat vistes sense còpies separades de les dades. Així, proporcionem visualitzacions sobre les mateixes dades en brut i les visualitzacions. pot tenir diferents nivells d'accés. Això proporciona una seguretat integrada més directa."

De forma similar, Hortonworks gestiona l'accés granular. Al integrar Apache Atlas per a la governança i Apache Ranger, Gnau va dir que l'empresa gestiona l'autorització a nivell empresarial mitjançant un panell de vidre únic. La clau, va dir, és la possibilitat de concedir contextualment accés a la base de dades i a etiquetes de metadades específiques mitjançant polítiques basades en etiquetes.

"Una vegada que algú estigui a la base de dades, es tracta de guiar-los a través de les dades a les quals hauria de tenir accés rellevant", va dir Gnau. "Les polítiques de seguretat de Ranger a nivell d'objectes, de gran grau i en tots els llocs entre tots poden tractar-ho. Fixar aquesta seguretat en la governança és on les coses resulten realment interessants.

"Per escalar en grans organitzacions, heu d'integrar aquests rols amb l'etiquetatge de governança i metadades", va afegir Gnau. "Si em registro des de Singapur, potser hi ha diferents regles basades en les lleis de privadesa o l'estratègia corporativa locals. Un cop una empresa defineix, entén i entén aquestes regles des d'una perspectiva holística de dalt a baix, podeu separar l'accés basat en estableix regles específiques mentre s’executa tot dins de la plataforma principal."

Font: IBM Big Data & Analytics Hub. Feu clic a la imatge per a la vista completa

2. Seguretat perimetral, protecció de dades i autenticació integrada

La governança no passa sense la seguretat final. Gnau va dir que és important construir un bon perímetre i tallafoc al voltant de les dades que s’integrin amb els sistemes i normes d’autenticació existents. Norris va acordar que, quan es tracta d'autenticació, és important que les empreses es sincronitzin amb sistemes provats.

"Sota l'autenticació, es tracta de com us integreu amb LDAP, Active Directory i serveis de directori de tercers", va dir Norris. "També admetem el nom d'usuari i les contrasenyes de Kerberos. L'important no és crear una infraestructura totalment separada, sinó que us integreu amb l'estructura i els sistemes de palanquejament existents com Kerberos."

3. Xifratge i Tokenització de dades

El següent pas després d’assegurar el vostre perímetre i autenticar tot l’accés de dades granular que concediu: Assegureu-vos que els fitxers i la informació d’identificació personal (PII) estiguin xifrats i tokenitzats d’extrem a extrem a través del pipeline de dades. Gnau va discutir com Hortonworks assegura dades de PII.

"Una vegada que superes el perímetre i tinguis accés al sistema, poder protegir les dades de PII és extremadament important", va dir Gnau. "Heu de xifrar i tokenitzar aquestes dades perquè, independentment de qui tingui accés, puguin executar les analítiques necessàries sense exposar cap d'aquestes dades PII al llarg de la línia."

Quant a la manera d’accedir de manera segura a les dades xifrades en moviment i en repòs, Norris de MapR va explicar que també és important tenir en compte casos d’ús com ara còpia de seguretat i recuperació de desastres (DR). Va discutir un concepte dels anomenats volums lògics de MapR, que poden aplicar polítiques de governança a un creixent grup de fitxers i directoris.

"Al nivell més baix, MapR ha arxivat la replicació WAN per a DR i instantànies coherents en totes les dades que es poden configurar a diferents freqüències per directori o volum", va dir Norris. "És més ampli que la governança de dades. Podeu tenir un clúster físic amb directoris i, a continuació, el concepte de volum lògic és una unitat de gestió realment interessant i una manera d'agrupar les coses mentre controleu la protecció i la freqüència de dades. És una altra fletxa de les dades de l'administrador informàtic. exigència de governança."

4. Auditoria i anàlisis constants

Tenint en compte la imatge més àmplia de governança, tant Hortonworks com MapR van dir que l'estratègia no funciona sense auditar. Aquest nivell de versabilitat i rendició de comptes a cada pas del procés és el que permet a les TI "governar" les dades en lloc de simplement establir polítiques i controls d'accés i esperar el millor. També és com les empreses poden mantenir les seves estratègies actuals en un entorn en què cada dia canvien les dades i les tecnologies que utilitzem per gestionar i analitzar-les.

"L'última peça d'una estratègia de govern modern és el registre i el seguiment", va dir Gnau. "Ens trobem a l'inici de Big Data i IoT, i és fonamental poder fer un seguiment de l'accés i reconèixer els patrons de les dades, de manera que, a mesura que cal posar al dia l'estratègia, estem per davant de la corba."

Norris va dir que l’auditoria i l’anàlisi poden ser tan senzilles com el seguiment de fitxers de notificació d’objectes JavaScript (JSON). No totes les dades val la pena rastrejar i analitzar, però la vostra empresa no sabrà mai, fins que no identifiqueu una visió que canvia el joc o que tingui lloc una crisi i haureu d'executar una pista d'auditoria.

"Cada fitxer de registre JSON està obert per a l'anàlisi i tenim Apache Drill per consultar els fitxers JSON amb els esquemes, per la qual cosa no és un pas de TI manual per configurar l'anàlisi de metadades", va dir Norris. "Quan s'inclouen tots els esdeveniments d'accés a les dades i totes les accions administratives, hi ha un ampli ventall d'analítiques".

5. Una arquitectura de dades unificada

En última instància, l’oficial de tecnologia o l’administrador d’informàtica que supervisi una estratègia de govern de dades empresarials hauria de pensar en les característiques d’accés granular, autenticació, seguretat, xifratge i auditoria. Però l'oficial de tecnologia o l'administrador informàtic no hauria d'aturar-se aquí; més aviat, aquesta persona també hauria de pensar com cada un d’aquests components s’informa en la seva arquitectura de dades més gran. També hauria de pensar com aquesta infraestructura ha de ser escalable i segura: des de la recollida i emmagatzematge de dades fins a la BI, analítica i serveis de tercers. Gnau va dir que la governança de dades es refereix tant a repensar l'estratègia i l'execució com a la tecnologia mateixa.

" Va més enllà d'un sol vidre o d'una col·lecció de normes de seguretat", va dir Gnau. "És una arquitectura única on creeu aquests rols i es sincronitzen a tota la plataforma i a totes les eines que aporteu. La bellesa d'una infraestructura governada de manera segura és l'agilitat amb la qual es creen nous mètodes. A cada nivell de la plataforma, o fins i tot a un entorn núvol híbrid, teniu un punt de referència únic per entendre com heu implementat les vostres regles. Totes les dades passen per aquesta capa de seguretat i govern."

Fonaments bàsics de dades: com elaborar un pla de governança de dades