Taula de continguts:
Vídeo: Base de dades (De novembre 2024)
Les dades i la intel·ligència comercial (BI) són dues cares de la mateixa moneda. Els avenços en emmagatzematge, processament i anàlisi han democratitzat les dades fins al punt que no cal que sigui un professional de base de dades o un científic de dades per treballar amb conjunts de dades massius i obtenir informació. Encara hi ha una corba d’aprenentatge, però les eines d’autoservei de BI i de visualització de dades redefineixen la forma en què les empreses s’aprofiten de totes les dades que recopilen en analítiques d’acció. Tot i això, hi ha una diferència entre una base de dades de BI o una empresa de bases de dades que analitza avançades analítiques i una base de dades d’intel·ligència artificial (AI) creada específicament per a la formació d’aprenentatge de màquines (ML) i models d’aprenentatge profund.
Els algorismes de ML estan teixits al teixit de bona part del programari actual. Les experiències dels consumidors es fonen amb la IA mitjançant assistents virtuals i, en el programari de negocis, hi ha exemples com Salesforce Einstein que actua com una capa intel·ligent sota la cartera de gestió de relacions amb els clients (CRM) de l’empresa. Els gegants tecnològics, inclosos Google i Microsoft, estan avançant encara més el nostre futur intel·ligent, no només amb la investigació, sinó reescrivint com funciona la seva tecnologia des de la base de l'AI.
Un dels reptes de la màquina d’entrenament i els models d’aprenentatge profund és el volum de dades exclusiu i la potència de processament que necessiteu per formar una xarxa neuronal, per exemple, en el reconeixement complex de patrons en camps com la classificació d’imatges o el processament del llenguatge natural (PNL). Per tant, les bases de dades de l'AI comencen a aparèixer al mercat com a forma d'optimitzar el procés d'aprenentatge i formació de l'AI per a empreses. Hem parlat amb el proveïdor de bases de dades relacionals accelerat per GPU Kinetica, que ha construït una base de dades AI pròpia, i amb l'expert expert en bases de dades i la base de dades de PCMag, Pam Baker, per desmitificar què és i com funciona una base de dades d'AI en comparació amb bases de dades tradicionals. El que és més important, vam demanar la seva ajuda per classificar-se a través del bombo i el parlar de màrqueting per determinar si aquesta tecnologia emergent té o no un valor empresarial real.
Què són les bases de dades AI?
La naturalesa que canvia ràpidament de l’espai d’AI pot dificultar l’establiment de la terminologia. Sovint se senten termes com ara ML, aprenentatge profund i IA utilitzats de forma intercanviable quan, de fet, encara són en desenvolupament de tècniques sota el paraigua més gran de la IA. Com a tal, Baker va dir que hi ha dues definicions molt diferents de què depèn d'una base de dades d'AI en funció de qui parli: una pràctica i l'altra més detallada.
"A la indústria hi ha un ampli consens sobre el fet que una base de dades d'AI seria una que funcionaria totalment fora de les consultes de llenguatge natural. La interfície d'usuari seria tal que no haureu de confiar en termes de cerca i frases clau per trobar el la informació que necessiteu, que permet a l'usuari convocar conjunts de dades amb PNL ", va dir Baker. "Podríeu fer una argumentació molt limitada segons la qual IBM Watson pot presentar consultes de llenguatge natural al sistema, però heu d’estar connectat a les dades i escollir les dades vosaltres mateixos. Així, ara mateix, aquesta definició és un tram".
La definició més pràctica, i el tema d’aquest explicador, és essencialment utilitzar una base de dades basada en propòsits per accelerar la formació del model ML. Algunes companyies tecnològiques ja desenvolupen xips AI dedicats a alleujar la forta càrrega de processament de nous productes de maquinari a mesura que els proveïdors desenvolupen més funcions basades en IA que requereixen una potència de càlcul important. Des del punt de dades, l’ús d’una base de dades d’AI pot ajudar-vos a combatre millor el volum, la velocitat i els reptes complexos de govern i gestió de dades associats a la formació de ML i a models d’aprenentatge profund per estalviar temps i optimitzar recursos.
Crèdit d'imatge: Todd Jaquith a Futurism.com. Feu clic per ampliar la infografia completa
"Ara mateix hi ha molts esforços per accelerar l'entrenament en ML mitjançant diverses tàctiques diferents", va explicar Baker. "Un és separar la infraestructura dels investigadors de l'AI fent la codificació, de manera que les funcions automatitzades estiguin gestionant la infraestructura i entrenant el model ML. Així, en lloc de passar com tres mesos, potser estareu mirant 30 dies o 30 minuts."
Kinetica desglossa aquesta idea en una plataforma de bases de dades integrada optimitzada per a modelacions de ML i d'aprenentatge profund. La base de dades d'AI combina el magatzem de dades, les analítiques avançades i les visualitzacions en una base de dades a la memòria. Mate Radalj, vicepresident i enginyer de programari principal del grup tecnològic avançat de Kinetica, va explicar que una base de dades d’AI hauria de ser capaç d’ingestionar, explorar, analitzar i visualitzar dades complexes de ràpida velocitat en mil·lisegons. L’objectiu és reduir costos, generar nous ingressos i integrar models de ML per tal que les empreses puguin prendre decisions més eficients i basades en dades.
"Una base de dades d'AI és un subconjunt d'una base de dades general", va dir Radalj. "Ara mateix, les bases de dades de l'AI són molt populars. Però moltes solucions utilitzen components distribuïts. Spark, MapReduce i HDFS sempre giren cap endavant i no cap a la memòria. No tenen la confluència de factors com la nostra base de dades, que Es va crear des de la base amb CPU i GPU estretament integrades en una sola plataforma.El benefici d’alt nivell per a nosaltres és l’aprovisionament més ràpid i una menor petjada de maquinari de la formació basada en models, amb una ràpida solució i anàlisis integrats a la mateixa plataforma."
Com funciona una base de dades d’AI
Hi ha diversos exemples de bases de dades d’AI en pràctica. Microsoft Batch AI ofereix una infraestructura basada en núvol per formar models d'aprenentatge profund i ML que utilitzin GPU Microsoft Azure. La companyia també compta amb el seu producte Azure Data Lake per facilitar que les empreses i científics de dades processin i analitzin dades mitjançant una arquitectura distribuïda.
Un altre exemple és l’enfocament automàtic de Google, que fonamentalment és reenginyeria de la forma en què s’entrenen els models ML. Google AutoML automatitza el disseny del model ML per generar noves arquitectures de xarxes neuronals basades en conjunts de dades particulars i, a continuació, provar i iterar aquestes milers de vegades per codificar sistemes millors. De fet, l’IA de Google ara pot crear models millors que els investigadors humans.
"Mireu Google AutoML: ML escrivint codi ML per tal que ni tan sols necessiteu gent", va dir Baker. "Això et dóna una idea de quina diferència extrema hi ha en el que fan els proveïdors. Alguns intenten passar analítiques avançades com a ML, i no ho és. I d'altres fan ML a un nivell tan avançat que està més enllà del que la majoria les empreses poden comprendre en aquest moment ".
Després hi ha Kinetica. La startup amb seu a San Francisco, que ha recaptat 63 milions de dòlars en finançament de capital risc (VC), proporciona una base de dades SQL d’alt rendiment optimitzada per a la ingestió i analítica de dades ràpides. Kinetica és el que Radalj descrivia com una base de dades i una plataforma de computació distribuïda de processament massiu paral·lel (MPP) en què tots els nodes disposen de dades de memòria, CPU i GPU co-localitzades.
Radalj, que explica la base de dades d'una IA diferent de la base de dades tradicional, es basa en tres elements bàsics:
- Ingestió accelerada de dades,
- Co-localitat de dades a la memòria (processament paral·lel a través de nodes de base de dades), i
- Una plataforma comuna per als científics de dades, enginyers de programari i administradors de bases de dades per iterar i provar models més ràpidament i aplicar resultats directament a les analítiques.
Per a tots els experts en formació de models sense base de dades i en models de IA llegint això, Radalj va desglossar cadascun d’aquests tres elements bàsics i va explicar com la base de dades d’AI es relaciona amb el valor empresarial tangible. La disponibilitat de dades i la ingestió de dades són claus, va dir, perquè la capacitat de processar dades de reproducció en temps real permet que les empreses prenguin mesures ràpides en el coneixement de la IA.
"Tenim un client minorista que volia fer un seguiment de les tarifes de venda per botiga, cada cinc minuts", va dir Radalj. "Volíem utilitzar la IA per predir, en funció de les darreres hores de dades històriques, si haurien de reposar inventaris i optimitzar aquest procés. Però per fer que la reposició d'inventaris impulsada per màquina requereix donar suport a 600-1200 consultes per segon. Nosaltres Som una base de dades SQL i una base de dades de AI, de manera que podem ingerir dades a aquest ritme. Ens trobem amb la missió empresarial que va suposar una aplicació que generava més ROI."
Baker va acordar que ML requereix una gran quantitat de dades, per la qual cosa ingerir-lo ràpidament seria molt important per a una base de dades d'AI. El segon factor, el concepte de "co-localitat de dades a la memòria", explica una mica més. Una base de dades en memòria emmagatzema dades a la memòria principal en lloc d’emmagatzematge de disc separat. Ho fa per processar les consultes més ràpidament, especialment en bases de dades d’analítica i BI. Per co-localitat, Radalj va explicar que Kinetica no separa la CPU i la GPU calculen els nodes enfront dels nodes d'emmagatzematge.
Com a resultat, la base de dades d'AI suporta el processament paral·lel, que imita la capacitat del cervell humà de processar múltiples estímuls, mentre que també es distribueix a través d'una infraestructura de bases de dades escalable. D’aquesta manera s’evita l’empremta de maquinari més gran, resultat del que Radalj va anomenar “enviament de dades” o de la necessitat d’enviar dades endavant i endavant entre diferents components de la base de dades.
"Algunes solucions utilitzen un orquestrador com IBM Symphony per programar treballs en diversos components, mentre que Kinetica posa l'accent en l'enviament de funcions contra recursos localitzats, amb una optimització avançada per minimitzar l'enviament de dades", va dir Radalj. "Aquesta co-localitat es presta a un rendiment i un rendiment superiors, especialment per a consultes pesades molt concurrents sobre grans conjunts de dades."
Pel que fa al maquinari de bases de dades real, Kinetica s'associa amb Nvidia, que té una línia en expansió de GPU AI i que explora oportunitats amb Intel. Radalj també va dir que la companyia vetlla pel maquinari emergent de la tecnologia i la infraestructura basada en núvols com ara les unitats de processament de tensors (TPUs) de Google.
Finalment, hi ha la idea d’un procés de formació d’un model unitari. Una base de dades d’AI només és eficaç si aquests beneficis d’una ingestió i processament més ràpids serveixen per objectius més grans i orientats als negocis per a la ML d’una empresa i els esforços d’aprenentatge profund. Radalj es refereix a la base de dades d'AI de Kinetica com a "plataforma de pipeline model" que realitza allotjament de models basat en ciències de dades.
Tot això es basa en proves i iteracions més ràpides per desenvolupar models ML més precisos. En aquest sentit, Baker va dir que col·laborar de manera unificada pot ajudar a tots els enginyers i investigadors que treballen a formar un model de ML o d’aprenentatge profund que es repeteix amb més rapidesa combinant el que funciona, a diferència de reinventar contínuament tots els passos del procés de formació. Radalj va dir que l’objectiu és crear un flux de treball en el qual la ingestió, la transmissió i la consulta de lots més ràpids generen resultats de models que es poden aplicar immediatament a BI.
"Els científics de dades, els enginyers de programari i els administradors de bases de dades tenen una única plataforma on es pot delimitar de forma neta el treball en ciències de dades, l'escriptura de programari de programari i models i consultes de dades SQL", va dir Radalj. "La gent treballa de manera més neta junts en aquests diversos dominis quan és una plataforma comuna. L'objectiu més sovint que no sigui amb la realització d'aprenentatges basats en ML i l'aprenentatge profund és que voleu utilitzar els resultats d'això –la coeficiència i les variables– conjuntament amb les analítiques. i utilitzeu la sortida per a coses com ara anotar o predir alguna cosa útil."
Hype o Realitat?
El valor de fons d'una base de dades d'AI, almenys de la manera que Kinetica la defineix, és l'optimització dels recursos de càlcul i base de dades. Això, al seu torn, us permet crear millors models de ML i d'aprenentatge profund, formar-los de manera més ràpida i eficaç i mantenir una línia directa sobre com s'aplicarà aquesta IA al vostre negoci.
Radalj va donar l'exemple d'una empresa de gestió de camions o de camions. En aquest cas, una base de dades de l'AI podria processar fluxos massius d'informació en temps real d'una flota de vehicles. A continuació, modelant aquestes dades geospatials i combinant-les amb analítiques, la base de dades podria reorientar dinàmicament camions i optimitzar les rutes.
"És més fàcil subministrar, prototipar i provar ràpidament. La paraula" modelatge "es produeix a l'AI, però es tracta de fer bicicletes mitjançant diferents enfocaments, com més dades, millor - fer-les funcionar una i altra vegada, provant, comparant i Arribant amb els millors models ", va dir Radalj. "A les xarxes neuronals se'ls ha donat vida perquè hi ha més dades que mai. I aprenem a poder computar a través d'ella."
En última instància, la base de dades i la plataforma de pipeline de models conjunta de Kinetica no són més que un enfocament en un espai que pot significar moltes coses diferents segons qui ho demanis. Baker va dir que el repte per al comprador en un mercat que continua evolucionant i que és experimental és esbrinar exactament el que està llançant un venedor de bases de dades de l'AI.
"Com a concepte empresarial, aprenentatge profund, ML, i tot això és un concepte sòlid. El que estem treballant són problemes tecnològics solucionables, fins i tot si encara no els hem resolt", va dir Baker. "No vol dir que es tracta d'un espai madur perquè definitivament no ho és. Diria que el comprador tingueu compte perquè alguna cosa semblant pot ser o no ML. Podria ser analítica avançada de varietats de jardí".
Pel que fa a si les bases de dades de l'AI estan de moda o bé si representen una tendència important cap al lloc on es dirigeixen els negocis, Baker va dir que és una part de les dues coses. Ella va dir que Big Data, com a terme de màrqueting, ara està fora de favor. Baker va dir que ara hi ha una certa conflictivitat de mercat entre analítiques avançades, basades en dades i algorismes de ML i d'aprenentatge profund. Independentment, tant si es tracta d’una base de dades per modelar ML, ni de les AIs autoconscients que ha creat la cultura pop, tot comença i acaba amb les dades.
"Les dades s'utilitzaran en el negoci fins que acabi el temps; és tan fonamental per fer negocis", va dir Baker. "Quan parles de ciència ficció, l'AI és una intel·ligència realitzada per si mateix. És quan comença a parlar de les singularitats i els robots que es fan càrrec del món. Això passi o no, no ho sé. Vaig a sortir això a Stephen Hawking."