Casa Característiques Aquests defensors volen assegurar-se que les nostres dades no desapareixen

Aquests defensors volen assegurar-se que les nostres dades no desapareixen

Taula de continguts:

Vídeo: Registro Domiciliario | Para que Inspeccion de Hacienda NO pueda entrar en tu casa | Derecho Fiscal (Setembre 2024)

Vídeo: Registro Domiciliario | Para que Inspeccion de Hacienda NO pueda entrar en tu casa | Derecho Fiscal (Setembre 2024)
Anonim

A finals de maig d'aquest any, exactament cinc mesos després de la inauguració del 45è president dels Estats Units, un grup de persones preocupades per la posició de la nova administració cap a la ciència i el canvi climàtic van marcar el seu propi aniversari.

No gaire lluny del campus de la Universitat del nord de Texas, a les planes al nord de Dallas, diverses desenes de persones es van reunir a Data Rescue Denton per identificar i descarregar còpies de conjunts de dades federals sobre clima i medi ambient. Aquestes trobades en estil hackathon van rebre una gran atenció els dies immediats anteriors a la inauguració; Denton va ser el cinquanta número d'aquest esdeveniment des de gener.

Organitzant inicialment la preocupació perquè la nova administració pogués esborrar o obscure el clima i altres dades mediambientals, les pitjors temors dels rescatadors de dades semblaven fer-se realitat quan una de les primeres accions de la Casa Blanca Trump va ser eliminar les pàgines de canvi climàtic del seu lloc web. Aleshores, el Departament d’Agricultura dels Estats Units, després d’eliminar els informes d’inspecció de benestar animal del seu lloc web, va respondre a la sol·licitud de la Llei de llibertat d’informació nacional geogràfica amb 1.771 pàgines de material completament redactat.

Qualsevol persona pot accedir als més de 153.000 conjunts de dades federals a través del portal de dades obertes del govern central a data.gov. Però això només és una fracció de les dades que existeixen a la nebulosa de la burocràcia governamental, no m’importa la fracció encara més petita que hi ha en un servidor.

"En algun lloc, aproximadament el 20 per cent de la informació del govern és accessible a la web", va dir Jim Jacobs, el bibliotecari d'informació del govern federal de la Biblioteca de la Universitat de Stanford. "Això és un grup bastant gran que no està disponible. Tot i que les agències tenen els seus propis sistemes de gestió de continguts de wikis i contingut, l'única vegada que n'assabentis és si algú ho FOIA".

Per descomptat, es va capturar molta informació i ara resideix en servidors no governamentals. Entre els esdeveniments i projectes de refugi de dades com ara el rastreig de finalització del 2016, es van arxivar més de 200 TB de llocs web i dades governamentals. Però els organitzadors de rescat van començar a adonar-se que els esforços fragmentats per aconseguir còpies completes de terabytes de dades científiques de les agències governamentals no es podrien mantenir realistes a llarg termini, com si es rescindís el Titanic amb un dèbil.

Així, tot i que Data Rescue Denton va acabar sent un dels últims esdeveniments organitzats del seu tipus, l’esforç col·lectiu ha impulsat una comunitat més àmplia a treballar en concert per aconseguir que les dades governamentals siguin descobertes, comprensibles i utilitzables, va escriure Jacobs en una publicació al bloc.

Buscant a les biblioteques

A la Universitat de Pensilvania, Bethany Wiggin és la directora del Programa Penn en Humanitats Ambientals, on ha estat central del moviment Data Refuge, el creador dels esdeveniments de Rescat de dades. El seu enfoc s'ha canviat ara a aprofitar els marcs nacionals per a esforços a llarg termini en lloc d'episodis periòdics de base local.

"Ens vam adonar de les habilitats que estaven sorgint en diversos llocs fent esdeveniments de dades de rescat que es podrien reduir", va dir Wiggin, sobretot a les biblioteques de recerca. "Però aquests esforços es van produir abans de llançar-nos. El poder del Data Refuge ha estat el d’espessir aquestes connexions; catalitzar projectes de llarga durada i avançar lentament i donar llum sobre la importància que tenen".

Wiggin ha estat ajudant darrerament a lançar la llum Libraries + Network, una associació emergent de biblioteques de recerca, organitzacions de biblioteques i grups de dades obertes catalitzades per ampliar el paper tradicional de les biblioteques en preservar l’accés a la informació. Entre els participants hi ha la biblioteca d’investigació de la Universitat de Stanford, la Biblioteca Digital de Califòrnia i la Fundació Mozilla, amb aportacions i col·laboracions d’entitats tan variades com els Arxius Nacionals i els caps de dades de diverses oficines federals.

Un dels projectes, per exemple, és LOCKSS ("moltes còpies mantenen les coses segures") que Jacobs coordina des de fa diversos anys. Es basa en el mateix principi que una xarxa de biblioteques de fa 200 anys coneguda com a Programa de Biblioteca Dipòsit Federal; aquestes biblioteques són dipòsits oficials de publicacions de l'Oficina d'impressió del govern dels Estats Units (GPO).

LOCKSS, per contra, és una versió digital privada d’aquest sistema, que fins ara consta de 36 biblioteques que recol·lecten publicacions del GPO amb la seva col·laboració. És un model per protegir la informació digital de la supressió o la manipulació mitjançant una gran dispersió física.

"No podeu assegurar la preservació tret que teniu el control del contingut", va dir Jacobs. "Una part del que va fer que les biblioteques de dipòsits fossin importants i útils durant els darrers 200 anys va ser que ningú del govern pogués editar un document sense anar a 1.500 biblioteques i dir" Sí, canvieu aquesta pàgina aquí ".

El programari LOCKSS utilitza verificacions de caché de contingut a nivell de bits i el compara amb el contingut de les altres biblioteques, cosa que Jacobs va dir que ajuda a garantir la preservació a llarg termini mitjançant la reparació d’arxius degradats.

John Chodacki, un altre col·laborador de Libraries + Network, és director de la cura de la Biblioteca Digital de Califòrnia, una instal·lació d'informació virtual que dóna servei als 10 campus del sistema de la Universitat de Califòrnia. Col·laborant amb el desenvolupador de Code for Science and Society, Max Ogden i Philip Ashlock, arquitecte en cap de data.gov, Chodacki assegura que el seu objectiu s'ha centrat en l'ús de data.gov com a carrer a dos.

Primer van demostrar que el propi rescat de dades podria ser molt més eficient si recollia una còpia de la mateixa data.gov i la col·locava en un lloc extern, datamirror.org, amb scripts de control que busquen actualitzacions. Aleshores, Chodacki i col·laboradors també van començar a estudiar si els conjunts de dades aportats i els metadades al mirall podrien alimentar-se en els fluxos de treball data.gov existents de les agències a través de pàgines testes del mirall.

Segons l’ordre executiu d’Obama del 2013 que obligava la publicació de dades llegibles per màquina a data.gov, les agències encara serien responsables de la generació dels registres que figuren en aquest portal; La idea de Chodacki i Ogden és que els conjunts de dades suggerits per grups de persones simplement ajudin a estendre la càrrega de treball.

"No hem de replicar tot l'ecosistema", va dir Chodacki. "El govern federal i aquestes agències han estat tractant les dades des de fa molt més temps del que ha estat fastigós parlar de dades grans, d'una manera molt més robusta que ningú".

Associacions públic-privades

La qüestió de costos és òbvia quan es tracta de com les agències són capaços d’identificar quins conjunts de dades són més valuosos per al públic, i després publiquen enllaços als seus metadades o conjunts de dades reals a través del portal governamental. Un informe de l'Oficina de Pressupostos del Congrés (CBO) per al projecte de llei de l'OPEN Government Data Act, actualment al Senat, que codificaria l'ordre executiva d'Obama a la llei, estima que la seva aplicació total costaria 2 milions de dòlars entre 2018 i 2021.

CBO, va concloure en termes monetaris governamentals, que no representen fonamentalment cap augment real de la despesa.

L’eficiència, però, és una qüestió diferent, una que Ed Kearns de la National Oceanic and Atmospheric Administration està experimentant juntament amb socis privats, com ara Amazon Web Services i Google. Kearns, el principal responsable de dades de NOAA, va dir que l'augment de la disponibilitat i l'ús de les dades de NOAA és un objectiu principal del Big Data Project.

Les empreses identifiquen quins conjunts de dades volen i NOAA ho transmet sense cap cost addicional al públic. Tot el que NOAA té a la taula, va dir Kearns, però l'objectiu de la col·laboració de cinc anys no és treure totes les dades de la NOAA al núvol, només fragments estratègics.

Allotjar aquests conjunts de dades als serveis en núvol d’empreses privades ofereix diversos avantatges per a l’accés FTP d’estil dels anys 80, que encara és estàndard per a la transferència de grans conjunts de dades d’agències federals. Per començar, els conjunts de dades de NOAA acostumen a ser molt extensos: l’agència supervisa els oceans de la Terra, l’atmosfera, el sol i el clima espacial i, de vegades, requereixen setmanes o mesos per a l’entrega pública.

Un exemple és l’arxiu de radar Doppler de nivell II de NEXRAD d’alta resolució de l’agència. Segons un estudi publicat al maig per la American Meteorological Society, transferir tot l’arxiu NEXRAD de 270 terabytes a un sol client l’octubre de 2015 hauria trigat 540 dies a un cost de 203.310 dòlars. Una còpia completa de l'arxiu no havia estat mai disponible per a anàlisis externs abans que NOAA treballés amb Amazon i Google per posar-ne un al núvol.

L'experiment també ha tingut uns primers resultats interessants amb augments d'ús. Les pàgines web meteorològiques i prediccions de NOAA ja reben alguns dels nivells més alts de trànsit entre els llocs governamentals, però després que Google hagi integrat recentment un conjunt de dades sobre clima i clima, aproximadament de mida, a la base de dades BigQuery, la companyia va informar de la distribució de 1, 2 petabytes d'aquest conjunt de dades. de l’1 de gener al 30 d’abril: molt més del que s’havia accedit en un període de temps similar des dels servidors NOAA.

"Google va poder obrir-lo a un públic completament nou", va dir Kearns.

No és només pluja i temperatures estacionals. Els conjunts de dades disponibles a través dels socis Big Data inclouen informació sobre pesquer, clima marí i un catàleg allotjat per IBM que enumera conjunts de dades actuals, pronòstics, històrics i geospatials de centres NOAA. Els futurs conjunts de dades poden incloure informació sobre els ecosistemes i la genòmica pesquera.

Però, segons el disseny, la col·laboració permet als col·laboradors triar el que volen més, cosa que comporta el risc que els conjunts de dades obscurs, però potencialment d’alt valor, no vegin molta llum del dia. Kearns diu que és massa aviat per dir el que eventualment es pot identificar com a valuós.

"L'amplitud i l'abast del que es pot fer amb aquestes dades ens sorprenen", va afegir. "No ens imaginem tots els usos possibles."

A una escala menor, la ciutat de Filadèlfia també ha treballat amb una entitat privada per publicar conjunts de dades que el públic va dir que seria més útil. Tot i que la mida de la ciutat li dóna més maniobrabilitat operativa quotidiana que una entitat federal, el model de Philly representa un enfocament per a la planificació dels llançaments de conjunts de dades encara no publicats.

Azavea, una empresa de programari basada en Philly especialitzada en la visualització de dades, va col·laborar amb el responsable d'informació de la ciutat, Tim Wisniewski, per elaborar una llista de conjunts de dades no publicats que els sense ànim de lucre de la ciutat poden tenir interès en utilitzar. Wisniewski i Azavea van utilitzar tant el catàleg de metadades en línia de la ciutat com els inputs dels departaments de la ciutat per elaborar la llista. Azavea i altres socis van comprar després la llista a les entitats sense ànim de lucre de Filadèlfia i van llançar OpenDataVote, un concurs perquè el públic votés els projectes presentats per aquells sense ànim de lucre per a la forma en què utilitzarien els seus conjunts de dades preferits.

Un recent guanyador va ser una proposta presentada per MicroSociety sense ànim de lucre d’educació per utilitzar les dades de la ciutat sobre els donants al districte escolar de Filadèlfia per mesurar l’impacte dels programes sense ànim de lucre a les escoles.

"Podem dir que aquesta ciutat sense ànim de lucre està interessada en un determinat conjunt de dades perquè poden fer alguna cosa amb ell i que aquesta gent va votar per donar-los suport", va dir Wisniewski. "Ens permet anar als departaments amb un cas d'ús sòlid a mà en lloc de dir, bé, allibereu aquestes dades només perquè".

Dades antigues i novetat

Però, què passa fins i tot quan hi ha molt accés a dades que ja hi ha, quan les noves polítiques i directives de finançament signifiquen que les dades en si no es generen? Aquesta és una veritable preocupació, va dir Ann Dunkin, que va ser la responsable d'informació de l'Agència de Protecció del Medi Ambient sota el president Obama i que ara dirigeix ​​informàtica al comtat de Santa Clara de Califòrnia.

"La gent està preocupada per les dades antigues, però el que més em preocupa és que no es publiquen dades al mateix ritme que abans o no es generen", va dir Dunkin.

En una anàlisi del pressupost federal 2018 proposat per la revista Science, moltes agències governamentals realitzessin reduccions importants en els seus pressupostos de recerca si el pressupost es aprova com es proposa. Una reducció aproximada del 22% dels Instituts Nacionals de Salut suposaria un pagament en les universitats de recerca; la sol·licitud del pressupost de la NASA eliminaria iniciatives per controlar les emissions de gasos d’efecte hivernacle i altres programes de ciència terrestre. Els programes climàtics de NOAA també es podrien bloquejar amb nivells de retall similars.

Durant el seu mandat, l'EPA ha estat treballant per convertir la seva recollida de dades en una eina perquè qualsevol pugui utilitzar per comprendre la salut del seu entorn i com reaccionar-hi. Mal dia d’aire? No sortiu a fora Correu cap a la manera contaminada? Mantingueu els nens lluny.

"La meva expectativa és que es retrocedeixi", va afegir Dunkin. "Puc estar equivocat, però si dius que no farem dades disponibles, la conclusió lògica és conjunts de dades que podrien ajudar que els membres del públic també no estiguin disponibles o no es generin en primer lloc."

El Data Refuge Wiggin està treballant en un projecte de narració relacionada amb aquesta qüestió que espera que catalitzi més persones a exigir llançaments en curs de dades i creï una base de suport per continuar els programes de recollida de dades existents a tot el govern federal. Les narracions "Tres històries a la nostra ciutat" retrataran l'impacte ocult que les dades federals tenen en llocs inesperats, començant primer a Filadèlfia i després a altres llocs del país.

"Una peça crucial del moviment de refugis de dades, a mesura que passem a la següent fase, està ajudant a la gent a comprendre quina quantitat de dades de producció federal s'utilitzen àmpliament a les seves vides", va dir Wiggin. "Tant si es diu clima, salut o seguretat pública, no deixa de ser dades federals. És a les comunitats, a l'ajuntament, a les gestions policials, a les forces militars. Cal recordar la importància que tenen aquestes dades".

Recursos:

  • Passarel·la de conjunt de dades ambiental EPA: el portal de metadades de l'Agència de Protecció Ambiental.
  • Open Data @ DOE: el portal de dades obertes del Departament d’Energia.
  • Portal de dades del servei de recerca econòmica USDA
  • Recursos de dades grans de NOAA: enllaços a pàgines de plataformes de socis Big Data que allotgen dades generades per NOAA.
  • Universitat del nord de Texas: cementiri cibernètic: un arxiu de llocs web governamentals desapareguts, obsolets o tancats.
  • Iniciativa sobre les dades ambientals i la governança Pàgina del projecte d’arxivatge: eines, codi i aplicacions relacionades amb la descoberta i l’arxiu de dades governamentals.
  • Arxiu Internet màquina Wayback
  • Internet Archive: Com desar les pàgines a la màquina Wayback: Sis maneres de designar pàgines per arxivar-les.
  • Biblioteca digital de Califòrnia: Arxiu web de finalització del termini: una col·lecció de llocs web del govern dels Estats Units guardats de les rastreigs de final de termini, des del 2008 fins avui.
  • FreeGovInfo.info: contingut ampli que ofereix informació sobre els portals de dades a nivell estatal i federal i arxius de notícies sobre temes de dades obertes.
  • Mirall climàtic: una col·lecció de conjunts de dades de clima reunits voluntaris.

Aquesta història va aparèixer per primera vegada a PC Magazine Digital Edition. Subscriviu-vos avui per obtenir més històries de novetats, notícies, ressenyes i quins tos!

Aquests defensors volen assegurar-se que les nostres dades no desapareixen