Nola aztertu zituzten Panamako paperak

Iturria: wired.co.uk 

Datu guztiak Panaman egoitza duen Mossack Fonseca bulego juridikotik lortu zituzten. Inoiz ezkutuan atera den datu kopururik handienak adierazten du mundu mailako 70 agintarik baino gehiagok milaka milioi euroko zergak ordaintzeari ihes egin diotela, Panamako isilpeko kontuak baliatuz.

Panamako paperek erakusten dute Mossack Fonseca bulegoak munduko jende boteretsuarekin zerikusia zuten ehunka bezerori lagundu ziela dirua zuritzen, zergak ordaintzeari ihes egiten eta isunak saihesten. Paperak ezezagun batek iritsarazi zizkien 100dik gora albiste-organizaziori eta 400 kazetariri baino gehiagori, eta ikerketak ia urtebete iraun du.

Datu gordinak kazetariei eskuera jartzeko prozesuak digitalizatzea, ordenagailu eta algoritmo ahaltsuak erabiltzea behar izan du, milaka xehetasunen artean izen ezagunak aurkitzeko. Guztira 11,5 milioi dokumentu dira.

Multzo horretan badaude, besteak beste, emailak, kontratuak, transkripzioak eta eskaneaturiko dokumentuak. Guztira 4,8 milioi email, datu-baseetako 3 milioi erregistro, 2 milioi PDF, milioi bat irudi eta 320.000 testu-dokumentu dira eta 2,6 terabyte hartzen dute. Datu zaharrenak 1977koak dira eta berrienak 2015ekoak. 


Datuek nabarmen jartzen dute Mossack Fonsecak 14.000 banku, bulego juridiko, enpresa-sortzaile eta bitartekari baino gehiagorekin lan egin dutela,  enpresak, fundazioak eta ondasun-transmisioak prestatzeko

Lorturiko dokumentuez informazioa emateko, bermatu behar zen dokumentuak automatikoki tratatzeko eta haietan bilaketak egiteko modukoak izan behar zutela. Ez da erraza homogeneoak ez diren datuen arteko erlazioak bilatzea. Tauletan, irudietan eta irudi-formatua duten PDFetan nekez egin daitezke bilaketak. Süddeutsche Zeitung egunkariak eta International Consortium of Investigative Journalists (ICIJ) elkarteak Nuix sofware-enpresarekin lan egin zuten fitxategiak antolatzeko. Datuak, gainera, zerbitzari pribatuetan, hau da, kanporako konexiorik ez zutenetan, gorde behar ziren. Gero indexatu egin behar izan ziren, testu eta metadatu guztiak erauzteko, eta ondoren big datako teknikak erabili, aztertu ahal izateko.

Datuak prozesatzeko erronkarik handiena makinek testutzat har ez zitzaketen datuen kopuru erraldoia izan da. OCR bidez bihurtu ziren dokumentu horiek, bilaketak egin ahal izateko. Behin testua erauzi ondoren, edukiak indexatu ahal izan ziren, bilaketak egin eta datu-baseetan sartu. Entitateak erauzi ahal izan ziren: izenak, deiturak, enpresen izenak, helbideak, lekuak, etab.  Gero izen horiek dokumentuekin zituzten erlazioak bilatu behar ziren.

Behin informazioa indexatu ondoren, algoritmoak erabili dituzte, datu-base handi batean erlazioak bilatzeko. Azkenean, automatikoki landutako informazioa eskuz sorturiko datuekin konbinatu zuten, eta kazetariek politikari garrantzitsuen, nazioarteko gaizkileen, kirolari ospetsuen eta beste batzuen zerrendak prestatu zituzten, bilaketa zehatzak egiteko.

Comments

Popular posts from this blog

QR kodeak erabiltzeko gida

Europar Batasunak eduki digitalei eta hizkuntzei buruzko ekimena jarri du abian

Zenbateraino da onuragarria papera birziklatzea?