Data scrapen van het internet: mag dat wel?

Door een leuke app te downloaden of quiz te spelen geeft u vaak toegang tot heel wat data. Al is de techniek die daarvoor gebruikt wordt niet per definitie illegaal. ©AFP

Cambridge Analytica verzamelde de informatie van miljoenen mensen via een techniek die haast zo oud is als het internet zelf: scraping. Hoe legaal is dat eigenlijk?

Afgelopen week meldde Facebook-CEO Mark Zuckerberg in een conference call dat 61.000 Belgen getroffen kunnen zijn in de datahonger van Cambridge Analytica. Via een onschuldige applicatie met zogenaamd academische doeleinden - de Facebookquiz 'thisismydigitallife' - werden die data binnengehaald. Niet alleen van de gebruikers die de test hadden ingevuld, maar ook van hun vrienden.

Dat kon omdat Facebook tot 2015 een functie had die ontwikkelaars toeliet om ook de data te verzamelen van vrienden van mensen die applicaties downloaden. Niet per se illegaal - mensen hadden er zelf mee ingestemd bij het downloaden van de quiz - maar toch wat wrang omdat velen niet eens doorhadden dat ze er onbewust mee hadden ingestemd.

Bij scraping wordt, zoals de term al doet vermoeden, automatisch informatie van een bepaalde webpagina ‘geschraapt’. Die wordt daarna gekopieerd naar een aparte database, waarna ze voor verschillende doeleinden gebruikt kan worden.

Nochtans waren er heel wat Facebook-applicaties die ook op een positieve manier met die mogelijkheid omgingen. De applicatie Job Fusion, bijvoorbeeld. Wie die gebruikte, stond toe dat de applicatie te zien kreeg waar zijn of haar vrienden werken. Daarna ging Job Fusion tonen bij welke van die bedrijven vacatures waren, zodat je misschien de nieuwe collega van je vriend kon worden.

Die informatie kon razendsnel binnengehaald worden via een techniek die scraping heet. Zoals de term al doet vermoeden, wordt automatisch informatie van een bepaalde webpagina ‘geschraapt’. Die wordt daarna gekopieerd naar een aparte database, waarna ze voor verschillende doeleinden gebruikt kan worden.

Laatste redmiddel

Veel grote spelers - denk maar aan Proximus, Airbnb of YouTube - bieden toegang tot hun data via zogenaamde API’s. De bedrijven in kwestie kiezen welke data ze beschikbaar willen maken, waarna ontwikkelaars daar toegang toe krijgen door een specifiek stuk code te implementeren. Soms moeten ze ook betalen om van die API’s gebruik te maken.

Ook Facebook heeft dergelijke API’s, die bijvoorbeeld toelaten om een chatbot te bouwen. Toch zijn API’s niet altijd de handigste oplossing. Omdat ontwikkelaars op zoek zijn naar andere informatie, bijvoorbeeld, of omdat bedrijven niet staan te springen om die vrij te geven. Daarnaast hebben die API’s vaak lage limieten voor het aantal opvragingen die je per uur kunt doen.

De Tijd bouwde vorig jaar een scraper om informatie van Airbnb te ‘schrapen’. Die informatie had ook handmatig opgezocht kunnen worden, maar via zo’n scraper gaat het verzamelen ervan een pak sneller.

Wie op grotere schaal wil werken - zoals bedrijven als Cambridge Analytica - moet naar andere middelen grijpen. Voor veel ontwikkelaars is scraping een laatste handig redmiddel.

Zo bouwde De Tijd vorig jaar een scraper om informatie van Airbnb te ‘schrapen’. Die werd nadien in een nieuwe database gestructureerd, zodat onder andere onderzocht kon worden wie er nu precies appartementen op het platform verhuurde. Die informatie had ook handmatig opgezocht kunnen worden, maar via zo’n scraper gaat het verzamelen ervan een pak sneller.

Vooral dat laatste is cruciaal: het had ook handmatig gedaan kunnen worden. Heel wat informatie die op het internet staat, is namelijk vrij toegankelijk. Op de site van Sporza, bijvoorbeeld, kan iedereen alle artikelen lezen. Die scrapen is slechts een kwestie van de juiste lijntjes code te schrijven. ‘Scrapen raakt stilaan meer en meer ingeburgerd als een volwaardige manier om data te publiceren en te hergebruiken’, zegt Pieter Colpaert, onderzoeker bij imec. ‘Het biedt een goede garantie dat de data correct zullen zijn, want de gegevens zijn dezelfde als die die de website-eigenaar via zijn eigen kanaal verspreidt.’

Grijze zone

Daarnaast is ook een groot deel van het web niet voor iedere buitenstaander te bereiken. De platformen waarop we online bankieren, bijvoorbeeld, of de inhoud van het mailverkeer. Het zijn zaken die we nooit door anderen zouden laten scrapen, al is er een grote grijze zone op het web waarvoor we anderen wel toegang geven om dat te doen. Door een app te downloaden die in de kleine letters vermeldt dat gebruikers in ruil toegang tot hun data verlenen, bijvoorbeeld. Die nadrukkelijke toestemming wordt in de toekomst steeds belangrijker wanneer de GDPR-verordening in werking zal treden.

100.000
eBay
Bidder's Edge stuurde dagelijks meer dan 100.000 'requests' naar veilingsite eBay

Of scrapen legaal of illegaal is, is niet altijd duidelijk. Zonder vragen de informatie van openbare sites plukken is doorgaans eerder onkies dan dat het verboden is. Toch knijpen grote websites al eens een oogje dicht, vooral wanneer dat scrapen om persoonlijke of academische redenen gebeurt en het binnen de perken blijft.

Wanneer het om commerciële redenen gedaan wordt of het de spuigaten uit loopt, verandert de zaak. Doordat met automatische scripts gewerkt wordt, wordt de website in kwestie soms meerdere keren per seconde bezocht - veel sneller dan een mens ooit zou kunnen doen. Dat weegt op het verkeer naar de site, waardoor anderen daar last van kunnen ondervinden.

Dat was bijvoorbeeld het geval bij Bidder’s Edge, een webplatform dat in 2000 door de online veilingsite eBay voor de rechtbank was gedaagd omdat het op die manier meer dan 100.000 keer per dag de site bezocht - goed voor 1,53 procent van alle bezoekers. Dat deed het via ‘crawling’, een techniek die gelijkaardig is aan het scrapen. De rechtbank gaf eBay gelijk en oordeelde dat zelfs bij publieke sites dergelijke praktijken niet per definitie toegestaan zijn.

IRail

Ook in België zijn er gelijkaardige aanvaringen geweest. Toen Pieter Colpaert in 2008 samen met enkele medestudenten een app ontwikkelde ('IRail') die kan melden wanneer je trein aankomt, haalde hij die informatie van de site van de NMBS. 'Die gegevens zijn meer up-to-date dan de informatie die via een API te verkrijgen is, dus wilden we ze op de site scrapen.'

De NMBS liet de studenten niet veel later via een advocaat weten dat ze hun applicatie offline moesten halen, omdat die ten onrechte gebruik zou maken van de database van het openbaar spoorbedrijf.

De applicatie die de studenten ontwikkelde bestaat nog steeds, al ziet die er aan de achterkant nu wat anders uit. ‘We scrapen nu nog maar een deel van de informatie, om bijvoorbeeld na te gaan welk station een lift heeft’, zegt Colpaert. Andere data halen ze binnen via een API, maar dat is minder handig. ‘We willen de NMBS graag overtuigen om hun website meer scrape-vriendelijk te maken’, klinkt het bij het team.

Lees verder

Advertentie
Advertentie

Tijd Connect