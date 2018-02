Studies samen met een gevestigde waarde als de KU Leuven, zoals de Vastgoedindex, genieten bij het grote publiek een kwaliteitslabel. Academische instellingen moeten echter hun publicaties staven met degelijke, openbare onderzoeksresultaten. Zeker voor de vastgoedmarkt, door vele Belgen nauwlettend gevolgd. Ongenuanceerde, potentieel misleidende uitspraken kunnen zo immers de woningprijzen beïnvloeden.

Door Kasper Van Lombeek en Pietjan Vandooren, datawetenschappers en mede-oprichters van de start-up Rockestate

Vorige week publiceerden vastgoedmakelaar ERA en de KU Leuven hun jaarlijkse Vastgoedindex. De meeste vastgoedbarometers beperken zich doorgaans tot een vergelijking van de evolutie van gemiddelde transactieprijzen tijdens een bepaalde periode. ERA en de KU Leuven gaan een stap verder en beweren een honderdtal statistisch significante parameters te hebben geïdentificeerd die het verschil tussen woningprijzen kunnen verklaren. Een garage leidt volgens hun studie bijvoorbeeld tot een meerwaarde van 4% op de woningprijs; een windmolen in de achtertuin heeft daarentegen een negatieve impact van 3,5%. Dat lijkt op het eerste zicht aannemelijk, maar is dit ook zo?

Veronderstellingen

Eenduidige conclusies trekken uit data is dikwijls uitdagend. Dat bewezen Raphael Silberzahn en Eric Uhlmann door 29 onderzoeksteams een eenvoudige vraag te stellen over een reeks voetbalwedstrijden: krijgen zwarte voetbalspelers meer rode kaarten? Het antwoord was allesbehalve eensluidend. Sommige teams concludeerden dat zwarte voetballers inderdaad meer rode kaarten kregen, andere stelden het omgekeerde vast.

Elk onderzoeksteam maakte namelijk andere veronderstellingen: sommige brachten de positie van de speler in rekening, andere keken dan weer naar de locatie van de wedstrijd of hielden rekening met de huidskleur van de scheidsrechter. Afhankelijk van de assumpties en keuze van de parameters trok elke wetenschapper dus andere conclusies.

De resultaten van data-analyse, waaruit vervolgens bepaalde conclusies worden getrokken, kunnen dus maar beter goed onderbouwd zijn met robuust cijfermateriaal en de gevolgde methodologie. Wetenschappelijke studies moeten reproduceerbaar zijn om tot een breed aanvaardbare consensus te komen. Zonder enige vorm van fact checking kan anders eender wie met wat bijeengeraapte data zijn conclusies openbaren.

Het is dan ook onbegrijpelijk dat de KU Leuven, als academische onderwijsinstelling, bij het ondersteunen van een dergelijke publicatie geen duidelijke verwijzing geeft naar het wetenschappelijk onderbouwde luik van hun onderzoek. De KU Leuven ziet nieuwe financieringskansen in samenwerkingen met de privésector. Dat is prima, maar het mag niet leiden tot situaties waar conclusies verspreid worden zonder het achterliggende onderzoek te publiceren.

Misleidend

Deze studie heeft echter een ander, veel groter probleem: de resultaten zijn misleidend, en mogelijks zelfs incorrect. Het artikel maakt gewag van meer dan 100 parameters die de waarde van een woning beïnvloeden. Dit ligt in lijn met de recente big data evolutie. De computers zijn vandaag krachtig genoeg om wiskundige modellen te berekenen met honderden parameters. Dit leidt dikwijls tot accurate predictieve modellen (de auteur stelt dat 85% van de spreiding van de huisprijzen kan verklaard worden) maar het maakt de interpretatie een stuk complexer. Het effect verklaren van één specifieke parameter in dit geheel is zeer moeilijk. Hieruit verbanden afleiden tussen oorzaak en gevolg (causaliteit) is dan ook niet zonder gevaar.

Zo is één van de conclusies dat de afstand tot een station geen effect heeft op de prijsbepaling van een huis. Dit leidt in één adem tot de stelling dat koning auto nog steeds regeert. Hoe betrouwbaar is dit besluit? Zoiets kan enkel geëvalueerd worden als de gemaakte veronderstellingen binnen het onderzoek gekend zijn. Is het effect van de grootte van het treinstation in rekening gebracht (wonen op 5 minuten wandelafstand van Antwerpen Centraal is niet vergelijkbaar met wonen op dezelfde afstand van het station in Lissewege)? Wat met de ligging ten opzichte van het station (ten zuiden van Brussel Noord is het aangenamer wonen in vergelijking met de noordelijke kant)? En naar welke andere afstandsfuncties die het effect van een treinstation kunnen kannibaliseren werd gekeken (de afstand tot de Grote Markt is ongeveer gelijk aan de afstand tot het Centraal Station voor 99% van de Brusselse woningen)?

Het beantwoorden van de vraag ‘wat is de invloed van de afstand tot een treinstation op de prijs van een huis?’ vereist het gebruik van de juiste wetenschappelijke methodes. Dit zijn idealiter goed gekende econometrische modellen. De meer recente big data technieken, met hun honderden parameters en duizenden moeilijk interpreteerbare niet lineaire onderlinge interacties, schieten hier tekort. Maar wat de gebruikte methode ook moge zijn, ruimte voor discussie is noodzakelijk, en daarom is transparante documentatie essentieel.

Kopers

De aankoop van een woning is een belangrijke beslissing waarbij potentiële kopers zich zo goed mogelijk proberen te informeren. Studies die wijzen op parameters die kunnen leiden tot een mogelijke meer- of minwaarde van een woning mogen geen lichtzinnige conclusies trekken; zeker niet als ze gesteund wordt door een gerenommeerde universiteit. Kandidaat-kopers worden, al dan niet onbewust, beïnvloed door dit soort cijfers, hetgeen ook hun koopgedrag zal sturen. Zo kunnen potentieel ongenuanceerde en moeilijk te evalueren conclusies uiteindelijk leiden tot ‘self-fulfilling prophecies’.