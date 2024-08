Het op grote schaal trainen van modellen die werken op basis van artificiële intelligentie (AI) dreigt het internet te vertragen. Er worden creatieve oplossingen gezocht om dat te verhinderen, maar wie verliest daarbij, vraagt wiskundeprofessor Ann Dooms zich af.

Google DeepMind berichtte woensdag over zijn nieuwste vrij beschikbare taalmodel, Gemma 2. Dat zou beter scoren dan andere bekende modellen, zoals OpenAI’s GPT-3.5, zij het met veel minder parameters (al spreken we nog steeds over zo'n 2 miljard). Dit maakt het model geschikt om bijvoorbeeld lokaal op smartphones te draaien, terwijl de compacte grootte ook toelaat om iets transparanter te zijn in zijn output, maar dan wel beperkter in zijn toepassingen.

Diezelfde dag kwam Google echter ook in opspraak wegens een verregaande samenwerking met de AI-start-up Anthropic. Die is bekend door het multimodale model Claude, dat in de grootste versie beter zou scoren dan OpenAI’s GPT-4 en Google’s Gemini 1.0. Zeker in redeneren, programmeren en wiskunde. De recente investering van 2 miljard dollar door Googles moederbedrijf Alphabet trok de aandacht van de Britse concurrentiewaakhond CMA, die vindt dat dat de competitie en de innovatie in de markt van cloudgebaseerde AI-services doodt. Anthropic kreeg al eerdere investeringen van Google en Amazon, en werkt voor het trainen van de modellen samen met Google Cloud en Amazon Web Services.

Grootschalige trainingen

Anthropic vond zijn niche in de AI-markt door in te zetten op grootschalige trainingen om meer verbanden tussen data te kunnen vinden, zodat het model betrouwbaardere en veiligere antwoorden kan geven. Doordat dit resulteert in heel grote modellen, in tegenstelling tot bijvoorbeeld Gemma 2, zullen deze eerder draaien in de cloud. Google antwoordde de CMA alvast dat het Anthropic vrij laat in zijn samenwerkingen, bijvoorbeeld met andere cloudproviders.

Ook Anthropic zelf kwam de voorbije week in opspraak. Het grootste deel van zijn model wordt getraind op vrij beschikbare content waarvoor het internet afgeschuimd wordt met web scrapers. Deze bouwen voort op de al lang bestaande web crawlers, die ontstonden om zoekmachines, zoals Google of Bing, toe te laten webpagina’s in hun index op te nemen.

Zogenoemde web scrapers en web crawlers doorzoeken het internet en indexeren pagina's. Maar ze bezoeken sommige sites zo vaak dat ze opvallend trager worden, en dus allicht inkomsten verliezen.

Crawlers volgen automatisch links van pagina naar pagina en houden de structuur en inhoud bij om gebruikers naar informatie te leiden. In 1994 ontstond een soort gentlemen's agreement, op voorstel van de Nederlandse software-ingenieur Martijn Koster, waarbij websitehosts een specifieke file - robots.txt - in hun hoofddirectory opnemen. Daarin staat welke pagina’s niet geïndexeerd hoeven - of mogen - te worden, alsook door wie, en de frequentie waarmee de software de server mag bezoeken. Want veel verkeer kan leiden tot vertragingen of uitval voor de gewone gebruiker.

Stoemelingse toestemming

Koster werd zelf slachtoffer van dit laatste en kwam met zijn idee op de proppen. Het is uiteraard niet aan te raden om gevoelige informatie vrij toegankelijk en zonder paswoord op een webserver te plaatsen. Maar sommige pagina’s zijn bijvoorbeeld niet relevant of gewenst om bij te houden, zoals een pagina met het welbekende winkelmandje. Respectabele crawlers zullen zich aan robots.txt houden, maar er is geen garantie. Wanneer je als host verdachte bezoeken ziet, kan je wel het IP-adres blokkeren, maar dit valt door de valsspeler alsnog makkelijk te omzeilen.

Scrapers gaan een stap verder dan crawlers, omdat ze ook de informatie opslaan in een bruikbaar formaat, voor meer dan zoekdoeleinden. Dat kan gaan van het opsnorren van productprijzen, recensies of contactgegevens, tot zelfs de volledige inhoud, zodat de informatie geanalyseerd kan worden voor onderzoek of commerciële doeleinden. Onder het mom van onderzoek heeft Cambridge Analytica zo data van massaal veel Facebookgebruikers binnengehaald, wat niet illegaal was omdat er meestal stoemelings toestemming was gegeven voor vrij gebruik.

Nu zien echter meer en meer bedrijven een hoger aantal bezoeken van hun openbare pagina’s door bedrijven gespecialiseerd in generatieve AI. In het bijzonder kloegen Freelancer.com en iFixit.com op X over miljoenen bezoeken in één dag door de al te gretige web scraper van Anthropic. Daardoor werden hun sites zo traag dat ze allicht inkomsten verloren. Zij specifiëren nu in hun robots.txt dat de zogenaamde ClaudeBot niet meer gewenst is.

Grijze zone

Anthropic reageerde dat het niets illegaals deed, maar beloofde de frequentie van de bezoeken te verlagen. Dit trekt de discussie naar het gebruik van content voor generatieve modellen breder dan de huidige copyrightdiscussie. Maar vrij beschikbare data aan banden leggen, komt in een grijze zone. Meta en X brachten het Israëlische bedrijf Bright Data voor de rechtbank voor het schenden van hun servicevoorwaarden met het scrapen van hun content. Beide verloren echter hun rechtszaak. iFixit.com geeft aan dat het niet tegen het gebruik in generatieve modellen is van de vrij beschikbare informatie over hoe kapotte zaken te repareren, maar dat het wel zijn zegje in het verhaal wil.

Ondertussen wordt er creatief naar oplossingen gezocht. Sommigen verstoppen voor de gebruiker onzichtbare, nutteloze informatie die wel door de scraper wordt opgepikt en zo het generatieve model 'vervuilt', wat uiteraard niet aan te raden is, aangezien dat ook de mooie toepassingen van generatieve AI zal ondermijnen.