Dit artikel schreef zichzelf niet (maar het had gekund)

Serieel ondernemer Elon Musk. ©REUTERS

Een algoritme dat liedjes, handleidingen, interviews of eender welke andere tekst genereert. Het is een droom die al even meegaat. Een nieuw krachtig taalmodel brengt het dichterbij.

GPT-3. Bent u marketeer, pr-verantwoordelijke, journalist, schrijver van handleidingen, programmeur of hebt u een creatief beroep waarin taal een centrale plaats heeft? Knoop dan alvast de naam van deze slimme taalgenerator goed in uw oren. Het kan weleens het model zijn dat u op termijn uit uw job heft. Wat GPT-3 precies is, moeten we reconstrueren op basis van blogs van experts over zelflerende algoritmes of verslagen in vakbladen. OpenAI, ooit opgericht door serieel ondernemer Elon Musk (Tesla, SpaceX) om zelflerende algoritmes in te zetten ten goede van de mens, houdt het GPT-3-model nog goed afgeschermd.

Die werkwijze is een goed startpunt om uit te leggen hoe GPT-3 werkt. De taalgenerator slokt een massieve hoeveelheid aan tekst op vanop het internet. Dat gaat om bekende databases zoals de Wikipedia-collectie, maar ook om de gratis toegankelijke webpaginadata van de non-profitorganisatie Common Crawl. Dat is niet zomaar wat data, en al helemaal niet zomaar een beetje tekst. Het recentste archief van Common Crawl, tussen 2 en 16 juli van het hele web 'gecrawled', bevat 3,1 miljard webpagina's. De taalgenerator zou zo met bijna 1.000 miljard woorden gevoed zijn, van alle soorten maten.

Zelflerende algoritmes gebruiken die 'trainingsdata' om patronen te ontdekken in de verschillende soorten tekst. 'Training' valt in dit geval lettelijk te nemen. Algoritmes nemen woorden en zinnen lukraak weg uit de aangeleverde data, waardoor de taalgenerator leert welke woorden hij moet invullen op basis van de context. Met die gigantische kennis over woorden en in welke patronen die verschijnen, is de taalgenerator uiteindelijk in staat om zelf teksten uit te braken, Hoe meer hij dat doet, hoe beter hij erin wordt.

De taalgenerator is als 'tienduizend doctoraatsgeleerden die met je meedenken'.
Delian Ashapourov
Investeerder bij fonds achter Airbnb en SpaceX

De demoresultaten die online opduiken, zijn bijwijlen verbluffend. Een journalist van Wired gaf GPT-3 de opdracht zijn eigen in memoriam op te stellen, op basis van voorbeelden van in memoria in online kranten, details die de taalgenerator over hem online vond, maar ook met fictieve hersenspinsels hoe je kan komen te gaan (hij kwam om in een klimongeluk). Arram Sabeti, wetenschapper maar ook stichter van het cateringbedrijf ZeroCater, liet GPT-3 een interview tussen CNN-nieuwsanker Anderson Cooper en de getroebleerde rapper Kanye West over zijn presidentskandidatuur ophoesten.

'Wat onder de motorkap plaatsvindt, is niet heel erg duidelijk', zegt Sabetti. 'Het ziet ernaar uit dat het systeem er goed in is alles wat het op het internet vindt te synthetiseren, daar een eclectisch notaboekje met miljoenen stukjes van maakt, om daarna op verzoek de juiste stukjes op wonderlijke wijze aan elkaar te lijmen.'

Het grote verschil met eerdere taalmodellen is dat GPT-3 op basis van de trainingsmodellen in staat lijkt om eender welke tekst te genereren. Eerdere modellen hadden een 'laser-focus'. Wie een algoritme tekst wilde laten vertalen, voedde het model duizenden voorbeelden van talen waarin de vertaling verliep.

3,1miljard
webpagina's
Aantal webpagina's beschikbaar via Common Crawl, een van de bronnen van de taalgenerator GPT-3.

Voor mensen met 'woordberoepen', u hebt nog wel wat voorsprong. Sam Altman, als CEO van de bedenker OpenAI mee de schepper van GPT-3, temperde op Twitter de verwachtingen. 'De hype is overdreven. Het is indrukwekkend, maar het systeem heeft nog serieuze zwaktes en maakt soms onnozele fouten.'

Zijn reactie kwam er na een golf van extase onder gezaghebbende experts in het veld van zeflerende algoritmes en vakbladen zoals Wired en de MIT Technology Review. Delian Ashapourov, partner bij het Silicon Valley-fonds dat onder meer het verhuurplatform Airbnb en het privaat ruimtevaartbedrijf SpaceX huisvest, omschreef de taalgenerator als 'tienduizend doctoraatsgeleerden die met je meedenken'.

Toch is er ook al kritiek. Jerome Pesenti, hoofd van de AI-divisie van Facebook, waarschuwde al dat GPT-3 gemakkelijk 'toxische taal' kan uitbraken die 'typische kwetsende stereotyperingen' in stand kan houden. Ook daar leverde GPT-3 al voorbeelden van. Dat is niet erg verwonderlijk, want het internet waar het taalmodel zich aan laaft is een diepe poel van haatpraat - daar kan Facebook zelf over meespreken. 'Data selecteren omdat ze beschikbaar zijn op het web en op Reddit (een online discussieplatform, red.) is geen goede trainingsstrategie', erkende Altman. Net daarom is de tool voorlopig niet breed beschikbaar.

Lees verder

Advertentie
Advertentie

Gesponsorde inhoud