AI-tools en de Large Language Models die daarachter zitten, worden getraind met gegevens die vrij toegankelijk zijn op het internet, ook als deze informatie illegaal of auteursrechtelijk beschermd is. Dit is met name het geval bij niet-Engelstalige taalmodellen.
Uit recent onderzoek blijkt namelijk dat de Nederlandse taalmodellen voor het grootste deel getraind worden met de data van een illegale piratensite. Ook blijkt dat het filter van OpenAI (de maker van ChatGPT) om online inhoud te controleren op kwaliteit, niet goed werkt voor Nederlandstalige inhoud.
Illegale websites
De omstreden Nederlandse piratensite Docplayer is goed voor 3,6 procent van de totale trainingsdataset. Deze website bevat privé-informatie, zoals documenten met evaluaties van sollicitanten, en gegevens uit datalekken, waaronder complete cv’s en belastingaangiften. Hoewel de website tot illegaal is bestempeld door de Autoriteit Persoonsgegevens en het National Cyber Security Centrum is de website nog steeds in de lucht.
Andere websites die gebruikt zijn, zijn tripadvisor.nl (1,9%) en uitspraken.rechtspraak.nl (1,2%). Ook advertenties van particuliere verkopers zijn in de dataset goed vertegenwoordigd. 0,3 procent is afkomstig van ebay.nl. Marktplaats.nl heeft een aandeel van 0,2 procent. Dit betekent dat het taalmodel ook heel wat telefoonnummers van particulieren uit advertenties bevat.
En het kan nog erger
Nog verontrustender is dat de dataset ook veel informatie haalt van websites die bol staan van de desinformatie. Zo bleek uit het onderzoek dat de neonazistische website Stormfront, de complotsite Vrijspreker en het anti-islamitische en eurofobe blog E.J. Bron als trainingsmateriaal zijn gebruikt. De neonazistische website staat zelfs maar één plek lager in de bronnenlijst dan een algemene nieuwssite als RTL Nieuws. Van beide websites leert AI dus ongeveer evenveel…
Verder staan in de top-tweehonderd van meest geciteerde websites opvallend veel kwaliteitsmedia. Die worden gebruikt zonder dat er ooit voor is betaald. Van een kwaliteitskrant als ‘de Volkskrant’ zijn 162.000 unieke teksten gebruikt – ongeveer tien jaar aan journalistiek werk.
Slecht kwaliteitsfilter voor niet-Engelstalige websites
Niet-Engelstalige websites zijn voor de bedrijven achter chatbots moeilijk te controleren op betrouwbaarheid en relevantie. Taalmodellen worden vooral in de Verenigde Staten ontwikkeld, waar onderzoekers hoofdzakelijk Engelstalig zijn. Zij kunnen dus lastig bepalen welke websites er zeker in de dataset moet zitten en welke je beter achterwege kunt laten.
Bovendien is het aantal Nederlandstalige websites op het wereldwijde internet niet zo hoog. Een chatbot kun je alleen maar goed trainen met voldoende trainingsmateriaal en met alleen topwebsites haal je die hoeveelheid niet.
Alle niet-Engelstalige websites
Het probleem doet zich voor bij alle niet-Engelstalige taalmodellen. Ook deze worden getraind met datasets vol desinformatie, privégegevens en auteursrechtelijk beschermde inhoud. En een deel hiervan vind je terug in het antwoord dat een chatbot je geeft.
De Nederlandse Autoriteit Persoonsgegevens (AP) heeft OpenAI een brief gestuurd om meer duidelijkheid te vragen over ChatGPT, maar nog geen antwoord ontvangen.
Het geeft in ieder geval wel de noodzaak aan van het reguleren en stoppen van de verspreiding van desinformatie en persoonsgegevens via AI-gegenereerde inhoud. De AI Act van de Europese Unie zou voor het einde van 2023 in werking moeten treden en een einde maken aan piraterij en privacyschending door de taalmodellen.