Bias in AI uitgelegd (deel 2): Waarom is bias een risico bij algoritmes?
“Zeg eens eerlijk? Wat is nu je grootste angst bij algoritmes? Als ik dit vraag aan mensen is het antwoord vaak ‘Algoritmes discrimineren!’”. En natuurlijk: het is verre van gewenst om te discrimineren, maar hoe zorgen we ervoor dat algoritmes niet discrimineren? En hoe leren we een algoritme welke ongelijkheid wel kan en welke ongelijkheid ‘discriminatie’ is? In de vorige insight heb ik toegelicht wat bias is. In deze insight leg ik uit waarom bias een risico kan zijn bij het gebruik van algoritmes.
Patroonherkenning op basis van verschillen en overeenkomsten
Algoritmes worden bijvoorbeeld ontwikkeld om groepen te identificeren, wat ook wel classificatie genoemd wordt. Deze algoritmes hebben als doel patronen in de data te herkennen die de verschillen tussen klassen en overeenkomsten binnen een klasse aanduiden.
Stel we maken een algoritme om te identificeren of iemand man of vrouw is, dan zijn verschillen tussen mannen en vrouwen bijvoorbeeld terug te vinden in eigenschappen en gedrag zoals mate van baardgroei, interesse in jurken en studiekeuzes. Door deze patronen te herkennen, wordt het mogelijk om voor individuen - waarbij de klasse nog niet bekend is - in te schatten tot welke klasse ze behoren. Als we van Persoon XX weten dat de baardfrequentie gelijk aan 0 is, dan kunnen we aan de hand van bovengenoemde patronen inschatten dat XX naar alle waarschijnlijkheid een vrouw is. Persoon XY koopt frequent jurken op Zalando; wat zal dit algoritme dan inschatten? En daarnaast; kunnen we verwachten dat twee klasses coldoende zijn om alle personen in mijn data voldoende te representeren?
Onethisch onderscheid
De hierboven gebruikte voorbeelden zijn eenvoudig en makkelijk te herkennen. We gebruiken algoritmes echter juist om complexere patronen te herkennen in grote hoeveelheden gegevens. Deze patronen zijn dus gebaseerd op de verschillen tussen klassen en overeenkomsten binnen een klasse. Dit maakt dat algoritmes bij uitstek ontworpen zijn om onderscheid te maken, ook tussen groepen waarvoor dit niet wenselijk is.
In haar boek 'Weapons of Math Destruction' schrijft Cathy O’Neil over de vergaande gevolgen van het gebruik van AI-systemen als onderdeel van selectieprocedures aan vooraanstaande universiteiten. Toekomstige studenten worden toegelaten op basis van hun kans van slagen. Echter is de kans van slagen lager voor kinderen van niet- en laagopgeleide ouders. Deze jongeren worden dus minder geselecteerd, waardoor de niet-geselecteerde groep lager opgeleid blijft. Het toelatingsalgoritme ziet steeds meer voorbeelden van succes onder jongeren met hoogopgeleide ouders. Hierdoor zal het algoritme minder en minder jongeren van niet- en laagopgeleide ouders selecteren. Het gat tussen deze twee werelden wordt zo steeds groter.
Drie soorten bias
Maar kunnen we dan toch verantwoord gebruikmaken van algoritmes? Dat kan zeker! Vanaf hier spreken we van drie soorten bias:
- Disproportionele data: Bias in de data
- Algoritmebias: Bias versterkt door het model
- Confirmation bias: Bias door onvolledigheid en subjectiviteit
Het verschil tussen deze drie soorten licht ik toe aan de hand van een voorbeeld van bedrijf ABC Engineering. Ook al streeft dit bedrijf naar de kwalitatief beste invulling van hun vacature 'elektrotechnisch ingenieur', doordat er sprake is van een ongelijke verhouding onder de opgeleide elektrotechnisch ingenieurs (95% man), zal de man/vrouw-verhouding niet gelijk zijn onder de kandidaten voor een enkele vacature,
Het bedrijf zet een algoritme in voor het ondersteunen van de selectieprocedure. Gemiddeld kiest ABC Engineering bij elke 20 vacatures voor één vrouw, de andere 19 vacatures zullen door een man vervuld worden. Dit betekent niet per definitie dat dit bedrijf discrimineert: door de onderliggende studiekeuzes zijn vrouwen immers ondervertegenwoordigd met 5% in deze beroepsgroep. De bias in deze situatie wordt veroorzaakt door de ongelijke verdeling tussen mannen en vrouwen in het aanbod van elektrotechnisch ingenieurs - disproportionele bias. De ongelijkheid wordt in dit voorbeeld niet door het algoritme versterkt - algoritmebias.
We spreken in dit voorbeeld, naast disproportionele bias in de data, tevens van een confirmation bias. ABC Engineering selecteert voor op basis van behaalde diploma’s. Het bedrijf kiest voor een onvolledig beeld: ABC Engineering bepaalt dat kandidaten zonder vooropleiding niet geschikt zijn om elektrotechnisch engineer te zijn, hierdoor missen en blijven zij kandidaten missen zonder vooropleiding die ook geschikt voor de functie kunnen zijn.
Hoe ga ik met deze bias om?
Vind jij dat ABC Engineering maatregelen moet nemen om te streven naar een gelijkere man/vrouw-verhouding? Zou jij je nog willen laten adviseren door een algoritme als discriminatie op de loer ligt? In de volgende insight kun je lezen hoe je de impact van bias kan beperken en in staat bent op (verantwoorde) algoritmes te vertrouwen.