Bias in AI uitgelegd (deel 4): Hoe meet ik bias?

“Zeg eens eerlijk? Wat is nu je grootste angst bij algoritmes? Als ik dit vraag aan mensen is het antwoord vaak ‘Algoritmes discrimineren!’”. En natuurlijk: het is verre van gewenst om te discrimineren, maar hoe zorgen we ervoor dat algoritmes niet discrimineren? Na het lezen van de vorige insights weet je nu wat bias is en hoe je dat onder controle houdt bij het gebruik van algoritmes. Wetende dat bias onoverkomelijk is, rest ons nog één vraag: “Welke bias is acceptabel?”

placeholder

Context is essentieel

Om te bepalen of de bias te accepteren is, moet je deze allereerst kunnen meten. Daarna moet je je afvragen of de bias passend is voor de context waarin het algoritme wordt gebruikt. Zo stelt mijn collega Frank van Vonderen over algoritmes met een hoge mate van impact: “De politiek stelt vragen over dit type algoritmes. En terecht, want uitkomsten van deze algoritmes raken vaak het leven van de burgers: bijvoorbeeld hun eigenwaarde of hun portemonnee.”

Onwetendheid over de intrinsieke bias in de data en gebrek aan mitigerende maatregelen bij het gebruik van algoritmes kan discriminatie in de hand werken. Dit zorgt voor spraakmakende krantenkoppen zoals recent over controles op recht op studiefinanciering bij DUO: "Studenten met migratieachtergrond opvallend vaak beschuldigd van fraude, minister wil systeem grondig nagaan." 

Kijkt het algoritme niet naar de hele populatie, maar naar een steekproef, in het geval van DUO bewezen 'fraudeurs' uit het verleden: Hoe willekeurig is het proces verlopen om tot de conclusie 'fraude' te komen? En is iedere groep uit jouw populatie voldoende vertegenwoordigd in de gekozen steekproef?

Interpretatie van cijfers oogt complex: is dat het ook?

De complexiteit ligt vaak in het vertalen van de getallen naar de betekenis voor te maken keuzes en de impact die dit kan hebben op de betrokkenen. Hoe interpreteer jij de berekende bias uit onderstaand voorbeeld?

Bias in data is het procentuele verschil tussen de verwachte evenredige proportie van een groep en de daadwerkelijke proporties van de groepen in de gegevens. In het geval van ABC Engineering is de daadwerkelijke proportie van vrouwen onder de sollicitanten gelijk aan het aanbod op de markt, namelijk 1 op de 20. Terwijl we bij op basis van de beroepsbevolking van Nederland verwachten dat de verhouding van vrouwen 1 op 2 had moeten zijn. Dit betekent een bias van maar liefst -90%: er bevinden zich 90% minder vrouwen onder de sollicitanten in vergelijking tot een 50-50 man/vrouw verhouding.

Algoritmebias is het procentuele verschil tussen de daadwerkelijke proporties en de proporties van deze groepen per ingeschatte klasse. Wanneer het algoritme voor de openstaande vacatures van de 20 kandidaten, 1 vrouw voorstelt, is de algoritmebias bij ABC Engineering 0%. Maar stel dat het algoritme van ABC Engineering suggereert 1 op 10 van haar vacatures te vervullen met een vrouwelijke kandidaat. De daadwerkelijke proportie in de data blijft 1 op 20. De proportie vrouwen in de klasse ‘vacature wél vervullen’ is nu 1 op 10. Dit maakt de algoritmebias in dit geval +100%: het algoritme van ABC Engineering selecteert twee maal vaker vrouwelijke kandidaten in vergelijking tot het specifieke aanbod op de arbeidsmarkt.

Gebruik van persoonsgegevens om bias te meten

In deze voorbeelden gaat het om een duidelijk meetbare bias. Wil je zeker weten of de algoritmebias gegenereerd door het door jou ontwikkelde algoritme duidt op een significant verschil? Met een beetje statistiek, zoals de student’s t-test, kun je hier een goede inschatting van maken. Zoek vooral de formule op of gebruik de functie in je favoriete programmeertaal.

Ondanks het feit dat het technisch mogelijk is om bias te meten, zijn niet alle persoonsgegevens, vooral gevoelige persoonsgegevens, beschikbaar in een organisatie of geschikt voor gebruik voor dit doel. In hun paper onderzochten van Bekkum en Zuiderveen Borgesius in 2023 of de GDPR een nieuwe uitzondering nodig heeft op het verbod op het gebruik van bijzondere categorieën gegevens, zodat een organisatie discriminatie door kunstmatige intelligentie kan tegengaan.
Het toestaan van organisaties om bijzondere categorieën gegevens te verzamelen en deze te gebruiken voor het meten van bias is namelijk niet gegarandeerd. Zonder te weten welke bias er in de data zit en wat door het AI-systeem wordt geproduceerd, kunnen organisaties hun algoritmen niet beoordelen, laat staan ongewenste bias verminderen.

Uiteindelijk is het een politieke beslissing hoe het evenwicht tussen de verschillende wetten en regelgevingen wordt gehandhaafd. En technische oplossingen, zoals multiparty computation, kunnen een compromis bieden tussen de noodzaak van bias-testen en het recht op privacy.

Welke impact heeft de bias in de context van jouw algoritme? Heb jij ervoor gezorgd dat jouw algoritme niet discrimineert?

placeholder

Meer weten over verantwoorde inzet van algoritmen?

Neem contact op met onze expert Sabine Steenwinkel-den Daas.

Gerelateerde insights

divider