Het Massachusetts Institute of Technology (MIT), een prestigieuze Amerikaanse technische universiteit, heeft een dataset van bijna 80 miljoen afbeeldingen ingetrokken, waardoor deze niet langer beschikbaar is. De Tiny Images-database bevatte racistische en vrouwonvriendelijke omschrijvingen van personen.

De dataset werd in 2006 gecreëerd door drie onderzoekers die tienduizenden Engelstalige woorden gebruikten en verschillende zoekmachines gebruikten om de resulterende afbeeldingen te downloaden. Dat leidde tot een database van 79,3 miljoen afbeeldingen met de lage resolutie van 32 bij 32 pixels.

Onder de gebruikte woorden zaten ook beledigende termen als bitch (teef), whore (hoer) en nigger, een racistische term die zijn oorsprong vindt in het Amerikaanse slavernijverleden. Op de daaraan gekoppelde afbeeldingen waren vrouwen en personen met een donkere huidskleur te zien.

Dat de woorden en afbeeldingen in de dataset aan elkaar gekoppeld worden is problematisch, omdat het tot een vicieuze cirkel van racistische en vrouwonvriendelijke beoordeling door computers kan leiden.

Volgens de onderzoekers was het door de grote hoeveelheid afbeeldingen en de lage resolutie ervan ondoenlijk om door mensen te laten controleren welke afbeeldingen precies een ongepaste omschrijving hadden. "Handmatige inspectie, zelfs als dat haalbaar is, zal daardoor niet garanderen dat alle aanstootgevende afbeeldingen verwijderd worden."

Onderzoekers vragen om dataset niet langer te gebruiken

Een dataset zoals Tiny Images kan bijvoorbeeld gebruikt worden om een computer te 'leren' ook andere afbeeldingen te omschrijven. Als het computermodel zijn informatie baseert op racistische en misogyne 'lesstof', bestaat het risico dat het vrouwen of zwarte personen met de betreffende termen omschrijft.

De makers van Tiny Images zeggen in een verklaring op de pagina waar de dataset voorheen te downloaden was daar "zeer bezorgd" over te zijn. Ook bieden de drie onderzoekers de personen die hierdoor mogelijk geraakt zijn hun excuses aan. Ze roepen anderen op de dataset niet langer te gebruiken en eerder gedownloade kopieën te verwijderen.

Aanvulling: Dit artikel is na publicatie aangevuld met de alinea over waarom het deels intrekken van de dataset volgens de onderzoekers geen geschikte optie was.