Antispamsoftware helpt boeken digitaliseren

AMSTERDAM - Webloggers kunnen hun site beschermen tegen ongewenste reclame en tegelijk een universiteit helpen met het digitaliseren van een boekencollectie.

Weblogs en andere sites hebben steeds vaker te maken met spammers. Die laten volledig geautomatiseerd grote aantallen reacties achter, waarin ze reclame maken voor pornosites, erectiepillen of illegale software.

Captcha's

Een bekend middel om dergelijke spam tegen te gaan, is het gebruik van zogenoemde captcha's: een afbeelding van een letterreeks, die mensen wel, maar computers niet kunnen lezen. Door menselijke bezoekers naast hun reactie ook de tekst van de captcha te laten invoeren, kunnen die dus bewijzen dat ze geen spamsoftware zijn.

Boeken

De Carnegy Mellon University maakt van dat systeem gebruik om mensen boeken te laten digitaliseren. Meestal wordt dat nu gedaan door de boeken te scannen, en de scanbestanden vervolgens te laten interpreteren door speciale software. Die is echter nogal foutgevoelig: zeker bij matige drukkwaliteit worden veel letters niet goed herkend.

De universiteit ontwikkelde daarom een variant van captcha's, Recaptcha, waarbij mensen de rol van de software overnemen. De woorden die in de afbeeldingen verschijnen, zijn afkomstig uit gescande boeken. Mensen die de captha's oplossen, bewijzen zo niet alleen hun eigen goede intenties, maar dragen bovendien bij aan de digitalisering van de wereldliteratuur.

Controle

Naast het te ontcijferen woord bevat de Recaptcha ter controle overigens ook een woord waarvan de correcte letters wél bekend zijn.

De universiteit heeft een speciale website opgezet, waar webloggers en andere internetgebruikers zich voor het systeem kunnen aanmelden.

Tip de redactie