Onderzoekers maken database met Engelse zinnen van 'buitenlanders'

Onderzoekers van de Amerikaanse technische universiteit MIT hebben een database gemaakt van Engelse zinnen die zijn geschreven door mensen van wie Engels niet de moedertaal is. Die teksten moeten zelflerende computersystemen verbeteren.

De database bevat 5.124 zinnen die afkomstig zijn uit essay's van studenten die Engels als tweede taal leren. In elke zin komt in ieder geval één grammaticale fout voor, schrijft MIT vrijdag.

Het is de bedoeling dat de database bijdraagt aan het verbeteren van zelflerende computers. De meeste mensen die Engels spreken, hebben die taal namelijk niet als moedertaal. Ze schrijven zinnen anders op en maken foutjes.

Zelflerende systemen kunnen ingevoerde teksten of uitgesproken zinnen van de 'non-natives' beter herkennen als ze daar op voorhand al mee te maken krijgen.

Wereld

De studenten van wie de tekst in de database is opgenomen, hebben tien verschillende moedertalen. Ze komen daardoor overeen met ongeveer 40 procent van de wereldbevolking.

De onderzoekers van MIT hebben opmerkingen geplaatst bij de ingevoerde teksten. Zo is duidelijk gemaakt welke fouten er in de zinnen zijn gemaakt en wat iemand met de tekst bedoelt.

Uiteindelijk moet het mogelijk zijn voor zelflerende computers om fouten te herkennen en te verbeteren. Op die manier kunnen bijvoorbeeld vertalingen worden verbeterd.

Tip de redactie