TILBURG - Het Instituut voor Cognitie en Communicatie (TICC) van de Universiteit van Tilburg heeft ruim twee miljoen woorden verzameld om digitaal parafrases te kunnen herkennen.

De dataset is voor professionals beschikbaar via de Nederlandse Taalunie. Het verzamelen van de Nederlandse woorden en woordconstructies maakt deel uit van een internationaal taalprogramma, aldus de universiteit.

De ontwikkelingen rond klokkenluiderorganisatie WikiLeaks hebben de afgelopen weken weer eens duidelijk gemaakt dat het ontzettend handig is als een computer heel specifiek naar informatie kan zoeken. Nog handiger is het volgens de universiteit als de computer uit zichzelf informatie herkent die hetzelfde is, maar anders geformuleerd, zogenoemde parafrases.

Minder zoekwoorden

De Tilburgse dataset maakt het mogelijk enorme hoeveelheden informatie, zoals op WikiLeaks, heel snel te doorzoeken en te rubriceren. Gebruikers hoeven veel minder zoekwoorden in te tikken om alle informatie over een onderwerp te vinden. Ook plagiaat, waarbij zinnen vaak net iets anders worden opgeschreven, komt veel sneller aan het licht.

''Een ideale mogelijkheid is bovendien de zinsfusie'', zegt hoogleraar Emiel Krahmer. ''Een tool maakt het mogelijk om niet alleen twee verschillende zinnen met dezelfde informatie te herkennen, maar voegt die zinnen ook samen tot één nieuwe zin. Zo wordt een grote hoeveelheid tekst razendsnel samengevoegd tot een relevant pakket informatie.''