Google-dochter DeepMind claimt grote sprong in genereren computerspraak

De Google-afdeling DeepMind, die focust op het ontwikkelen van zelflerende computersystemen, claimt een grote sprong voorwaarts te hebben gemaakt in het produceren van computergegenereerde spraak.

DeepMind zette 'machine learning'-technieken in om een zogenoemd 'text-to-speech' (TTS)-systeem te bouwen. 

Zulke systemen bestaan al langer, maar hebben de kwaliteit van menselijke spraak nooit kunnen benaderen. Traditionele spraakgeneratie werkt door klankfragmenten achter elkaar te plakken en zo een woord of zin te vormen. Dat kan echter onnatuurlijk klinken.

Het systeem van DeepMind, met de naam WaveNet, werkt door de golfvormen van menselijke spraak te analyseren en patronen te herkennen. Deze worden vervolgens ingezet om geschreven teksten weer om te zetten tot geluiden.

Experiment

DeepMind liet honderd testzinnen, die werden uitgesproken door echte mensen, WaveNet en oudere TTS-systemen, beoordelen door mensen. Daarbij scoorde WaveNet in het Amerikaans Engels een score van 4,21 op een schaal van 1 tot 5. Het beste oudere TTS-systeem scoorde een 3,86, terwijl de zinnen die door echte mensen werden ingesproken een gemiddelde score van 4,55 kregen.

Ook in het Mandarijn Chinees maakte WaveNet een grote sprong ten opzichte van bestaande systemen, en werd de computer-gegenereerde spraak bijna net zo goed beoordeeld als menselijke spraak.

Het is onduidelijk of Google plannen heeft om de DeepMind-technologie daadwerkelijk in te zetten, bijvoorbeeld in de digitale assistent Google Now. Een bron binnen het bedrijf stelt tegen de Financial Times dat dat voorlopig nog onwaarschijnlijk is, omdat er extreem veel rekenkracht vereist is voor het genereren van spraak met WaveNet.

Op de site van DeepMind zijn enkele voorbeeldzinnen te beluisteren, en is ook een paper (pdf) van de onderzoekers te lezen.

Lees meer over:
Tip de redactie