Steeds meer mensen praten tegen hun smartphones en pc's. Dat gaat helaas nog niet echt natuurlijk en het gaat zelfs vaak gewoon mis. Spraakbesturing is nog verre van perfect. Toch zijn er grote stappen gezet en komen er nog veel grotere stappen aan.

"Verwijder."

"Sorry, ik heb je niet verstaan."

"Verwijder e-mail."

"Sorry ik heb je niet verstaan."

"Laat maar, ik start wel even opnieuw op."

Dat we nog geen natuurlijk gesprek kunnen voeren met spraaksystemen of zelfs niet altijd zonder fouten een eenvoudige opdracht kunnen uitvoeren, bleek ook tijdens mijn bezoek aan het innovatiecentrum van Nuance in Boston, tussen de universiteiten Harvard en MIT.

Nuance Communications is de grootste speler binnen spraakbesturing. Het bedrijf levert spraaksoftware voor in Siri en S Voice en apparaten als tv’s, auto’s en pc’s. Elke maand worden er 1 miljard spraakopdrachten uitgevoerd via systemen van het bedrijf.

“We moeten de relatie tussen mensen en technologie opnieuw uitvinden, die is fundamenteel kapot", opende Peter Mahoneu, marketingdirecteur bij Nuance, het bezoek.

In de afgelopen jaren zijn we al gegaan van een vooraf ingestelde opdracht ("Bel Colin van Hoek" of "Wat is het weer in Amsterdam?") naar een iets natuurlijkere vorm van spreken ("Is het zonnig buiten?" of "Wat voor weer is het morgen?") Over zulke 'Natural Language Understanding' (NLU) wordt binnen Nuance veel gesproken, want perfect is het nog lang niet.

Vooruitgang en toekomst

Ik zat bij het innovatielab dan ook vooral te wachten op de toekomst. Waar gaat het nu heen? Nuance heeft een duidelijke visie waarin mensen uiteindelijk niet meer zouden hoeven te weten of ze tegen een machine of een mens praten.

De komende jaren richt de ontwikkeling zich op natuurlijke spraak en het perfectioneren van de dialoog. We kunnen allemaal redelijk begrijpen wat dat betekent, maar wat verandert er dan precies?

Spraaksystemen zouden bij dokters mee kunnen luisteren met een gesprek tussen een patiënt en dokter, om direct bevindingen in het dossier te kunnen opslaan. Het herkent medicijnen, klachten en andere relevante informatie. Het systeem zou zelfs suggesties kunnen doen aan de dokter op basis van de gehoorde informatie.

En stel je voor dat je digitale assistent (Siri of Google Now) op je telefoon altijd meeluistert, jouw stem herkent, automatisch weet wanneer je het tegen hem hebt, dan in actie komt en in gesprek met je gaat over bijvoorbeeld het plannen van een afspraak.

"Wat er nu is, is niet slecht, maar het kan zo veel beter", vindt Vlad Sejnoha, technisch directeur bij Nuance. De systemen van nu houden op bij het herkennen van woorden aan de hand van geluidsgolven. Zei hij nou 'golf' of 'wolf'? Dat kan aan de hand van de rest van de zin worden bepaald. Als het 'golf' is weet het systeem door informatie van eerdere gebruikers of het om de sport, zee of de auto gaat.

Vervolgens wordt gekeken welke handeling moet worden uitgevoerd. Moet er een app woorden opgestart of is er nog niet genoeg informatie? Dan vraagt het systeem specifiek om meer informatie, zoals de locatie of naam van de persoon waarover je iets vraagt. Een beperkte vorm van dialoog.

Deze dialoog zie je ook al als je vraagt naar de leeftijd van Barack Obama. Vraag je vervolgens: "Hoe oud is zijn vrouw?", dan weet het systeem dat je de vrouw van Barack Obama bedoelt.

Stemherkenning

Sejnoha legt uit dat het systeem van de toekomst in actie kan komen wanneer het nodig is door stemherkenning. De systemen van Nuance herkennen een stem aan de hand van 150 elementen. Zodra de digitale assistent hoort dat zijn gebruiker iets zegt, kan het analyseren of het voor hem is bedoeld.

"In de toekomst zullen systemen na de stemherkenning via de camera kunnen zien waar je bent. Het systeem kan je lippen lezen als de omgeving te rumoerig is of de microfoon op de gebruiker richten voor beter geluid", aldus Sejnoha.

Ziet het systeem dat je op kantoor of in een publieke ruimte bent, dan is het wellicht niet handig om dingen hardop voor te lezen. De assistent zal dan alleen tekst weergeven. Dit helpt om een betere dialoog te kunnen voeren en moet over enkele jaren al mogelijk zijn, voorspelt de technisch directeur.

De systemen zullen ook met elkaar gaan communiceren. "Stel je voor dat je wilt eten met een groep vrienden. Je zegt tegen je digitale assistent waar je heen wilt, wanneer, hoe laat en met wie. Vervolgens checkt hij of zij voor je wanneer het restaurant beschikbaar is en of je vrienden kunnen. Die vrienden krijgen een melding van hun assistent die vervolgens aan jouw systeem laat weten dat ze wel of niet kunnen."

Verder verwacht Sejnoha verbeteringen in de herkenning van spraak door deep learning en neurale netwerken die het menselijk brein imiteren. De systemen leren zo van de fouten die ze maken. De toegenomen rekenkracht maakt volledig nut van deze systemen nu pas mogelijk. "Elk jaar gaat het aantal woordfouten met 18 tot 20 procent omlaag en dat lijkt voorlopig nog niet te stoppen."

Emotie

Naast stemherkenning, belooft Nuance ook de herkenning van emoties. Dat kan via de camera door naar een gezicht te kijken, maar ook door informatie te halen uit akoestische gegevens. Nuance heeft daar nog geen concrete plannen voor, erkent Daniel Faulkner, hoofd van de mobiele afdeling, maar er is wel al onderzoek naar gedaan.

Op de korte termijn ziet Faulkner meer heil in het herkennen van woorden of zinsneden: "Als iemand bij een telefoontje naar een callcenter zegt ‘dit is de derde keer dat’, kan je daar informatie over emotie uit halen."

Ook dat kan helpen bij een goede dialoog, want de assistent begrijpt de gebruiker beter. Volgens Faulkner is het doel niet om een mens na te maken. “Ik wil wel dat hij net zo slim wordt, maar ik weet niet of ik er een menselijke band mee wil."

Natuurlijke spraak

Momenteel worden virtuele assistenten nog als gimmicks gezien. Regelmatig begrijpt Siri mij niet of weet Google Now niet precies wat ik wil doen. Nuance erkent de beperkingen van Siri, een systeem waar ze nota bene zelf bij betrokken zijn. De slechte reputatie komt volgens het bedrijf door die beperkingen en en valse beloftes.

Wanneer een virtuele assistent echt als mens behandeld kan worden, durft eigenlijk niemand bij Nuance te zeggen. Ja, er komt natuurlijke spraakbesturing en ja, de systemen zullen steeds meer van zichzelf en de gebruikers gaan leren, maar aan voorspellingen (en valse beloftes) waagt het bedrijf zich niet (meer).

Gelukkig helpt Hollywood ons een handje met het kijken in de toekomst. In de film Her krijgt een man een relatie met de virtuele assistent uit zijn besturingssysteem. Samantha praat als een normaal mens en gedraagt zich ook zo. Ze ontwikkelt zichzelf en hoeft nooit "ik heb je niet begrepen" te zeggen.

Bekijk een trailer van Her

Los van de vergaande mate van kunstmatige intelligentie gelooft het Nuance-team wel in de spraakmogelijkheden die in Her te zien zijn. Het praten als een mens met stiltes, pauzes, de juiste intonatie en het uitspreken van woorden op verschillende manieren wordt mogelijk.

Mike Thompson, hoofd van de mobiele tak van Nuance, denkt dat spraaksystemen zoals in Her nog wel tien jaar op zich laten wachten, "maar het is niet te hoog gegrepen."

Sejnoha verwacht dat een stem zoals Samantha zelfs al binnen een paar jaar mogelijk is: "Kunstmatige stemmen worden de komende jaren heel erg goed. Er zullen subtiele variaties in woorden optreden en de bedoeling en timing van woorden en zinnen zullen te onderscheiden zijn."

Leren

Dit is allemaal mogelijk omdat alle gegevens van de 123 miljoen gebruikers van Nuance-systemen worden opgeslagen in de cloud. De systemen kunnen van deze data leren en zichzelf zo continue verbeteren.

Omdat de huidige systemen natuurlijke spraak niet of slechts in beperkte mate ondersteunen, zijn mensen geneigd in vaste vormen met hun virtuele assistent te communiceren. Daarvan kunnen de systemen minder goed leren en daarom worden ook handmatige wijzigingen doorgevoerd.

Uiteindelijk gaan zowel het systeem als jij als gebruiker natuurlijker praten. Geen vaste opdrachten meer, maar zorgeloos in de ruimte lullen terwijl de assistent jou precies begrijpt.