Computers zijn steeds beter in staat om onze emoties in te schatten op basis van onze manier van spreken. Zo komen apps met therapeutische functies langzaam in zicht.

Hoe depressief ben jij? Doe de test van Quest

Je komt thuis na een lange dag en spraakassistent Siri vraagt hoe het was. "Kon niet beter", zucht je, terwijl je je tas kreunend in de hoek smijt. De invoelende assistent hoort aan je spreektoon dat je in een rothumeur bent.

Hij raadt je een aflevering van je favoriete serie aan en zegt, gezien je aanleg voor depressies, dat het misschien goed is als je je therapeut weer eens opzoekt.

Met onder meer dit beeld voor ogen werken allerlei wetenschappers en bedrijven aan technologieën die onze apparaten emotionele voelsprieten moeten geven, gebruikmakend van ons stemgeluid.

Depressieve persoon spreekt vaak monotoner

Zonder erbij na te denken merk je aan de stem of iemand vrolijk is, of triest. Als psychiaters beoordelen hoe een patiënt eraan toe is, doen ze dat deels op basis van indrukken die lastig in regels te vatten zijn: hoe zit een patiënt erbij, hoe kijkt hij uit zijn ogen, wat heeft hij te vertellen?

Ook weten ze dat een depressieve persoon vaak monotoner, trager, zachter en minder spreekt dan iemand die zich kiplekker voelt. Bij het UMC Utrecht onderzoekt arts-onderzoeker/taalwetenschapper Janna de Boer welke stemeigenschappen iets zeggen over ons geestelijk welzijn.

Meet het taalgebruik

Zelflerende programma's analyseren allerlei aspecten van opgenomen gesprekken: de spreeksnelheid, pauzes en toonhoogte, maar ook inhoudelijke zaken als de complexiteit van een zin en de grammaticale opbouw.

Patiënten met een psychose verzinnen soms nieuwe woorden, patiënten met alzheimer spreken vaak in algemene termen. "Een psychiater kan niet tijdens een gesprek turven hoeveel pauzes iemand laat vallen, of hoeveel bijzinnen hij of zij gebruikt om tot een punt komen", legt De Boer uit. "Een computer is daar juist heel goed in."

De onderzoekers hopen dat de technologie de psychiater in de toekomst kan ondersteunen. "Een derde van de mensen die een psychose ervaren, krijgt niet nogmaals een psychose", zegt De Boer. "Toch krijgt iedereen na een psychose antipsychosemedicatie, omdat we nog niet kunnen voorspellen wie er gevoelig voor is en wie niet."

App kan mogelijk risico op terugval inschatten

Als algoritmes dit op basis van stemgeluid, spraak en woordkeuzes wel kunnen doen, zouden patiënten met behulp van een app de vinger aan de pols kunnen houden. Ze kunnen dan om de zoveel tijd een spraakopname maken, die inschat of de kans op terugval groot is.

Hetzelfde geldt voor mensen met een depressie. Bij mensen met dementie of alzheimer zou de app wellicht kunnen inschatten hoe ver de ziekte is gevorderd

Zelflerende computers

Volgens Arjan van Hessen, spraaktechnoloog aan de Universiteit Twente, volgen de vorderingen in emotieherkenning elkaar snel op. "Sinds 2010 is het onderzoek in een stroomversnelling geraakt door de combi van snelle computers, grote hoeveelheden data en het gebruik van neurale netwerken."

Die laatste zijn zelflerende programma's die op basis van heel veel voorbeelden zoeken naar verbanden, bijvoorbeeld tussen een trillende stem en een bepaalde emotie. Het zijn vaak verbanden waar mensen zich zelf helemaal niet bewust van zijn.

'Emoties op basis van geluid herkennen is complex'

Maar ondanks alle vooruitgang blijven menselijke gevoelens lastig peilbaar voor computers. "Onderzoeken naar emotie zijn er al heel lang, maar het is nog nooit gelukt om emoties uit te drukken in regels", zegt Van Hessen.

Ook onderzoeker Khiet Truong van de Universiteit Twente blijft kritisch. "Als ik iemand hoor zeggen dat hij een emotieherkenningssysteem op basis van geluid heeft ontworpen, gaat bij mij een waarschuwingslampje branden. Op basis van beelden kunnen die programma's de zes basisemoties (blijdschap, woede, verdriet, angst, afschuw en verrassing) wel herkennen. Maar geluid is veel complexer."

Inbouwen in een horloge

Computers hebben bijvoorbeeld nog erg veel moeite om blijdschap te onderscheiden van woede, zeker als er allerlei omgevingsgeluiden zijn te horen. Wij mensen gebruiken de context: hoe kijkt iemand erbij, waar gaat het gesprek over, wat is de situatie? Voor de computer is die context nog erg lastig in te schatten. Wanneer de stem wordt gecombineerd met de gezichtsuitdrukking, zijn de resultaten al een heel stuk beter.

Van Hessen: "Het zal voorlopig vooral een ondersteunende dienst zijn voor artsen. Als de technologie goed genoeg is en bijvoorbeeld in een horloge is in te bouwen, dan kan het wel een mooie steun zijn voor verplegend personeel of de patiënt zelf."

Hoe depressief ben jij? Doe de test van Quest