Amsterdam, oktober 2016

Liplezen bij computerspraak

Wanneer we met elkaar in gesprek zijn (en elkaar kunnen zien) doen we onbewust aan liplezen, en dit helpt bij het verstaan. Maar hoe zit dit bij computerspraak? Helpt het als een spraaksynthesizer via "visemen" een animatie van een gezicht laat zien?

Op de vijfde editie van het DRONGO talenfestival hebben we bezoekers gevraagd om deel te nemen aan een onderzoekje: het geluid stond uit, en de deelnemers moesten op basis van de animatie telkens raden welk van 4 woorden er werd uitgesproken. Het idee was: wie boven kansniveau scoort kan liplezen.

Elke deelnemer kreeg eerst een item om te oefenen met de applicatie. Daarna werden 10 items gepresenteerd die meetelden voor de score. Telkens werden 4 woorden willekeurig gekozen uit een lijst van ruim 3000 woorden van 1 of 2 lettergrepen. Het toeval bepaalde ook welk van de 4 woorden er werd uitgesproken (met het geluid uit!). Als je een keuze had gemaakt, kreeg je te horen of dat goed of fout was.

Resultaten eerste dag

De eerste dag hebben 22 bezoekers de proef gedaan, en hun gemiddelde score was 7,00.

Als je naar de spreiding van de data kijkt (zie de grafiek rechts), dan liggen de scores ook netjes rond het gemiddelde.

Niemand had minder dan 4 items goed, dus het is onwaarschijnlijk dat deze resultaten het gevolg zijn van blind gokken.

Conclusie: deze mensen konden redelijk-tot-zeer-goed liplezen!

Resultaten tweede dag

De tweede dag waren de resultaten heel wat minder duidelijk. De 23 bezoekers die op deze dag meededen aan de proef hadden een gemiddelde score van 5,96, een mager zesje.

En kijken we naar de spreiding van de data: weliswaar had iemand alle 10 items goed, er was ook iemand die slechts 1 item goed had. Met blind gokken zou je al hoger moeten scoren!

Daarnaast valt op dat relatief veel deelnemers slechts 4 van de 10 goed scoren. Dat is maar net boven kansniveau.

Resultaten over beide dagen

In totaal hadden we dus 45 deelnemers, en de gemiddelde score was 6,47.

De spreiding van de data ondersteunt wel het idee dat mensen in staat zijn tot liplezen bij een computergestuurde animatie van een sprekend gezicht, maar het is niet zo dat iedereen dit gemakkelijk afgaat.

Wat hiervan te denken?

Observaties en conclusies

Achteraf bezien was het nuttig geweest als we van elke deelnemer aan de proef wat meer gegevens hadden vastgelegd, zoals geslacht, leeftijd en opleiding of beroep. Informele observaties suggereren dat dit wel degelijk een rol heeft gespeeld. Zo had ik de stellige indruk dat jonge vrouwen beter scoorden dan oudere heren. Maar ja, wat betekent dat dan?

Ook waren er, met name de eerste dag, relatief veel deelnemers werkzaam in de logopedie, en zij scoorden over het algemeen behoorlijk goed. Ja, daar kun je je wel wat bij voorstellen!

Met name deelnemers die moeite hadden met de proef gaven vaak als commentaar dat ze de animatie te schokkerig vonden. Inderdaad wordt in onze implementatie voor elke spraakklank maar één plaatje getoond, het is geen vloeiende animatie. Hier valt dus nog wel wat te verbeteren.

Waar het blijkbaar echt mis ging op het technische vlak was bij het woord zwart. Dit kwam voor in het oefenitem: Wat zeg ik? rood, groen, blauw of zwart. Elke keer als zwart werd uitgesproken hadden de deelnemers de indruk dat er een woord van twee lettergrepen werd gezegd, zoiets als "zwarret". Dit is dus iets waar we goed naar moeten kijken: wellicht klopt onze mapping van spraakklanken naar visemen hier niet helemaal.

Wat ik tot slot opvallend vond was dat de jongste deelnemer, het zoontje van een collega, vlotjes en zonder aarzelen 8 van de 10 goed scoorde, terwijl de organisatie van het festival een filmcamera op hem gericht had. Ach ja, in het onderwijs krijg je bijna dagelijks vreemde multiple-choicetests, waarvan doel en nut niet helemaal duidelijk zijn. Niet iets om nerveus van te worden!

De hamvraag is natuurlijk: helpt een animatie met visemen bij het verstaan en begrijpen van computerspraak? Voorzover je daar op grond van dit bescheiden onderzoekje iets over kunt zeggen: het lijkt wel zo te zijn dat zo'n animatie iets bijdraagt dat door mensen wordt waargenomen, maar als de animatie als onnatuurlijk wordt ervaren kan het effect klein of zelfs negatief zijn.

Hartelijk dank aan iedereen die heeft meegewerkt aan dit onderzoek!

-- Arthur Dirksen / Fluency