Syntetiska ansikten hjälper hörselskadade
Med hjälp av datoranimerade ansikten kan hörselskadade snart läsa på läpparna genom telefonen. Kraftfullare datorer och bättre metoder för animeringen gör uttryck och rörelser hos syntetiska ansikten så naturliga att de kan användas för läppavläsning. Kvaliteten skiljer sig bara marginellt från videofilmade naturliga ansikten, visar forskning på KTH.
– Animeringen kan till exempel styras via ett text-till-tal-system där vanlig text omvandlas till syntetiskt tal. Parallellt med detta skapas naturtrogna rörelser för det syntetiska ansiktets läppar, käke och tunga, som är synkroniserade med talet, säger Jonas Beskow på KTH, som i dagarna disputerar på forskning kring automatiska metoder för datoranimering av talande ansikten med hjälp av tredimensionella modeller.
Samma princip går att tillämpa på naturligt tal, som när talsignalen i telefonen omvandlas till rörelser hos ett datoranimerat ansikte och ger möjlighet att läsa på läpparna.
I bullriga miljöer eller vid hörselskada, ökar behovet av att se munrörelser och ansiktsuttryck på den man talar med. Ett talande datoranimerat ansikte kan vara ett mycket effektivt hjälpmedel för att bättre uppfatta vad som sägs, och just hjälpmedel för hörselskadade är en viktig tillämpning av syntetiska ansikten.
De kan också få dialogen att flyta smidigare och kännas mer naturlig när en användare ska föra en dialog med datorn för att få tillgång till information eller tjänster. Sådana talbaserade dialogsystem används bland annat inom datorbaserad inlärning, elektronisk handel och virtuella världar och spel och ingår också i Jonas Beskows forskning. En anledning till att dialog med datorer ibland känns klumpig är att turtagningen inte fungerar, d.v.s. det är svårt att veta när man kan prata och när man bör lyssna.
– I avhandlingen beskriver jag en metod för att generera lämpliga ansiktsuttryck och rörelser av huvud, ögon och ögonbryn för att bland annat få turtagningen att fungera bättre i sådana system, säger Jonas Beskow.
För att få ansiktet att röra sig så naturtroget som möjligt har rörelser för en naturlig talares tunga och ansikte spelats in. Ansiktets rörelser har registrerats med hjälp av ett optiskt rörelseinspelningssystem som lagrar 3D-koordinaterna för ett antal reflekterande punkter klistrade i ansiktet.
För tungans rörelser användes ett system där med små elektromagnetiska spolar på tungan vilkas position sedan kan bestämmas på elektrisk väg. Utifrån dessa data har sedan statistiska modeller för ansiktets och tungans rörelser ”tränats” för att återskapa den riktiga talarens artikulation så bra som möjligt.
För att bedöma kvaliteten på rörelserna, har en serie försök utförts, där personer har ombetts återge vad de uppfattar när ansiktet rör sig. Att uppfatta hela meningar genom att enbart ”läsa på läpparna” är en för svår uppgift, därför presenterades ansiktet med tillhörande naturligt tal. För att testet inte skulle bli för lätt förvrängdes talet så att bara ca vart tredje ord (32 %) uppfattades korrekt då enbart ljudet presenterades. När även det syntetiska ansiktet visades ökade uppfattbarheten till 61 %. Som jämförelse till det syntetiska ansiktet testades även ett videofilmat naturligt ansikte, för vilket uppfattbarheten steg ytterligare till 66 %.
Avhandlingens titel: ”Talking heads-models and applications for multimodal speech synthesis”
Tid: Onsdag 11 juni kl. 10.00
Plats: Sal E1, Lindstedtsvägen 3, KTH Campus Valhallavägen
Kontaktinformation
Mer information: Jonas Beskow, 08-790 8965, beskow@speech.kth.se