Datoriserade telefontjänster kan göras bättre med rätt kunskap om språk och sammanhang
I takt med att automatiska telefontjänster har blivit allt vanligare har också människors frustration över att inte bli förstådda av datorerna ökat. Datorers möjlighet att förstå talat språk idag är väldigt begränsad, men mer kunskap om språket och hur en dialog förs kan göra datoriserade tjänster avsevärt bättre. Det visar en avhandling i lingvistik inom området språkteknologi från Göteborgs universitet.
Automatiska interaktiva telefontjänster börjar bli allt vanligare och många människor har därför själva upplevt problematiken med att få en dator att förstå vad de säger, till exempel när de vill boka en resa eller ha en tidtabelluppgift. Ett av problemen med dessa automatiska telefontjänster, så kallade dialogsystem, är den bristfälliga teknologi som används för att känna igen själva talet, taligenkänningen.
– De metoder som tillämpas kommersiellt idag förlitar sig endast på minimal kunskap om språket. Vad talaren säger missförstås ofta. Dialogsystemet förstår heller inte varför det blir fel och det påverkar användarens intryck av hela tjänsten, säger avhandlingens författare Rebecca Jonson.
Att vi människor är bättre på att känna igen tal beror på att vi använder oss av mycket mer kunskap och information när vi försöker känna igen vad någon säger. Till exempel verkar vi använda oss av information från den pågående dialogen samt vår djupa kunskap om språket när vi bearbetar det vi hör. Avhandlingens huvudsyfte har varit att undersöka om även automatisk taligenkänning kan tillgodogöra sig av den här typen av kunskap och information vid användning i dialogsystem.
Rebecca Jonson lät försökspersoner få i uppgift att försöka förbättra resultatet från en taligenkännare. Det framkom då att ju mer information som fanns om vad som sagts tidigare i dialogen, desto bättre presterade försökspersonerna. En datamodell skapades sedan för att utföra precis samma uppgift. I likhet med försökspersonerna presterade den automatiska modellen betydligt bättre när det fanns mer information om den pågående dialogen.
I sin forskning gjorde Rebecca Jonson också en studie där en datamodell togs fram för att automatisk avgöra hur korrekt resultatet av taligenkänningen var. Systemet hade möjlighet att använda sig av olika nivåer av lingvistisk information för att utföra uppgiften. Exempelvis togs hänsyn till om det yttrande som taligenkännaren känt igen var grammatiskt, vad det kunde ges för betydelse, och om det passade in i sammanhanget. Forskningsresultaten visade att modellen blev bättre på att avgöra om taligenkännaren hade känt igen rätt eller fel ju mer lingvistisk information den hade tillgång till.
– Om dagens system blir mer medvetna om sin egen kapacitet, och därmed kan avgöra när de förstått eller missförstått, så kommer den språkliga kommunikationen med datorer bli mycket smidigare, säger Rebecca Jonson. Användare kommer inte längre behöva svara på frågor i stil med ”Göteborg, är det korrekt?” för att bekräfta all information de ger ett system.
Kontaktinformation
Avhandlingens titel: Information State Based Speech Recognition
Avhandlingsförfattare: Rebecca Jonson, tel: +34 661 400 703
E-post: rj@ling.gu.se
Avhandlingen är försvarad och distribueras av: Institutionen för filosofi, lingvisitk och vetenskapsteori
Den finns även digitalt publicerad på: http://gupea.ub.gu.se/handle/2077/22169