Människor och maskiner, som robotar, kan kommunicera bättre om det finns ögonkontakt. Det visar forskning där försökspersoner bland annat har fått laga mat med hjälp av en liten köksassistent med ”ögon”.
”Siri”, ”Alexa” och andra röststyrda digitala assistenter har en del hunnit bekanta sig med. Varje gång man vill ha kontakt med assistenten måste man säga en speciell hälsningsfras, som ”Hej, Siri!”.
Men det är ett onaturligt sätt att kommunicera och dessutom uppstår ofta missförstånd. För att skapa ett bättre samspel mellan människa och maskin behöver man ta in fler komponenter från mellanmänsklig kommunikation. Det menar Razan Jaber som har disputerat i ämnet vid Institutionen för data- och systemvetenskap vid Stockholms universitet.
– När du och jag pratar med varandra använder vi blickar för att stämma av att den andra lyssnar och förstår. Gester, miner, tonfall och kroppsspråk hjälper också till, säger Razan Jaber.
Fick bygga maskin med ögon
I experiment i sin forskning har Razan Jaber testat om kommunikation mellan människa och digital assistent förbättras när assistenten ”väcks” av att användaren tittar på den, och när assistenten kan visa att den lyssnar.
För att genomföra försöken behövdes en robotliknande högtalare med rörligt huvud och lysande ”ögon”. Någon sådan fanns inte på marknaden, så Razan Jaber och forskarkollegor i bland annat Japan tog själva fram en variant. De kallar den Tama.
Ögon lyser i olika färger
Tamas ögon lyser i gult, grönt eller rosa beroende på om den vilar, lyssnar eller pratar. Maskinen ifråga är ingen chattbot som självständigt svarar på frågor, utan snarare en smart högtalare som reagerar på mänskligt tal och mänskliga blickar.
Försökspersonen får intrycket av att maskinen agerar självständigt, men i själva verket kontrolleras den av en forskare som vill kunna iaktta kommunikationen.
Hjälp med lego, semester och matlagning
I ett försök fick deltagare bygga en legomodell med Tamas ”vägledning”. I ett annat experiment ombads två försökspersoner att, med Tamas hjälp, diskutera sig fram till vart de ville åka på semester. Vuxna i olika åldrar har också lagat mat med Tama som assistent.
Forskarteamet hade lagt in olika typer av information i systemet, till exempel alternativa ingredienser och tips för att underlätta matlagningen. Om testpersonen frågade kunde Tama till exempel tala om att smör kan ersättas med olja, eller att en mjölredning kan få soppan att tjockna. Men alla frågor kunde inte besvaras.
Ögonkontakt underlättar
En slutsats utifrån experimenten är att ögonkontakt kan göra att samtal flyter smidigare. Men utmaningar finns också. I ett matlagningsexperiment var samtliga testpersoner över 65 år och hade ibland svårt att höra och förstå instruktionerna.
Razan Jaber noterar också att försökspersonerna ibland talade med systemet som om de talade med en människa.
– De kunde till exempel fråga ”Var finns saxen?” och förväntade sig att Tama skulle ha koll på kökslådorna.
Sådana här system skulle även kunna ta hänsyn till gester, minspel och kroppsspråk, enligt Razan Jaber. För Tamas del väntar en uppgradering i form av hjul, för ökad rörlighet.
Maskiner diskuterar med oss
Med den senaste tidens utveckling inom generativ AI – alltså AI som kan skapa något nytt, som konst, texter och film – är det sannolikt att vi kommer kunna kommunicera mer naturligt med röststyrda assistenter framöver, säger Razan Jaber.
– Assistenterna kommer att bidra i diskussioner och möten på ett helt annat sätt, och även lösa mer avancerade problem.
Avhandling:
Towards Designing Better Speech Agent Interaction: Using Eye Gaze for Interaction, Stockholms universitet.
Kontakt:
Razan Jaberibraheem, Institutionen för data- och systemvetenskap, Stockholms universitet
razan@dsv.su.se