Datorsystem producerar sammanhängande texter på flera språk automatiskt
Om man vill utveckla datorsystem som på flera språk automatiskt ska kunna producera mer än enstaka meningar ur olika typer av databasinformation måste man veta vilka spelregler som gäller för textstruktur i varje språk, vilka språkliga mekanismer som gör att texter uppfattas som välformade och sammanhängande. Det visar en avhandling i språkvetenskaplig databehandling från Göteborgs universitet.
Allt mer information samlas i databaser av olika slag, i format som maskiner lätt ska kunna bearbeta, men som inte är lätta att ta till sig för människor. Den så kallade semantiska webben är i själva verket en enorm sådan databas. En möjlig lösning på problemet heter (automatisk) språkgenerering – datorsystem som producerar text ur olika typer av databasinformation. Detta är ett problem som mest har studerats för ett språk i taget, och absolut mest för engelska.
Dana Dannélls har undersökt empiriskt hur texter som beskriver museiföremål är strukturerade och formulerade på tre språk: engelska, svenska och hebreiska. Studien bygger på källmaterial från elektroniska museidata.
En viktig språklig mekanism hon tagit hänsyn till är konventionerna för hur man i texten refererar till samma person eller sak i världen. Kravet på att man ska variera sig uttrycksmässigt i skrivandet gör att samma föremål i en och samma text kan kallas ”Mona Lisa”, ”en målning”, ”tavlan”, ”mästerverket”, ”den” och så vidare.
– Det finns en mängd språkforskning som visar att dessa konventioner för så kallad koreferens varierar från språk till språk, så att koreferensmönster som passar för ett språk inte utan vidare kan användas på ett annat. Om man försöker kommer texten att uppfattas som konstig, ungefär som vid en del alltför bokstavliga översättningar. Men det finns för lite forskning om hur denna kunskap kan användas för att bygga flerspråkiga genereringssystem, säger Dana Dannélls.
Resultatet av hennes undersökning visar att det finns både gemensamma och språkspecifika drag som karakteriserar de tre undersökta språken, åtminstone vad det gäller den domän och den texttyp som undersökts.
I avhandlingen omsätts resultatet av den empiriska studien i ett datorsystem för att undersöka hur automatisk flerspråkig generering av beskrivande texter om museiföremål kan förbättras. Systemet används sedan för att låta försökspersoner utvärdera hur giltiga resultaten av undersökningen är. En av Dana Dannélls slutsatser är att skillnaderna mellan de olika språken gällande vad som uppfattas som sammanhängande snarast handlar om preferenser.
– De forskningsresultat som presenteras kommer att vara användbara för vidare utveckling av olika webbapplikationer som har till syfte att ge välsittande språklig dräkt till information ur olika sorters databaser inklusive den semantiska webben, men även att anpassa informationen till olika mottagares behov, säger Dana Dannélls.