Grammatikundervisning för datorer – ny avhandling från Växjö universitet
Med det ständigt växande informationsflödet växer också vårt behov av bra datorhjälpmedel för att automatiskt söka och gallra. Eftersom informationen till övervägande del alltjämt finns i texter på naturligt språk (språk som svenska, kinesiska och småländska), kräver detta att vi också utvecklar datorsystem som i någon mån kan förstå vårt mänskliga språk. Detta är ett av målen med den forskning som bedrivs inom språkteknologi, ett område som ligger i gränslandet mellan datavetenskap och språkvetenskap.Ett viktigt steg mot en förståelse av innehållet i en mening är att förstå den grammatiska strukturen, t.ex. vad som är subjekt respektive predikat. Vi måste med andra ord lära våra datorer att ta ut satsdelar, något som visat sig vara mycket knepigare än man till en början föreställt sig, till stor del beroende på det mänskliga språkets närmast oändliga variationsrikedom men också på grund av det faktum att det mänskliga språket inte så lätt låter sig beskrivas i vattentäta regler. Ingen regel utan undantag, som det brukar heta.
I en ny avhandling i datavetenskap från Växjö universitet föreslår Joakim Nivre en delvis ny metod för att tackla detta problem, en metod som till väsentlig del bygger på att datorsystemen själva kan generalisera från analyserade språkliga exempel. I stället för att från början programmera in all den kunskap som behövs för att förstå meningars grammatiska struktur, förser man datorsystemet med en generell mekanism för inlärning, så att dess förmåga att förstå den grammatiska strukturen i meningar förbättras i takt med att man matar det med fler exempel.
Den föreslagna metoden har flera fördelar, varav den kanske viktigaste är att systemen blir mer robusta i den bemärkelsen att de kan analysera även strukturer som de aldrig tidigare har mött genom att generalisera från liknande exempel i det förflutna. Men metoden gör det också möjligt att genomföra analysen på ett mycket effektivt sätt, vilket inte är oväsentligt om man vill behandla stora volymer text på kort tid.
I avhandlingen utvärderas metoden på material från svenska och engelska, men den har även tillämpats med framgång på så varierande språk som tjeckiska, danska, bulgariska, kinesiska, italienska och turkiska. I själva verket är en av fördelarna med metoden att den är språkoberoende i den meningen att den kan tillämpas på vilket språk som helst, under förutsättning att det finns en databas med analyserade meningar att tillgå. Ju fler exempel desto bättre resultat, men det räcker med ett tusental meningar för att få en någorlunda godtagbar kvalitet.
———————————————————
Joakim Nivre är verksam vid Matematiska och systemtekniska institutionen vid Växjö universitet sedan 2000. Han arbetade dess förinnan vid Göteborgs universitet, där han disputerade i allmän språkvetenskap 1992.
Avhandlingen ”Inductive Dependency Parsing of Natural LanguageText” försvaras den 26 oktober 2005, kl. 10.15. Disputationen äger rum i sal Weber, Universitetsplatsen 1, Växjö universitet. Opponent är professor Walter Daelemans, Universiteit Antwerpen.
Kontaktinformation
För mer information kontakta Joakim Nivre, telefon: 0470-70 89 92 eller ev. mobiltelefon, e-post: Joakim.Nivre@vxu.se.
Beställ boken från Kerstin Brodén, Växjö University Press, 0470-70 82 67, e-post: kerstin.broden@vxu.se