Nya modeller för effektivare sökning på nätet
De flesta av oss har någon gång letat information på Internet. Ett utmärkt verktyg för att hitta vad man söker är Google och trots att webben innehåller flera miljarder dokument så hittar Google ofta vad vi söker. Men ibland är det svårt att komma på rätt sökord. Antingen får man inga träffar alls eller också sida upp och sida ner med dokument som helt enkelt inte innehåller den information man är ute efter. Problemet kan vara att sökorden är för ovanliga eller för vanliga, kanske tvetydiga eller så beskrivs det man söker efter med andra ord i dokumenten. Ett sätt att precisera sin sökning och därmed få bättre träffar är att använda flerordsuttryck, exempelvis ”Växjö universitet”, ”Former president Bill Clinton” eller ”Göran Persson”. I en ny avhandling från Växjö universitet presenterar Leif Grönqvist nya datamodeller för en effektivare informationssökning på nätet.
Det finns en matematisk modell som kallas ”Latent semantic indexing” (LSI) och som används i en del söksystem. Principen är att man utifrån en stor dokumentsamling tar fram en metod att omvandla ord och dokument till vektorer. Dessa vektorer kan med enkel matematik jämföras så att man kan se vilka ord som är betydelsemässigt relaterade och även vilka dokument som handlar om liknande saker. Vid en typisk sökning så kan modellen användas direkt genom att omvandla sökfrågan till en vektor och därefter ta fram listan på dokument vars vektor ligger närmast sökfrågevektorn. Denna metod har visat sig förbättra kvaliteten på träffarna vid dokumentsökning.
Leif Grönqvists avhandling är en utredning om i vilken utsträckning LSI kan omformuleras till att även hantera flerordsuttryck. För att avgöra hur LSI påverkas av att lägga till flerordsuttryck, vilket är långt ifrån oproblematiskt, har Grönqvist gjort en stor mängd experiment med modeller anpassade på olika sätt. Under hela arbetet har han strävat efter att hålla så mycket som möjligt av systemet språkoberoende för att i framtiden möjliggöra sökning av dokument på alla tillgängliga språk.
Resultaten vad gäller förbättrad kvalitet på sökningar varierar men är övervägande bättre för modeller som även innehåller flerordsuttryck. Grönqvists undersökningar väcker också nya forskningsfrågor om hur man skall ta tillvara på informationen från flerordsuttryck i sökfrågor och dokument för att få bästa möjliga resultat. Arbetet har också lett fram till generella resurser användbara vid liknande utvärderingar, i form av en utvärderingsdatabas för svensk synonymtest, och nya utvärderingsmått för dokumentsökning.
Leif Grönqvist arbetar idag på ett företag i Göteborg som utvecklar en produkt för datavisualisering. Innan doktorandstudierna i Växjö 2001-2006 var han verksam vid Göteborgs universitet.
Avhandlingen ”Exploring Latent Semantic Vector Models Enriched With N-grams” försvaras den 29 november 2006, kl. 13:15 i sal Weber, Universitetsplatsen 1, Växjö universitet. Opponent är professor Helena Ahonen-Myka från Department of Computer Science, University of Helsinki.
Kontaktinformation
Ytterligare information
För mer information kontakta Leif Grönqvist, e-post: leif.gronqvist@gmail.com.
Beställ boken från Kerstin Brodén, Växjö University Press, 0470-70 82 67, e-post: vup@vxu.se