25-årig praxis för utvärdering av dataanalys värdelös i praktiken
Så kallade ”intelligenta” datorbaserade metoder för klassificering av till exempel patientprover har i 25 år utvärderats med hjälp av två metoder som helt dominerat forskningen. Nu visar forskare i beräkningsmedicin vid Uppsala universitet att denna metodik är värdelös för praktiska problem. Artikel publiceras i tidskriften Pattern Recognition Letters.
Intresset växer idag snabbt för ”intelligenta” datorbaserade metoder som med hjälp av exempel på olika klasser av mätsignaler, till exempel från olika patientprover, kan bygga en modell för att klassificera nya observationer. Denna typ av metoder ligger till grund för många tekniska tillämpningar, som igenkänning av mänskligt tal, bilder och fingeravtryck, och börjar nu också attrahera nya områden som hälso- och sjukvården.
– Särskilt i tillämpningar där fel klassificeringsbeslut kan få katastrofala följder, till exempel att man väljer fel terapiform vid cancerbehandling, är det mycket viktigt att kunna göra en pålitlig uppskattning av klassificeringsmodellens prestanda, förklarar Mats Gustafsson, professor i signalbehandling och medicinsk bioinformatik vid Uppsala universitet, som lett den nya studien tillsammans med docent Anders Isaksson.
För att utvärdera vilken prestanda en klassificeringsmodell har testar man den vanligen på ett antal testexempel som aldrig varit inblandade vid designen av modellen. Tyvärr finns sällan tiotusentals testexempel tillgängliga för denna typ av utvärdering. Inom biomedicin är det till exempel ofta dyrt och svårt att samla in de patientprover som krävs, särskilt då man vill analysera en sällsynt sjukdom. För att lösa det här problemet har man föreslagit många olika metoder. Sedan 1980-talet har två metoder helt dominerat forskningen, nämligen korsvalidering (cross validation) och återsampling (resampling/bootstrapping).
– Det har inneburit att prestandautvärdering av i stort sett alla nya metoder och tillämpningar som rapporterats i vetenskaplig litteratur under de senaste ca 25 åren har genomförts med någon av dessa metoder, säger Mats Gustafsson.
I den nya studien visar Uppsalaforskarna med hjälp av både teori och övertygande datorsimuleringar att den här metodiken i praktiken är värdelös när det totala antalet exempel är litet i förhållande till den naturliga variationen som finns mellan olika observationer. Vad som är ett litet antal beror i sin tur på vilket problem som studeras – det är alltså omöjligt att avgöra om antalet exempel är tillräckligt.
– Vår huvudslutsats är att man inte alls kan lita på denna metodik, och att den därför omedelbart måste ersättas med till exempel Bayesianska metoder som kan leverera pålitliga mått på den osäkerhet som finns. Först då har multivariata analyser förutsättningar för att få genomslag i kritiska tillämpningar som sjukvården, säger Mats Gustafsson.
A. Isaksson, M. Wallman, H. Göransson, M.G. Gustafsson Cross-validation and bootstrapping are unreliable in small sample classification Pattern Recognition Letters Volume 29, Issue 14, Pages 1960-1965 (15 October 2008)
Kontaktinformation
För mer information, kontakta professor Mats Gustafsson, 018-611 42 41, e-post: Mats.Gustafsson@medsci.uu.se eller docent Anders Isaksson, 018-611 97 82, e-post: Anders.Isaksson@medsci.uu.se.