Bild: Unsplash
Artikel från Lunds universitet

Den här artikeln bygger på ett pressmeddelande. Läs om hur redaktionen jobbar.

En analysmetod som används inom flera forskningsområden innehåller brister som kan leda till felaktiga resultat. Det innebär att en rad vetenskapliga slutsatser kan behöva omvärderas, menar forskaren.

Hastigheten med vilken vetenskaplig data samlas in ökar exponentiellt, något som leder till massiva och komplexa så kallade dataset. För att göra dessa mer hanterbara använder forskare statistiska metoder som syftar till att komprimera och förenkla data, samtidigt som nyckelinformationen bibehålls. Den mest använda metoden heter PCA (principalkomponentanalys). Det är denna metod som nu kritiseras i en artikel som publiceras i vetenskapstidskriften Scientific Reports.

– Tänk på PCA som en ugn där du har mjöl, socker och ägg som indata. Ugnen kan alltid göra samma sak, men resultatet, alltså själva kakan, beror helt på ingrediensernas förhållande och hur de kombineras, säger Eran Elhaik, forskare i molekylär cellbiologi vid Lunds universitet.

Får fram olika resultat

PCA används idag inom en rad vetenskapliga områden, men i studien fokuserar Eran Elhaik på populationsgenetiken, närmare bestämt forntida folk och hur de är besläktade. Där visar Elhaik att PCA kan generera radikalt olika resultat beroende datasetets egenskaper, vilket kan leda till missuppfattningar och felaktiga tolkningar. Resultaten påverkas av hur många individer från de olika grupperna som finns i datasetet. Det går alltså att nå en mängd olika resultat som alla är matematiskt ”korrekta”, men där bara ett kan vara biologiskt korrekt.

– Det förväntas att PCA kommer att ge korrekta resultat eftersom det används så ofta. Men jag kan visa att metoden varken är en garant för tillförlitliga eller statistiskt robusta slutsatser, säger han.

Slutsatser måste omvärderas

I studien, som pågått i över ett decennium, har Eran Elhaik undersökt de tolv vanligaste populationsgenetiska tillämpningarna av PCA. Det har han gjort både med hjälp av simuleringar och verkliga genetiska data för att visa hur flexibla PCA-resultat kan vara.

– Tiotusentals vetenskapliga artiklar enbart inom populationsgenetiken har använt PCA för att utforska likheter och skillnader mellan individer och populationer och baserat sina slutsatser på dessa resultat. Dessa slutsatser måste omvärderas, säger han.

Eran Elhaik hoppas att studien ska utveckla ett bättre förhållningssätt för att ifrågasätta resultat och därmed bidra till att göra vetenskapen mer tillförlitlig. Han nämner bland annat metoder som Geographic Population Structure (GPS) för att få fram biogeografi från DNA.

– PCA bidrar till att gamla uppfattningar om ras och etnicitet lever kvar. Metoden spelar en direkt roll i skapandet av historiska berättelser om var människor kommer ifrån, säger han.

Vetenskaplig artikel:

Principal Component Analyses (PCA)-based findings in population genetic studies are highly biased and must be reevaluated.

Kontakt:

Eran Elhaik, universitetslektor, Biologiska institutionen, Lunds universitet, eran.elhaik@biol.lu.se

Nyhetsbrev med aktuell forskning

Visste du att robotar som ser en i ögonen är lättare att snacka med? Missa ingen ny forskning, prenumerera på vårt nyhetsbrev!

Jag vill prenumerera