Algoritmernas träffsäkerhet kan testas vid bröstcancer
BröstcancerArtificiell intelligensCancerMånga regioner ligger i startgropen för att använda artificiell intelligens vid mammografi. Men hur skickliga är algoritmerna på att upptäcka bröstcancer? En ny plattform som utvärderar olika AI-system ska ge svar.
I dag finns ett tiotal godkända AI-system för screening av bröstcancer. Men hittills har det varit svårt att objektivt utvärdera hur träffsäkra algoritmerna är.
Nu har forskare vid Karolinska institutet utvecklat en nationell valideringsplattform som kan jämföra hur bra olika AI-system är på att upptäcka tecken på bröstcancer.
Hittills har plattformen använts för att påbörja utvärdering av tre olika företags algoritmer, som baseras på cirka 40 000 mammografibilder från tre regioner i Sverige.
– Det är viktigt att utvärdera den diagnostiska träffsäkerheten hos de AI-algoritmer som kan komma att användas kliniskt. Även om de uppfyller regelkraven betyder det inte att de fungerar bra i alla sammanhang, säger forskaren Fredrik Strand vid Karolinska institutet.
Koden görs tillgänglig
I en studie beskriver forskarna hur de gått till väga. Förhoppningen är att fler ska kunna skapa liknande plattformar.
– Genom att göra vår kod fritt tillgänglig hoppas vi att den kommer till nytta vid utvärderingar av algoritmer för fler cancerformer än bröstcancer, säger Fredrik Strand.
Möjligheten att objektivt utvärdera olika algoritmer är efterlängtad, menar han. Flera regioner i landet ligger redan i startgroparna för att använda AI inom mammografiscreening.
– Därför är det bråttom att få system på plats som kan utvärdera algoritmer under lokalt relevanta förhållanden. Det är viktigt att varje sjukhus väljer rätt system utifrån sina förutsättningar för att inte riskera att missa en bröstcancer eller återkalla onödigt många friska kvinnor, säger Fredrik Strand.
Skillnader i träning och teknik kan upptäckas
I dag finns ingen enhetlig utvärdering av algoritmers träffsäkerhet inom medicinsk diagnostik. Det beror på att tillverkarna av AI-system både tränat och testat sina algoritmer på olika mammografibilder.
I plattformen får alla algoritmer bearbeta samma bilder, och resultatet jämförs sedan med ett ”facit” på faktiska cancerdiagnoser från Nationellt kvalitetsregister för bröstcancer.
Det gör det möjligt att visa skillnader hos algoritmerna som kan bero på hur de är tränade samt vilka tekniker och metoder som använts vid respektive mammografiscreening. Eftersom dagens AI-algoritmer har tränats på specifika befolkningsgrupper som utvecklarna haft tillgång till kan de innehålla bias* som snedvrider resultatet.
– Plattformen kommer även att kunna visa vilka bias som finns hos en algoritm, främst när det gäller ålder, geografiskt ursprung och socioekonomisk status, säger Fredrik Strand.
Hjälp för tillverkare
Förhoppningen är att detta sätt att testa algoritmer ska hjälpa tillverkare att förbättra sina egna produkter.
– Det gäller dock att vården bidrar till utvecklingen genom att sätta som krav på tillverkarna att delta i oberoende tester, till exempel inför en upphandling, säger Fredrik Strand.
Regioner kan använda plattformen
Utvecklingen av plattformen har skett inom ramen för ett forskningsprojekt som avslutas 2024. Forskarna ska nu ta fram förslag till hur plattformen kan permanentas för nationell användning. Samtidigt bjuds fler regioner in att utnyttja plattformen redan i dag.
– Vi vill gärna att fler regioner tar chansen att ta del av denna möjlighet. Även när det gäller att utvärdera andra algoritmer än de tre som redan finns installerade, säger Fredrik Strand.
Pilotprojektet startade 2021 och plattformen blev klar under förra året.
Studie:
VAI-B: A multi-center platform for the external validation of artificial intelligence algorithms in breast imaging, Journal of Medical Imaging.
Kontakt:
Fredrik Strand, och forskare vid Institutionen för onkologi-patologi, Karolinska Institutet och röntgenläkare vid Karolinska universitetssjukhuset, fredrik.strand@ki.se