Maskininlärning för att analysera persondata inom verksamheter som e-handel, sjukvård och inom finansiella tjänster. Men känsliga personuppgifter kan läcka i processen. Forskare vid Högskolan i Skövde, föreslår nu bättre sätt att anonymisera data
Att publicera personuppgifter digitalt, utan att använda några dataskyddsmekanismer, kan kränka individernas integritet. Därför tillämpar de som är ansvariga för personuppgifter olika dataskyddsmekanismer, till exempel dataanonymisering, innan personuppgifter publiceras. Men det är viktigt att säkerställa att resultaten av dessa dataanalysmetoder också bevarar de bakomliggande individernas integritet.
Risk att känslig information om persondata läcker ut
Maskininlärning (machine learning, ML) är en av de mest använda dataanalysmetoderna som tränar datorer i att känna igen och lära sig mönster från data för att lösa komplexa uppgifter. Det används inom en mängd olika verksamheter, där insamlade personuppgifter används för att träna ML-modellerna. Men ny forskning visar att ML-modellerna, genom sin utdata, kan läcka integritetskänslig information om den persondata som används.
Det innebär att ML-modeller medför integritetssårbarheter som kan utnyttjas för att få fram känslig information om de individer vars data används för modellträning. Därför är det mycket viktigt att förstå integritetssårbarheterna i ML innan personuppgifter används för modellträning.
Modell visar risken för attacker mot integriteten
Navoda Senavirathne, doktorand vid Högskolan i Skövde, vill bredda vår förståelse av integritetssårbarheterna i ML. Samtidigt föreslår hon i sin avhandling lämpliga begränsningsstrategier för dessa sårbarheter.
Hon har tagit fram en integritetsattackmodell som överträffar de befintliga attackmodellerna som utnyttjar integritetssårbarheterna i ML. Det visar att dessa begynnande integritetsrisker inte längre är teoretiska utan också praktiska.
GDPR gäller sedan 2018
EU:s dataskyddsförordning General Data Protection Regulation, GDPR, trädde i kraft 2018. Den innebär bland annat hårdare krav på hantering av personuppgifter. Dataskyddsförordningen gäller för alla organisationer och branscher som sparar eller på något sätt hanterar personlig och känslig information om sina anställda eller sina kunder.
Anonymisering av data har fördelar – men kan bli bättre
– Jag har även studerat dataanonymisering som en potentiell begränsningsstrategi för befintliga integritetsattackmodeller, samtidigt som jag betonar fördelarna med dataanonymisering för både organisationer och individer. Dessutom uppmärksammar jag vissa områden av GDPR som är vaga och i konflikt med användbarhets- och integritetsaspekten i ML. Därför måste lagstiftarna ompröva dem, säger Navoda Senavirathne.
Navoda Senavirathne analyserar också utmaningarna med att anpassa de vanligaste anonymiseringsmetoderna och föreslår en förfinad dataanonymiseringsmetod som fungerar i ML-sammanhang. Genom systematiska experiment visar hon att befintliga dataanonymiseringsmetoder minskar integritetsriskerna för ML-modeller endast under vissa förutsättningar.
Underlättar för de som hanterar personuppgifter
– Dessa fynd inspirerade mig att ta fram ett tillvägagångssätt för sekretessbevarande ML-modellval. Jag tror att min forskning kommer underlätta för de som arbetar med personuppgifter att träna användbara ML-modeller för kunskapsutvinning, samtidigt som de säkerställer individernas integritet, säger Navoda Senavirathne.
Avhandling:
Kontakt:
Navoda Senavirathne, Institutionen för informationsteknologi, Högskolan i Skövde, navoda.senavirathne@his.se