Kommunal Sundhed

Dagens Pharma

Praktisk Medicin

Kontakt

Annoncer

Ferieboligannoncer

Søg

Announcement for DM

Forskning

Dataloger udvikler metode til at beskytte sundhedsdata

Udgivet:
Kommentarer (0)

Der har været international interesse for den metode, som ph.d.-studerende Joel Daniel Andersson har været med til at udvikle. I august sidste år holdt han en Google Tech Talk om metoden.

Forskere fra Københavns Universitet har udviklet en ‘differential privacy’-metode, som eksempelvis kan bruges til at beskytte patienters sundhedsdata i forskning. Den er hurtigere og giver en bedre privatlivsbeskyttelse end nuværende metoder, fortæller en af forskerne bag.


Det er en svær balancegang at udnytte sundhedsdata bedst muligt i forskning, samtidig med at patienternes oplysninger og privatliv bliver beskyttet.

Med vores algoritme eller metode kan du slippe afsted med at tilføje mindre støj med den samme garanti for privatlivsbeskyttelse ved hver træning af din model

Joel Daniel Andersson, ph.d.-studerende, Københavns Universitet

Nu har et hold af dataloger fra Københavns Universitet (KU) udviklet en hurtigere og mere præcis metode eller algoritme til at beskytte datasæt, som bliver brugt til machine learning.

Det fortæller Joel Daniel Andersson, som er ph.d.-studerende ved Datalogisk Institut på KU og har været med til at udvikle metoden.

»Hvis du gerne vil træne en machine learning-model til eksempelvis at forudsige risikoen for at udvikle brystkræft, så er det vigtigt, at de enkelte personer i datasættet er beskyttet. Du vil ikke afsløre viden om patienterne,« siger Joel Daniel Andersson og fortsætter:

»Vores metode kan give patienter en stærkere beskyttelse af deres privatliv. Da garantien for privatlivsbeskyttelsen er bedre, kan den også gøre mere data tilgængelig (for forskerne, red.).«

Resultaterne blev præsenteret på den årlige konference NeurIPS, som blev afholdt i december i New Orleans i USA. Forskerne forventer, at NeurlPS publicerer studiet inden for de næste måneder.

Indtil at det færdige studie bliver publiceret, er der et preprint tilgængeligt hos arXiv.

Højere dataværdi

Den nye metode er udviklet inden for området ‘differential privacy’. Differential privacy dækker over en matematisk tilgang eller framework til at give privatlivsbeskyttelse.

Forskernes algoritme virker ved at tage et datasæt som input og producere et eller flere output, hvor der er tilføjet støj. Støjen er tilføjet for at beskytte deltagerne i datasættet og sikre, at dataene ikke kan forbindes til enkeltindivider.

Støjen forurener outputtet, og derfor er det bedst at tilføje så lidt støj som muligt for at sikre, at de outputs, som man får, har så høj værdi som muligt.

Den metode, som Joel Daniel Andersson har udviklet sammen med Rasmus Pagh, professor på KU, tilføjer mindre støj end andre nuværende metoder, mens den giver samme niveau af beskyttelse.

»Du har brug for en algoritme, der fortæller dig, hvor meget støj du skal tilføje, når du træner din machine learning-model. Med vores algoritme eller metode kan du slippe afsted med at tilføje mindre støj med den samme garanti for privatlivsbeskyttelse ved hver træning af din model,« forklarer Joel Daniel Andersson og fortsætter:

»Så når du træner din model, vil hver update være tættere på at reflektere den rene version uden støj. Derfor burde den færdige model være mere præcis og have højere nytteværdi.«

Hurtig med lave udgifter

Når man måler på niveauet af støj, der bliver tilføjet til output fra datasæt, findes der andre metoder, der er bedre end Joel Daniel Andersson og hans kollegas algoritme.

Hvis vi kan give et højt niveau af privatlivsbeskyttelse til patienter og dermed adgang til meget mere data, så giver det mulighed for at sætte skub i medicinsk forskning

Joel Daniel Andersson, ph.d.-studerende, Københavns Universitet

Til gengæld er deres metode hurtig og bruger mindre hukommelse. Det betyder, at den har et lavt forbrug af computerkraft, som bliver afspejlet i lavere udgifter.

Når man arbejder med machine learning og store datasæt, er det netop vigtigt, at ens metode skalerer vel, pointerer Joel Daniel Andersson.

»Der findes andre metoder, som er bedre end vores og tilføjer endnu mindre støj. Men grunden til, at vores metode stadig er interessant, er, fordi de metoder er for langsomme og bruger for meget hukommelse til at blive brugt i praksis.«

»Vores metode er hurtig. Vi forsøger at presse så meget ud af forbruget af computerkraft for at give det bedst mulige trade-off mellem efficiens og effektivitet,« siger Joel Daniel Andersson.

Adgang til mere data

Metoden kan også være brugbar i forbindelse med kliniske forsøg. Patienter, som deltager i kliniske forsøg, skal give informeret samtykke.

Hvis patienterne eksempelvis glemmer at give samtykke, så bliver dataene forringet.

Men det kan ifølge Joel Daniel Andersson være moralsk forsvarligt at gå væk fra kravet om samtykke, hvis man til gengæld kan garantere, at patienternes privatliv ikke bliver krænket.

Dermed vil man kunne opnå endnu bedre datasæt med fuld deltagelse. Det vil omvendt kunne kompensere for den forringelse af output fra datasættet, som støjen giver.

»Hvis vi kan give et højt niveau af privatlivsbeskyttelse til patienter og dermed adgang til meget mere data, så giver det mulighed for at sætte skub i medicinsk forskning ganske enkelt, fordi du har mere data,« siger Joel Daniel Andersson.

Del artiklen:

Kommentarer


Log ind eller registrer dig for at kommentere
Bliv den første til at kommentere

Læs mere