In questi giorni stiamo terminando un Netaudit su una patologia con piccoli numeri.
Vi sono colleghi che hanno aderito all'audit ma poi non hanno riempito il form sui totali.
Questi colleghi non hanno avuto tempo o hanno ZERO casi?
Capite che la differenza tra le due situazioni e' grande e decisiva. Ed a fagiolo è giunta negli stessi giorni la lettura dell'ultimo libro dello statistico britannico Prof David Hand (Il tradimento dei numeri. I dark data e l'arte di nascondere la verità - Rizzoli 2019) in cui si cita l'esempio di un Audit sui traumi con più di di 160 mila casi, di cui 19 mila con esito sconosciuto. Secondo Hand in questo "Big Data" l' 11% di esiti sconosciuti può inficiare del tutto le conclusioni sulla gestione dei traumi (leggete sotto, nel Post-scritpum, alcuni suoi illuminanti passaggi) e in genere sulla utilità dei tanto decantati Big Data.
Vi e' un messaggio nell'ultima frase che sembra diretto a noi cultori di Netaudit che in genere coinvolgono poche decine di MMG: "i problemi dei dark data non riguardano esclusivamente i big data, ma possono emergere anche con piccoli dataset (« collezioni di dati»)"
Nel nostro caso, abbiamo da valutare un Audit con una decina di MMG aderenti. La piccolezza e' limitante, ma quantomeno da' la possibilità di telefonare ai pochi MMG che non hanno inviato dati per sapere se il non-invio equivale o no a "zero casi"
saluti, Francesco Del Zotti - Direttore di Netaudit
********************************
PS
alcuni passaggi tratti da libro del Prof David Hand (Il tradimento dei numeri. I dark data e l'arte di nascondere la verità )
Il database della Rete per la ricerca e la valutazione dei traumi (o TARN, dall’inglese Trauma Audit and Research Network) è la più grande banca dati europea sui traumi medici...
......Il dottor Evgeny Mirkes e i suoi colleghi dell’Università di Leicester, nel Regno Unito, hanno analizzato alcuni dati di questo database. Tra i 165.559 casi di trauma da loro esaminati, ne hanno trovati 19.289 con esiti sconosciuti.
Nella ricerca traumatologica, conoscere l’« esito» significa sapere se il paziente è sopravvissuto o no per almeno trenta giorni dopo aver subito il trauma; pertanto, per oltre l’11 per cento dei pazienti, la sopravvivenza a trenta giorni dall’evento era un dato sconosciuto.
...Questo esempio illustra una forma comune di dark data, i nostri DD-Tipo 1: Dati di cui conosciamo la mancanza.
...Sappiamo che questi pazienti devono aver avuto un qualche esito, solo che non sappiamo quale. «E che problema c’è?» starete forse pensando: accontentiamoci di analizzare i 146.270 pazienti per i quali conosciamo l’esito, e basiamo la nostra comprensione e le nostre prognosi su quelli. In fin dei conti, 146.270 è un gran numero (nel campo della medicina, può essere considerato come big data) e possiamo quindi essere sicuri che le conclusioni basate su questi dati saranno corrette. Ma possiamo esserlo davvero? Forse i 19.289 casi mancanti sono profondamente diversi dagli altri. Dopotutto, sono senza dubbio diversi per il fatto di aver avuto esiti sconosciuti, e non è quindi irragionevole sospettare che potrebbero differire anche sotto altri aspetti. Di conseguenza, ogni analisi dei 146.370 pazienti con esiti noti potrebbe risultare fuorviante in rapporto alla popolazione generale di chi ha subito un trauma. Pertanto, le azioni prese sulla base di tale analisi potrebbero rivelarsi sbagliate, conducendo magari a prognosi erronee, prescrizioni scorrette e regimi di trattamento inadeguati, con conseguenze negative –se non addirittura fatali –per i pazienti....
..... Intanto, l’insegnamento di questa storia –che di fatto, con una buona approssimazione, può essere quello dell’intero libro –è che le cose potrebbero non essere come sembrano: anche se avere a disposizione un sacco di dati, i cosiddetti big data, è certamente utile, le dimensioni non sono tutto, e quello che non sappiamo, ovvero i dati che non abbiamo, potrebbe essere ancora più importante, per comprendere la situazione, di quanto non lo siano i dati in nostro possesso.
In ogni caso, come vedremo, i problemi dei dark data non riguardano esclusivamente i big data, ma possono emergere anche con piccoli dataset (« collezioni di dati»): in altre parole, sono onnipresenti.