Come sottolineato da Domenico Marino – Professore associato presso l’Università degli Studi Mediterranea di Reggio Calabria e firma usuale di HealthTech360 – la qualità dei dati sanitari rappresenta una sfida cruciale per ottimizzare i processi di cura, favorire la ricerca scientifica e garantire la sostenibilità del sistema sanitario.
In un approfondimento per il network Digital360, Marino evidenzia un articolo pubblicato su Nature da Scott Marek et al. secondo cui, spesso, gli studi clinici si basano su campioni troppo piccoli per assicurare una significatività statistica.
Questo problema riguarda, in particolare, i Brain-Wide Association Studies (BWAS), che cercano di associare differenze individuali nella struttura e nel funzionamento del cervello a modelli comportamentali, ma che tipicamente utilizzano campioni con una mediana di soli 25 individui.
Indice degli argomenti
Qualità dei dati sanitari: il problema dei campioni troppo piccoli
Marek e il suo team hanno dimostrato che campioni così esigui producono risultati distorti e non riproducibili, mentre l’analisi di 3 grandi set di dati di neuroimaging, con una dimensione totale di circa 50mila individui, ha permesso di ottenere risultati affidabili e coerenti.
Questo studio evidenzia la necessità di una solida metodologia di costruzione e analisi dei dati nella statistica sanitaria, evitando l’utilizzo di campioni non controllati, di scarsa qualità o troppo piccoli per essere rappresentativi.
Spesso – afferma Marino – “l’origine del fallimento di una ricerca è legata alla qualità del dato usato per le elaborazioni“.
Big Data e Intelligenza Artificiale per la ricerca biomedica
L’adozione di tecnologie di Intelligenza Artificiale per l’analisi dei documenti narrativi clinici rappresenta una soluzione promettente per estrarre informazioni di interesse da testi complessi come referti, cartelle cliniche e pubblicazioni scientifiche. Tuttavia, la realizzazione di questi sistemi in Italia è attualmente limitata dalla scarsità di risorse per l’addestramento dei modelli di AI.
I recenti progressi ottenuti con i Neural Language Models (NLM), grandi modelli neurali pre-addestrati su vasti corpora di testo, hanno permesso di compiere un balzo in avanti nelle prestazioni dei sistemi di Natural Language Processing (NLP). Questi modelli, come il sistema BioBERT sviluppato da ricercatori coreani, hanno dimostrato di essere in grado di svolgere task specifici del dominio biomedicale, come la classificazione ICD, con livelli di precisione molto elevati.
Tuttavia, la maggior parte dei NLM è pre-addestrata su testi in lingua inglese, rendendo necessario l’utilizzo di approcci multilingua per poterli applicare a lingue come l’italiano.
Per affrontare la mancanza di corpora biomedici annotati in lingue diverse dall’inglese, sono stati presentati in letteratura NLM multilingua, come l’architettura XLM (Cross-Lingual Language Model) sviluppata da Facebook. Questi modelli vengono addestrati su corpora testuali multilingua, non necessariamente paralleli, e hanno dimostrato di essere altamente performanti in task cross-language, riuscendo ad eseguire lo stesso task anche su lingue differenti da quella usata in fase di addestramento.
La disponibilità di tali NLM multilingua può aiutare ad affrontare la mancanza di corpora biomedici annotati in italiano, sfruttando ad esempio testo in inglese per l’addestramento sul task di classificazione e codifica, e poi utilizzando il modello di AI ottenuto per la codifica di documenti clinici in italiano.
Il deep learning per l’elaborazione semantica dei referti medici
Le tecniche di Intelligenza Artificiale basate sul deep learning rappresentano un approccio innovativo per l’analisi semantica dei documenti narrativi clinici, superando le limitazioni dei metodi tradizionali di Natural Language Processing.
L’utilizzo di modelli di deep learning permette di catturare sfumature linguistiche di livello superiore e di riutilizzare la conoscenza pregressa acquisita durante l’addestramento su grandi quantità di dati, riducendo la necessità di disporre di ingenti risorse annotate manualmente da esperti del dominio. Questo approccio innovativo apre nuove prospettive per lo sviluppo di sistemi di elaborazione del linguaggio naturale biomedico, in grado di supportare i professionisti sanitari nell’analisi della narrativa clinica e nelle attività correlate, come la scelta delle necessarie codifiche.
L’interoperabilità semantica per la qualità dei dati sanitari
L’interoperabilità semantica delle informazioni sanitarie rappresenta una sfida cruciale per favorire il processo di digitalizzazione del sistema sanitario e migliorare la qualità dei dati sanitari.
A livello internazionale, esistono numerosi sistemi di codifica e classificazione sanitaria, ciascuna delle quali copre uno specifico settore clinico, come ICD (International Classification of Diseases) per la codifica delle malattie, LOINC (Logical Observation Identifiers Names and Codes) per le osservazioni cliniche e di laboratorio e ATC (Anatomical Therapeutic Chemical) per la classificazione dei farmaci.
Sebbene l’apposizione di codici standard sia spesso obbligatoria per legge, questa operazione è attualmente deputata ai professionisti sanitari, che devono svolgerla senza adeguati supporti informatici e affrontando la complessità degli insiemi di codici disponibili. La vastità degli insiemi di codici disponibili (come nel caso di ICD e LOINC) e la loro strutturazione, però, rendono complessa l’operazione manuale di codifica anche per medici esperti.
L’adozione di sistemi di Intelligenza Artificiale per l’analisi del testo e l’assegnazione automatica di codifiche potrebbe rappresentare una soluzione per migliorare l’interoperabilità semantica delle informazioni sanitarie e favorire il processo di digitalizzazione del sistema.
Migliorare la qualità dei dati sanitari: il progetto QUANTUM
Proprio con l’obiettivo di migliorare la qualità dei dati sanitari è stato avviato QUANTUM, un progetto europeo diretto da un consorzio di 27 ricercatori e 5 enti di ricerca coordinato da esperti dell’Instituto Aragonés de Ciencias de la Salud (IACS), che vede coinvolta l’Università Cattolica campus di Roma con il team di Fidelia Cascini – Ricercatrice presso il Dipartimento di Scienze della Vita e Sanità Pubblica dell’Università Cattolica campus di Roma e firma di HealthTech360 -.
Come spiegato sul sito del progetto, QUANTUM mira a sviluppare e implementare un “bollino” di qualità dei dati sanitari.
A tal fine, a febbraio 2024, il consorzio QUANTUM: “Developing a Data Quality and Utility Label” si è riunito a Bruxelles per lanciare ufficialmente il progetto finanziato da Horizon Europe.
I partner hanno discusso le varie attività ed evidenziato la strada da seguire per questo ambizioso e strategico progetto per sbloccare il pieno potenziale di nuovi strumenti, tecnologie e soluzioni digitali per una società sana basata sui dati.
Il progetto QUANTUM mira a sviluppare e implementare il bollino di qualità dei dati sanitari per l’uso secondario dei dati sanitari nell’UE nei prossimi 3anni (2024-2026).
Un sistema di etichettatura dei dati sanitari comune per l’Europa
Il progetto testerà un meccanismo di etichettatura tra i titolari di dati sanitari (quali organizzazioni sanitarie, istituzioni e organismi sanitari ed enti di ricerca del settore sanitario), per creare valore non solo per loro, ma anche per gli utilizzatori dei dati e gli organismi di accesso ai dati sanitari (HDAB) all’interno dello European Health Data Space.
Per raggiungere i suoi obiettivi, QUANTUM lavorerà anche per scambi e sinergie con le iniziative UE attualmente esistenti sull’uso secondario dei dati sanitari, tra cui TEHDAS, TEHDAS2 , HealthData@EU Pilot, EHDS2 capacity building , Genomic Data Infrastructure (GDI), DARWIN EU, EHDEN.
L’obiettivo di QUANTUM è creare un sistema di etichettatura comune per l’Europa che ne consenta l’uso in tutti i Paesi per scopi di innovazione scientifica e sanitaria.
Questi bollini consentiranno ai ricercatori di utilizzare i dati con una nozione di qualità e utilità che garantirà che la loro ricerca e le loro innovazioni siano efficaci e forniscano valore alla società.
Qualità dei dati sanitari e Regolamento European Health Data Space
L’articolo 56 del regolamento sullo Spazio europeo dei dati sanitari impone l’etichettatura dei set di dati sanitari all’interno dell’UE per mostrarne la qualità e l’utilità. Questa iniziativa promuove la trasparenza e la fiducia nella condivisione dei dati sanitari in tutta l’UE per scopi secondari, a vantaggio della ricerca, dell’innovazione e dei sistemi sanitari nel loro complesso.
QUANTUM – come chiarisce il sito del progetto – supporta questi obiettivi, creando un sistema di etichettatura di facile utilizzo per i set di dati sanitari, assicurando che soddisfino gli standard di qualità dell’UE e semplificando la valutazione dei dati per i possessori e gli utenti.
L’obiettivo è garantire che HealthData@EU avvantaggi gli utenti primari come ricercatori e innovatori, fornendo loro dati di alta qualità.
Gli obiettivi del progetto europeo QUANTUM
Il sito del progetto sintetizza così le finalità di QUANTUM:
- Concettualizzare e sviluppare un bollino di qualità e utilità dei dati nel contesto di un modello di maturità del titolare dei dati.
QUANTUM si dedica allo sviluppo e al potenziamento di un meccanismo di etichettatura universale per i titolari di dati sanitari, consentendo loro di assegnare bollini di qualità e utilità ai set di dati sotto la guida degli HDAB.
- Progettare, sviluppare e testare l’etichettatura della qualità e dell’utilità dei set di dati e della maturità dei possessori dei dati.
QUANTUM mira a stabilire specifiche tecniche armonizzate a livello UE per valutare sia la qualità che l’utilità dei set di dati, insieme al livello di maturità dei possessori di dati sanitari. Fornendo una specifica standardizzata, QUANTUM consentirà a ricercatori e innovatori di valutare e confrontare costantemente la qualità e la maturità dei dati in vari contesti, promuovendo una migliore ricerca e innovazione biomedica.
- Analizzare le sfide dell’implementazione per garantire che il processo di etichettatura sia trasferibile e sostenibile come parte di HealthData@EU.
Il sistema di etichettatura QUANTUM è progettato per semplificare il processo di pubblicazione di set di dati in base agli standard stabiliti dall’articolo 56 di HealthData@EU.
Aderendo a questi standard, QUANTUM garantisce che i set di dati siano facilmente individuabili, promuovendo e facilitando così la ricerca e l’innovazione transnazionali.
- Sviluppare un programma di rafforzamento delle capacità che consenta un ampio coinvolgimento della comunità professionale della qualità dei dati sanitari, dei pazienti e dei cittadini.
Il programma di capacity building per il progetto QUANTUM mira a coinvolgere un’ampia gamma di stakeholder, tra cui professionisti della qualità dei dati sanitari, pazienti e cittadini.
Il programma si concentrerà sulla fornitura di formazione, risorse e opportunità di collaborazione per migliorare la comprensione e la partecipazione all’implementazione e all’uso adeguato del bollino di qualità dei dati.