AI e Normativa

ChatGPT come dispositivo medico?

I chatbot basati sull’Intelligenza Artificiale sono sempre più al centro dell’attenzione in ambito sanitario. Tuttavia, per poter essere utilizzati in tale contesto, nella maggior parte dei casi d’uso, la Normativa prevede che essi siano approvati come dispositivi medici. Ma ChatGPT & Co. hanno già le caratteristiche per essere classificati tra i SaMD? Cosa ostacola un loro utilizzo in tal senso?

Pubblicato il 13 Dic 2023

Luigi De Angelis

Medico in formazione specialistica in Igiene e Medicina Preventiva - Università di Pisa

Giulia Gallo

Medico in formazione specialistica in Igiene e Medicina Preventiva - Università di Milano Statale

Alberto Masiero

Medico in formazione specialistica in Igiene e Medicina Preventiva - Università di Ancona

chatGPT-dispositivo-medico

ChatGPT e gli altri AI chatbot potranno mai assurgere a dispositivo medico?

I chatbot basati sull’Intelligenza Artificiale hanno attirato l’attenzione nel campo dell’assistenza sanitaria per la loro promessa di migliorare l’accessibilità e l’efficacia dei servizi medici.
Tuttavia, il loro utilizzo come dispositivi medici regolamentati si scontra con un ostacolo significativo: l’affidabilità delle risposte.

Chatbot come dispositivi medici? Difficile garantirne l’affidabilità 

L’approvazione dei chatbot come dispositivi medici richiede una solida base scientifica e un’elevata precisione nella valutazione dei sintomi, delle diagnosi e delle raccomandazioni di trattamento, ma le attuali limitazioni tecnologiche e le sfide nell’addestramento degli algoritmi rendono difficile garantire la loro affidabilità completa.

Ogni nuova tecnologia – per poter prendere piede – deve soddisfare standard di sicurezza, prestazioni e opportunità di rischio/beneficio.

ChatGPT in Medicina: i potenziali vantaggi

I Large Language Models (LLM) sono modelli di linguaggio basati su reti neurali tra cui il Pre-trained Transformer (GPT) di OpenAI e il Pathways Language Model (PaLM) di Google.

ChatGPT è un chatbot, basato su LLM, lanciato nel novembre 2022 da OpenAI, che ha una notevole capacità di conversazione e la capacità di imitare, quasi istantaneamente e in modo creativo, diversi stili di conversazione umana in base alle richieste dell’utente.

È stato proposto che i chatbot LLM possano essere utilizzati in Medicina. Dopotutto, nell’ambito sanitario, lo scambio di informazioni, la consulenza e il collegamento dei flussi informativi sono parti cruciali della fornitura di servizi.

Un aspetto che spicca in GPT-4 è la sua abilità nell’editing e nell’analisi delle informazioni.
Sebbene non sia altrettanto efficace nella generazione di contenuti originali, la sua forza risiede nella revisione e valutazione di vari aspetti.
Ciò che colpisce, in particolare, è la sua capacità di individuare incongruenze, mancanza di citazioni e scarsa inclusività in articoli scientifici e documenti medici. Questo apre interessanti possibilità, come l’utilizzo di GPT-4 come strumento per individuare errori e garantire la qualità delle pratiche mediche.

Inoltre, GPT-4 dimostra sorprendenti capacità empatiche. È in grado di offrire supporto ai pazienti e mostrare empatia nei confronti dei medici di fronte a situazioni complesse. Ci sono stati casi in cui ha superato i medici umani in termini di sensibilità e risposte di alta qualità.
Questo solleva interrogativi sul potenziale utilizzo della tecnologia per migliorare la comunicazione tra operatori sanitari e pazienti, nonostante la convinzione comune che l’empatia dovrebbe provenire esclusivamente dai medici umani.

ChatGPT in Medicina: serve una regolamentazione

 Mentre si apprezzano i benefici di GPT-4, si riconosce anche la necessità di regolamentazione, soprattutto nel settore sanitario.
Sebbene la Medicina abbia una lunga tradizione di rispetto delle normative, l’avvento delle tecnologie dell’intelligenza artificiale richiede un quadro regolatorio dedicato.
È fondamentale che la comunità medica se ne assuma la responsabilità partecipando attivamente nella definizione del corretto utilizzo delle tecnologie come GPT-4.
Questo implica la conduzione di ricerche per stabilire basi solide per normative oculate, linee guida e standard etici, tenendo conto dei potenziali rischi e limitazioni associate all’AI nel settore sanitario.

Inoltre, l’accesso democratico alla conoscenza medica e l’abilitazione dei pazienti con informazioni accurate tramite GPT-4 sono temi che richiedono attenzione. Ciò consente ai pazienti di accedere a informazioni mediche specialistiche, contribuendo alla formazione di una popolazione di pazienti più informata aumentando la health literacy.

ChatGPT è un (sofisticato) ripetitore di informazioni

La garanzia di affidabilità e fiducia nella suddetta tecnologia presenta sfide che richiedono un’attenta considerazione.

Durante questo percorso, infatti, sorge la questione se GPT-4 comprenda realmente o se sia semplicemente un sofisticato ripetitore di informazioni (un pappagallo stocastico, ndr.).

Come scienziati, è fondamentale basarsi su prove ed evidenze.
La comunità scientifica deve ancora fornire test definitivi che dimostrino in modo coerente i suoi limiti: cercando di evitare di attribuire ai chatbot caratteristiche umane è possibile condurre test maggiormente oggettivi.

Le ricerche e i progressi in corso in questo campo contribuiranno senza dubbio a una comprensione più approfondita delle tecnologie di intelligenza artificiale.

Oggi, tuttavia, gli sviluppatori di chatbot LLM riconoscono che questi possono generare affermazioni altamente convincenti ma che sono sbagliate, nonché – talvolta – generare informazioni fittizie o risposte inappropriate alle domande.

I chatbot LLM producono una “continuazione ragionevole” del testo, a partire da un prompt, utilizzando il risultato dell’apprendimento ottenuto dall’analisi del contenuto di miliardi di pagine Web e libri generici non identificati.
Il loro sviluppo include l’apprendimento per tentativi ed errori, sia non supervisionato che supervisionato, per ottimizzare la loro plausibilità e ragionevolezza.

Oggi, non c’è modo di essere certi della qualità, del livello di evidenza o della coerenza delle informazioni cliniche o delle prove a sostegno di qualsiasi risposta dei LLM.

I LLM, semplicemente, riassemblano ciò che è stato scritto più comunemente dagli esseri umani.

Inoltre, quando viene loro chiesto di produrre una fonte, spesso inventano una citazione plausibile, ma inesistente. Questo era ancor più vero fino a pochissimo tempo fa, anche se il progresso è estremamente rapido in questo ambito e nuovi plug-in di ChatGPT – come ScholarAI  – a disposizione nella versione a pagamento – permettono di citare fonti scientifiche in modo sempre più affidabile.

ChatGPT dispositivo medico: il quadro normativo

Ci sono esperti che affermano che strumenti come ChatGPT & Co. potrebbero trasformare la Medicina attraverso applicazioni che includono la semplificazione delle attività di comunicazione e il supporto alle decisioni cliniche (CDS).

Tuttavia, in base alle leggi europee e statunitensi, gli strumenti destinati alla maggior parte di questi casi d’uso devono essere approvati come dispositivi medici.

Il software che esegue qualcosa di più delle semplici funzioni di database per assistere nella diagnosi, prevenzione, monitoraggio, previsione, prognosi, trattamento o alleviamento della malattia è classificato come dispositivo medico e, quindi, si applicano controlli normativi, incluso il requisito che gli strumenti siano sviluppati in un sistema di gestione della qualità.

ChatGPT dispositivo medico: cosa ne ostacola l’approvazione

L’UE richiede anche la sorveglianza post-commercializzazione e il follow-up clinico, che sono particolarmente impegnativi per i LLM. Poiché non hanno garanzia di qualità ereditabile dai loro sviluppatori, sono esclusi dall’uso come componenti “plug-in” esterni di dispositivi medici, ad esempio attraverso un’interfaccia di programmazione dell’applicazione (API).

Poiché, inoltre, i LLM hanno una gamma quasi infinita di input e output, è difficile testarne l’usabilità e le prestazioni sul mercato, quindi è discutibile se la loro tendenza a suggerire informazioni dannose o false, ma altamente plausibili, possa mai essere controllata.

Allo stato attuale, gli LLM trascurano il fatto che le informazioni mancanti siano necessarie per fornire una risposta accurata, non forniscono alcuna indicazione di accompagnamento di relativa certezza o fiducia e, generalmente, non forniscono fonti autentiche.
Ciò esclude il loro uso negli Stati Uniti per il supporto decisionale clinico.

Inoltre, ciò rende estremamente impegnativo verificare i risultati del processo di progettazione, mitigare tutti i rischi identificati e dimostrare una valida associazione clinica tra input e output, sia prima dell’approvazione che nel monitoraggio continuo, dopo il loro rilascio sul mercato.

I suddetti problemi escludono, di fatto, una commercializzazione degli LLM – quali ChatGPT & Co. – valida come dispositivo medico ai sensi dell’attuale regolamentazione dell’UE.

ChatGPT dispositivo medico? No, come non lo sono i motori di ricerca

I motori di ricerca hanno trasformato la Medicina e, nonostante il disappunto degli operatori sanitari, circa due terzi dei pazienti effettuano una ricerca online sui propri sintomi prima di una visita medica. Anche la maggior parte dei medici lo fa, controllando i motori di ricerca da una a tre volte al giorno per informazioni sanitarie.

I motori di ricerca, dunque, hanno un ruolo nel processo decisionale, ma questo non li rende dispositivi medici regolamentati, poiché i loro sviluppatori – in fase di progettazione – non avevano previsto come scopo dei motori quello di fornire uno strumento per la diagnosi medica, il supporto decisionale o la pianificazione della terapia.

L’imminente integrazione dei chatbot LLM nei motori di ricerca potrebbe aumentare la fiducia degli utenti nei risultati della ricerca stessa.
Tuttavia, è stato dimostrato che gli LLM possono fornire informazioni profondamente pericolose quando vengono sollecitati con domande mediche.
Esempi allarmanti includono un chatbot che consiglia il suicidio ad un paziente psichiatrico e una versione di Bing che, occasionalmente, minaccia gli utenti.

Chatbot basati su LLM: i limiti intrinseci

I modelli di chat basati su LLM, di solito, vincolano il loro output per limitare la creatività generativa inappropriata e per aumentare la plausibilità. Ad esempio, LaMDA di Google include approcci di vincolo per migliorare la qualità, la sicurezza e la solidità. Gli obiettivi di sicurezza tentano di arginare i danni per l’utente, anche se Google riconosce che c’è ancora molto da fare in questo senso.

I processi di apprendimento si basano sulla raccolta, e quindi sull’annotazione, delle chat tra gli utenti e il LLM. Nonostante l’imposizione di questi vincoli, è improbabile che la mitigazione risolva completamente le imprecisioni e le informazioni fittizie, poiché queste sono intrinseche ai modelli di chat basati su LLM.

ChatGPT dispositivo medico: nessun chatbot LLM sul mercato senza approvazione

Sia nell’UE che negli Stati Uniti, tutti i software di supporto alle decisioni cliniche per i pazienti (e la maggior parte per gli operatori sanitari) deve essere sottoposto a un processo di registrazione e approvazione come dispositivo medico.

Esistono gravi sanzioni nella maggior parte dei Paesi per l’immissione sul mercato di un chatbot LLM con uno scopo medico dichiarato di fornire consulenza medica diagnostica o terapeutica a pazienti, cittadini o operatori sanitari senza essere sottoposto ad un processo di approvazione secondo normativa.

A causa dei loro limiti intrinseci, la registrazione di LLM come dispositivi medici è preclusa praticamente in ogni quadro normativo.

L’esempio di DxGPT: è sufficiente che un chatbot sia dichiarato come “esperimento di ricerca”?

Esistono già segnalazioni di cittadini e professionisti che utilizzano chatbot LLM per il supporto decisionale clinico, nonché di interfacce LLM specifiche per il settore medico – che non hanno l’approvazione di dispositivi medici – commercializzati ai professionisti sulla base del fatto che sono sperimentali, piuttosto che strumenti per uso reale. E il quadro e il contesto della sperimentazione che potrebbe essere effettuata dai professionisti non è chiaro.

Ad esempio, DxGPT, che utilizza GPT-3 ed è disponibile a livello internazionale, indirizza gli utenti nella sua interfaccia a “Inserire una breve descrizione del paziente” e “DxGPT fornirà un elenco di possibili diagnosi di malattia” e offre loro la possibilità di caricare una cartella clinica completa del paziente. Lo strumento include dichiarazioni di non responsabilità che esplicitano come lo strumento “non possa essere utilizzato per la diagnosi senza la supervisione umana” e che “DxGPT è un esperimento di ricerca“.

Tuttavia, le esclusioni di responsabilità di questa natura non impediscono l’applicazione delle leggi sui dispositivi medici, che impongono che tali esperimenti dovrebbero essere condotti solo in un ambiente di sperimentazione clinica autorizzato sotto controlli appropriati per proteggere i pazienti e produrre risultati clinicamente rilevanti.

La Food and Drug Administration degli Stati Uniti e le autorità nazionali competenti dell’UE hanno precedentemente agito con decisione per fermare le organizzazioni che cercavano di fornire consulenza medica attraverso dispositivi medici non convalidati e non registrati.
L’ azione delle autorità di regolamentazione, infatti, consente di adattare adeguatamente le tecnologie ai loro compiti e di raccogliere prove di sicurezza ed efficacia senza arrestare né il progresso né la concorrenza e ha il potenziale di mettere sullo stesso livello gli sviluppatori e collegare i dati sulla sicurezza, l’efficacia e i benefici ad una promettente innovazione tecnologica.

Chatbot come dispositivi medici: cosa devono fare gli sviluppatori per favorirne l’approvazione

Ci sono segnalazioni secondo cui alcuni chatbot che arriveranno a breve applicheranno approcci di apprendimento più supervisionati, potranno fornire citazioni autentiche a supporto del loro contenuto e faranno meno errori, e ciò ne migliorerà l’accuratezza e la sicurezza.

In questa fase, non ci sono dettagli pubblici sufficienti per valutare se ciò fornirà un livello sufficiente di spiegabilità e trasparenza affinché questi chatbot possano essere approvati in base ai quadri normativi internazionali attuali e proposti.

I passaggi che gli sviluppatori dovrebbero intraprendere per favorire l’approvazione di questi sistemi sono descritti nella Tabella seguente.

ChatGPT-dispositivo-medico-sviluppatori-regole-approvazione
Possibili approcci per gli sviluppatori di chatbot medici per consentirne l’approvazione come dispositivi medici

Un approccio per ridurre i consigli medici inappropriati o dannosi è quello di limitare il corpus su cui il LLM viene addestrato soltanto a testi medici controllati e convalidati.

Ad esempio, il GatorTron Medical LLM – un LLM per le cartelle cliniche elettroniche – è stato addestrato su 82 miliardi di parole di testo clinico non identificato e mostra una maggiore precisione rispetto ai precedenti LLM medici nel rispondere a domande mediche.

Tuttavia, la letteratura medica non contiene solo informazioni corrette e aggiornate.

Se gli sviluppatori intendono perseguire uno scopo medico per il loro LLM, devono iniziare ad applicare i sistemi di gestione della qualità il prima possibile.

A tal fine, è possibile definire le fasi richieste dagli attuali quadri normativi e i probabili requisiti futuri derivanti dalla ricerca in corso sulla sicurezza dell’AI (per come indicato nella suddetta Tabella).

Chatbot LLM come dispositivi medici: gli approcci di regolamentazione

Esistono diversi approcci per lo sviluppo e la regolamentazione di LLM come dispositivi medici. Questi includono l’abilitazione di un regolatore e della supervisione pubblica attraverso l’uso di metodologie di intelligenza artificiale veramente aperte, con algoritmi, dati e modelli resi completamente disponibili, inclusi grandi set di dati di prompt e risposte anonime.

Potrebbero essere sviluppati strumenti di supervisione indipendenti per monitorare ogni chat come una forma di livello di supervisione esterno automatizzato, indipendente dallo sviluppatore.

Inoltre, l’output degli LLM potrebbe essere adattato all’età dell’utente per scopi di salvaguardia, come proxy della loro complessità decisionale, con misure specifiche fornite per indirizzare informazioni e consigli al probabile effetto di ciò sull’utente.

Tuttavia, questi approcci non dovrebbero essere utilizzati per trasferire la responsabilità  dagli sviluppatori ad altri.

La prospettiva è che gli attuali approcci di governance dovrebbero applicarsi agli sviluppatori di applicazioni LLM mediche, per garantire che rispettino i loro obblighi in merito alla sicurezza dei risultati. Gli enormi sforzi applicati all’addestramento degli LLM per la creatività e la plausibilità dovrebbero essere ugualmente applicati per fornire prove di sicurezza e validazione in Medicina.

Il futuro di ChatGPT come dispositivo medico: la strada da percorrere 

Esiste un accordo internazionale sui principi chiave per l’AI in ambito sanitario, indipendentemente dall’approccio tecnologico. Questi includono:

  • il controllo dei bias
  • la spiegabilità
  • la trasparenza
  • i sistemi di supervisione e convalida.

Ciò si riflette nei quadri normativi UE e USA recentemente proposti.

Gli attuali chatbot LLM – tra cui il noto ChatGPT – al momento, non soddisfano questi principi.

La società si aspetta che i medici siano rigorosamente formati e continuamente valutati e applichino tale conoscenza con competenza, compassione e standard etici.
Un LLM può fornire consigli convincenti, ma non può dire al paziente da dove proviene il consiglio, perché lo sta dando o con quanta attenzione sono stati considerati gli equilibri etici.

Per guadagnarsi davvero un posto nell’armamentario medico, i chatbot come ChatGPT dovranno essere progettati per ottenere una maggiore precisione, con sicurezza ed efficacia clinica dimostrate e approvati dalle autorità di regolamentazione.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 5