I Large Language Models (LLMs, Grandi Modelli Linguistici), come ad esempio GPT-4 (Generative Pre-trained Transformer 4) di OpenAI, sono modelli di AI (Intelligenza Artificiale).
Essi hanno mostrato un grande potenziale nell’assistenza sanitaria, per compiti come l’automazione di attività amministrative, il supporto alla scrittura delle lettere di dimissione e alla risposta alle domande dei pazienti, fino ad assistenza alla pianificazione del trattamento clinico.[1]
Tuttavia, questi modelli hanno anche il potenziale di codificare e perpetuare i pregiudizi di vario genere contribuendo, peraltro, a produrre iter diagnostico-terapeutici inappropriati.
Questi errori possono avere un impatto dannoso sulle cure mediche, come dimostrato da diversi articoli scientifici.
Questo problema, tuttavia, non è esclusivo dei LLMs: tutti i modelli di AI possono perpetuare i bias presenti nei dati che vengono utilizzati per il loro addestramento.
Indice degli argomenti
Bias di apprendimento uomo-macchina nell’Intelligenza Artificiale in Sanità
In un recente articolo pubblicato su Nature [2], i ricercatori hanno ipotizzato che le persone che eseguono un compito diagnostico medico (simulato), assistito da un sistema di AI distorto, riprodurranno il pregiudizio del modello nelle proprie decisioni, apprendendo il bias e continuando ad applicarlo in altri contesti non più supportati da AI.
In 3 esperimenti, i partecipanti hanno completato un compito di classificazione a tema medico con o senza l’aiuto di un sistema di AI distorto. Le raccomandazioni da parte dell’AI hanno dimostrato di influenzare negativamente le decisioni dei partecipanti.
Inoltre, quando quei partecipanti, assistiti dall’AI, sono passati a svolgere il compito senza assistenza, hanno commesso gli stessi errori che l’AI aveva spinto a commettere durante la fase precedente. Pertanto, le risposte dei partecipanti perpetuavano i pregiudizi dell’AI anche quando l’AI non dava più suggerimenti.
Tutto ciò suggerisce come i bias dell’Intelligenza Artificiale in Sanità possano trasferirsi a medici e operatori sanitari anche in assenza di un operato diretto della stessa AI.
Bias nell’Intelligenza Artificiale in Sanità: il ruolo chiave dei prompt
I chatbot in uso oggi sono sensibili alla forma e alla scelta della formulazione del prompt. Questo aspetto dei chatbot ha dato origine a un concetto di “ingegneria dei prompt”, che è sia un’arte che una scienza. Anche se è probabile che i futuri sistemi di intelligenza artificiale siano molto meno sensibili al linguaggio preciso utilizzato in un prompt, al momento, i prompt devono essere sviluppati e testati con cura per produrre i migliori risultati.
Al livello più elementare, se un prompt è una domanda o una richiesta che ha una risposta univoca, derivabile da una fonte documentata su Internet o attraverso un semplice calcolo logico o matematico, le risposte prodotte da GPT-4 sono quasi sempre corrette.
Tuttavia, alcune delle interazioni più interessanti con GPT-4 si verificano quando l’utente inserisce prompt che non hanno una singola risposta corretta. [3]
Large Language Models (LLM) e pregiudizi basati sulla razza
Tra i bias nell’Intelligenza Artificiale in Sanità – possibilmente propagabili con il contributo degli LLM – sono di grande importanza quelli legati al concetto di razza.
Il problema dei pregiudizi razziali è noto già da tempo nell’ambito della ricerca clinica. Indipendentemente dall’utilizzo di AI, infatti, una sottorappresentazione sistematica delle minoranze etniche nei trial clinici e un’interpretazione inappropriata delle disparità tra gruppi etnici socialmente definiti porta a conclusioni distorte e raccomandazioni non generalizzabili. Malintesi di questo tipo possono insorgere quando il costrutto sociale della razza è erroneamente equiparato alle differenze biologiche. [4]
Questo problema nei modelli di AI non è nuovo. Studi come quello di Buolamwini e Gebru (2018) [5] hanno dimostrato come i sistemi di riconoscimento facciale possano mostrare pregiudizi di genere e razziali.
Analogamente, riguardo ai bias dell’Intelligenza Artificiale in Sanità, altri studi hanno rilevato che un algoritmo utilizzato nella sanità prediceva erroneamente i bisogni sanitari dei pazienti di colore.
I bias di ChatGPT nell’Intelligenza Artificiale in Sanità
Uno studio di Travis Zack ed Eric Lehman in The Lancet Digital Health [6] mette in mostra che il chatbot più famoso, ChatGPT-4, presenta pregiudizi razziali e di genere in compiti clinicamente rilevanti, tra cui la generazione di casi-studio per la formazione medica, il supporto per il ragionamento diagnostico differenziale, le raccomandazione cliniche e le valutazioni soggettive dei pazienti.
Per ciascuno di questi compiti, è stato scoperto che ChatGPT-4 esagera le differenze note di prevalenza della malattia tra i gruppi, ingigantisce gli stereotipi, comprese le rappresentazioni problematiche dei gruppi minoritari, e amplifica i pregiudizi sociali dannosi.
Questi risultati sono seriamente preoccupanti e sono in linea con la ricerca precedente sui pregiudizi nei modelli di intelligenza artificiale generativa su larga scala in senso più ampio.
Tuttavia, alla luce di questi risultati, lo studio non riesce a fornire raccomandazioni attuabili su come la tecnologia possa essere incorporata in modo sicuro nei flussi di lavoro clinici.
Nell’ampio scenario dei possibili bias nell’Intelligenza Artificiale in Sanità, il pregiudizio razziale nel contesto dei Large Language Models e, più in generale, in termini sociali e psicologici, si riferisce ad una forma di pregiudizio implicito o esplicito che sfocia in un trattamento non equo nei confronti delle persone in base alla loro razza o etnia.
Addestramento dei LLM e bias nell’Intelligenza Artificiale in Sanità
I LLM vengono solitamente addestrati su un certo set di dati (chiamato set di dati di addestramento) e poi testati su un set di dati diverso dal precedente per misurare in modo affidabile le prestazioni dell’algoritmo.
Se i dati scelti per l’ addestramento sono affetti da pregiudizi, questo può tradursi in risultati discriminatori o nella perpetuazione di stereotipi. [7]
Dato che i modelli linguistici sono tipicamente addestrati utilizzando vasti corpora di testo generati da umani per prevedere il testo successivo sulla base delle parole precedenti, attraverso questo processo i LLM possono imparare a perpetuare i pregiudizi che hanno appreso nella fase di addestramento.
Sebbene alcuni di questi pregiudizi, una volta identificati, possano essere affrontati tramite ulteriore formazione mirata attraverso un processo chiamato apprendimento di rinforzo con feedback umano, si tratta comunque di un processo a guida umana, che può pertanto incorrere esso stesso nel rischio di introduzione di bias e pregiudizi.[5]
È necessario, pertanto, garantire che i set di dati usati per l’addestramento riflettano il contesto in cui verrà applicato il modello: la mancanza o la distorsione di diverse caratteristiche dei dati (età, razza, aree geografiche) potrebbe limitare le prestazioni del modello di AI sviluppato e indurre in errore.
LLM commerciali: gli studi sui pregiudizi razziali in Medicina e Sanità
I pregiudizi razziali possono addirittura, attraverso l’AI, propagarsi e influenzare le risposte umane.
Un recente studio, pubblicato su Nature npj Series – “Large Language Models Propagate Race-Based Medicine” – fa luce su di un tema cruciale nell’ambito dell’AI: la potenziale propagazione di pratiche mediche basate sulla razza attraverso i LLMs.
Nello studio è stato analizzato il comportamento di quattro LLM disponibili commercialmente, valutando la divulgazione di contenuti dannosi, inaccurati o basati sulla razza in risposta a otto diversi scenari che investigano la medicina basata sulla razza o pregiudizi errati relativi alla razza.
Il documento rileva che diversi LLM commerciali possono talvolta divulgare contenuti inaccurati e pregiudizi razziali.
Sono state poste nove domande a vari LLM, ciascuna ripetuta cinque volte per tener conto della variabilità del modello, ottenendo 45 risposte per ciascun modello.
I LLM analizzati includono due versioni ciascuno di Bard, di Google, ChatGPT e GPT-4 e Claude di Anthropic, testati da maggio ad agosto 2023.
Le risposte di ogni modello sono state azzerate dopo ogni domanda per evitare apprendimenti dalla ripetizione, concentrandosi invece sulle loro tendenze di risposta intrinseche.
Due medici hanno esaminato attentamente le risposte date da ogni modello per confutare la presenza di qualsiasi contenuto basato sulla razza. In caso di disaccordo, è stato utilizzato un processo di consenso, con l’intervento di un terzo medico per prendere la decisione definitiva. Questa metodologia rigorosa ha sottolineato l’impegno a valutare accuratamente la potenziale propagazione di misconcezioni razziali nocive da parte di questi avanzati modelli linguistici in un contesto medico.
I risultati dello studio in esame dimostrano che tutti i LLM esaminati hanno avuto casi in cui hanno sostenuto la medicina basata sulla razza o eco di affermazioni infondate sulla razza, sebbene non in modo coerente in ogni ripetizione della stessa domanda.
Da notare che quasi tutti i modelli hanno correttamente identificato la razza come una costruzione sociale senza una base genetica.
Tuttavia, ci sono stati casi, come con Claude, dove un modello ha successivamente contraddetto queste informazioni accurate, riferendosi a una base biologica per la razza.
Un’area che ha destato significativa preoccupazione è stata la performance dei modelli su domande riguardanti la funzionalità renale e la capacità polmonare, argomenti su cui la medicina basata sulla razza, del tutto scientificamente screditata, ebbe grande impatto.
Quando interrogati sul calcolo del tasso di filtrazione glomerulare stimato (eGFR), modelli come GPT-3.5 e GPT-4 non solo hanno sostenuto l’uso della razza in questi calcoli, ma hanno anche supportato la pratica con affermazioni confutate su differenze razziali nella massa muscolare e nei livelli di creatinina.
Bard ha mostrato sensibilità alla formulazione delle domande, rispondendo a certe terminologie ma non ad altre. Allo stesso modo, le domande sul calcolo della capacità polmonare per individui di colore hanno portato a risposte errate basate sulla razza, mentre domande generiche senza identificatori razziali non lo hanno fatto.
La ricerca si è estesa a domande su miti precedentemente creduti dai tirocinanti medici, rivelando come tutti i modelli perpetuassero la falsa nozione di differenze razziali nello spessore della pelle.
Le risposte alle domande sulle soglie del dolore sono state miste, con alcuni modelli, come GPT-4, che negavano correttamente qualsiasi differenza, mentre altri, come Claude, propagavano affermazioni basate sulla razza prive di fondamento. Tuttavia, tutti i modelli rispondono con precisione alle domande sulle disparità razziali nella dimensione del cervello, spesso identificando la nozione come dannosa e razzista.
Questo fenomeno è stato osservato anche in altri studi – come quello di Bender et al. [5] – che mettono in evidenza come i LLM possano riflettere e amplificare pregiudizi esistenti.
Bias nella generazione di immagini tramite AI
L’incostanza nelle risposte dei LLM e la sensibilità alla terminologia usata sollevano preoccupazioni significative sulla loro affidabilità e sulla responsabilità etica nel loro impiego.
Un recente studio condotto dall’Australian National University (ANU) [8] ha rivelato un fenomeno sorprendente riguardante la generazione di immagini tramite AI.
La ricerca ha mostrato che i volti bianchi creati dall’AI tendono a essere percepiti come più realistici rispetto ai veri volti umani, al contrario dei volti delle persone di colore.
L’autore dello studio identifica la radice del problema nel fatto che gli algoritmi di intelligenza artificiale sono addestrati in modo sproporzionato sui dati dei volti bianchi.
Questi studi evidenziano un problema sistemico nei modelli di apprendimento automatico: se l’input è pregiudizievole, così sarà l’output.
Pregiudizi nei modelli di AI: implicazioni di sistema e strategie per il futuro
I risultati dei recenti studi condotti su questo tema hanno implicazioni profonde per i sistemi sanitari mondiali. Se tali modelli vengono utilizzati per assistere diagnosi e trattamenti, l’accuratezza e l’equità sono cruciali.
Gli errori causati da pregiudizi nei modelli di AI possono portare a diagnosi errate, trattamenti inefficaci e peggiorare le disuguaglianze esistenti.
L’OMS, nel suo rapporto del 2021 su etica e governance dell’AI per la salute, sottolinea l’importanza di indirizzare questi pregiudizi per garantire che l’AI sia un’assistenza piuttosto che un ostacolo alla salute globale.
In Italia, l’uso dell’AI nel sistema sanitario sta crescendo, ma è essenziale procedere con cautela. Il Codice Etico Nazionale per l’Intelligenza Artificiale, adottato nel 2020, stabilisce principi per un uso responsabile dell’AI, inclusa la necessità di prevenire discriminazioni.
La “non discriminazione”, peraltro, è stata fortemente ribadita anche nel recente disegno di legge italiano sull’AI che muove le mosse dall’AI Act.
L’adozione di modelli di AI privi di pregiudizi razziali è non solo una questione di efficacia, ma anche di equità e giustizia sociale, in linea con i principi del Servizio Sanitario Nazionale italiano che mira a garantire l’accesso universale alle cure.
Per affrontare i pregiudizi nei modelli di AI, è cruciale adottare un approccio olistico.
Oltre a diversificare i set di dati, come suggerito da Raji e colleghi (2020), è fondamentale implementare procedure di audit e valutazione etica continua. Organizzazioni come “Algorithm Watch” e “AI Now Institute” stanno lavorando per promuovere pratiche più responsabili nell’AI e i loro framework possono servire da modello per valutare e migliorare i modelli di AI in ambito sanitario.
Come ridurre i bias nell’Intelligenza Artificiale in Sanità?
Gli approcci utilizzabili per ridurre i pregiudizi nei contenuti generati mediante AI (in ambito medico, ma non solo) possono essere classificati in diverse categorie:
- Modifica dei dati di addestramento
Questo approccio si concentra sulla cura e la selezione dei dati utilizzati per addestrare i modelli. L’obiettivo è creare un set di dati il più possibile diversificato e rappresentativo, evitando qualsiasi materiale che potrebbe contenere pregiudizi o stereotipi; - Addestramento aggiuntivo e migliorato
Questo approccio implica l’utilizzo di tecniche avanzate di apprendimento automatico per educare ulteriormente il modello, in modo da ridurre la sua tendenza a produrre risultati pregiudizievoli. Ciò può includere l’addestramento del modello su dati specifici per contrastare i pregiudizi già esistenti; - Modifiche nell’esecuzione del modello
Questa strategia si concentra sulla modifica del modo in cui il modello funziona durante il suo utilizzo. Potrebbe includere algoritmi che rilevano e correggono le risposte pregiudizievoli in tempo reale; - Correzioni in post-elaborazione
Questo metodo si occupa di esaminare e modificare le risposte del modello dopo che sono state generate, per assicurarsi che non contengano pregiudizi o stereotipi.
Il riconoscimento e la mitigazione dei pregiudizi razziali nei modelli di AI, in particolare in quelli applicati alla Sanità e alla Medicina, è di vitale importanza.
Gli studi citati evidenziano una problematica ampia e sistemica che richiede un impegno collettivo e multidisciplinare per essere risolta.
Per il sistema sanitario italiano e per quelli di tutto il mondo, è fondamentale adottare un approccio etico e responsabile nell’implementazione dell’AI, garantendo che i benefici di questa tecnologia siano accessibili a tutti, indipendentemente dalla razza o dall’etnia.
Solo così, l’Intelligenza Artificiale potrà realmente contribuire a migliorare la salute e il benessere su scala globale.
Note bibliografiche
1. Jiang LY, Liu XC, Nejatian NP, Nasir-Moin M, Wang D, Abidin A, Eaton K, Riina HA, Laufer I, Punjabi P, Miceli M, Kim NC, Orillac C, Schnurman Z, Livia C, Weiss H, Kurland D, Neifert S, Dastagirzada Y, Kondziolka D, Cheung ATM, Yang G, Cao M, Flores M, Costa AB, Aphinyanaphongs Y, Cho K, Oermann EK. Health system-scale language models are all-purpose prediction engines. Nature. 2023 Jul;619(7969):357-362. doi: 10.1038/s41586-023-06160-y. Epub 2023 Jun 7. PMID: 37286606; PMCID: PMC10338337
2. Vicente L, Matute H. Humans inherit artificial intelligence biases. Sci Rep. 2023 Oct 3;13(1):15737. doi: 10.1038/s41598-023-42384-8. PMID: 37789032; PMCID: PMC10547752.
3. Lee P, Bubeck S, Petro J. Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine. N Engl J Med. 2023 Mar 30;388(13):1233-1239. doi: 10.1056/NEJMsr2214184. PMID: 36988602.
4. Borrell LN, Elhawary JR, Fuentes-Afflick E, Witonsky J, Bhakta N, Wu AHB, Bibbins-Domingo K, Rodríguez-Santana JR, Lenoir MA, Gavin JR 3rd, Kittles RA, Zaitlen NA, Wilkes DS, Powe NR, Ziv E, Burchard EG. Race and Genetic Ancestry in Medicine – A Time for Reckoning with Racism. N Engl J Med. 2021 Feb 4;384(5):474-480. doi: 10.1056/NEJMms2029562. Epub 2021 Jan 6. PMID: 33406325; PMCID: PMC8979367.
5. Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. 2021. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT ’21). Association for Computing Machinery, New York, NY, USA, 610–623. https://doi.org/10.1145/3442188.3445922
6. Zack T, Lehman E, Suzgun M, Rodriguez JA, Celi LA, Gichoya J, Jurafsky D, Szolovits P, Bates DW, Abdulnour RE, Butte AJ, Alsentzer E. Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study. Lancet Digit Health. 2024 Jan;6(1):e12-e22. doi: 10.1016/S2589-7500(23)00225-X. PMID: 38123252.
7. Regulatory considerations on artificial intelligence for health. World Health Organization. https://iris.who.int/handle/10665/373421. License: CC BY-NC-SA 3.0 IGO 8. Miller, E. J., Steward, B. A., Witkower, Z., Sutherland, C. A. M., Krumhuber, E. G., & Dawel, A. (2023). AI Hyperrealism: Why AI Faces Are Perceived as More Real Than Human Ones. In Psychological Science (Vol. 34, Issue 12, pp. 1390–1403). SAGE Publications. https://doi.org/10.1177/09567976231207095