Visite ed esami medici

[Revisione sistematica e meta-analisi] L’AI può diagnosticare le malattie al pari degli operatori sanitari?

Intelligenza Artificiale (AI) e Deep Learning

L’Intelligenza Artificiale (AI) è, in termini tecnici, un ramo dell’informatica rivolto alla programmazione e progettazione di sistemi hardware e software che permettono di dotare le macchine di determinate caratteristiche tipicamente umane quali, ad esempio:

  • percezioni visive;
  • percezioni spazio-temporali
  • caratteristiche decisionali.

Si tratta di intelligenza in senso lato, che spazia dalle capacità di calcolo o di conoscenza di dati astratti, all’intelligenza spaziale, sociale, cinestetica e introspettiva.
Le macchine dotate di questo sistema, che include differenti forme di intelligenza, possono riprodurre particolari comportamenti tipicamente umani.

Prendendo quindi spunto dalla struttura del cervello, nello specifico l’interconnessione dei vari neuroni, è nato uno degli approcci all’apprendimento automatico chiamato “deep learning”, ovvero “apprendimento approfondito”.
La tecnica del Deep Learning offre notevoli promesse per la diagnostica medica.
Una ricerca pubblicata in questi giorni sul ScienceDirect ha illustrato i risultati ottenuti nello studio: “A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis”.

Il Deep Learning e la classificazione delle malattie

Il Deep Learning utilizza i modelli delle reti neurali con varie unità di elaborazione: sfrutta i progressi computazionali e le tecniche di allenamento per apprendere modelli complessi attraverso una enorme quantità di dati.
Le applicazioni comuni includono l’image e lo speech recognition.
Altri approcci includono la programmazione logica induttiva, il clustering e le reti bayesiane. Queste ultime sono basate su modelli DAG (grafo aciclico diretto) costituiti da un insieme di variabili e dalle loro dipendenze condizionali.
Il modello può rappresentare le relazioni probabilistiche tra malattie e sintomi: dati i sintomi come input, è possibile stimare la probabilità di una determinata malattia.

Il team di ricercatori ha deciso di valutare l’accuratezza diagnostica degli algoritmi del Deep Learning rispetto agli operatori sanitari nella classificazione delle malattie utilizzando l’imaging medico.
Ha quindi cercato diversi database medici relativi agli studi pubblicati tra il 1 gennaio 2012 e il 6 giugno 2019.
Sono stati inclusi tutti gli studi che confrontano le prestazioni diagnostiche dei modelli di apprendimento profondo e degli operatori sanitari basati sull’imaging medico.
Sono stati poi estratti i dati binari di accuratezza diagnostica e costruite tabelle di contingenza per ricavare i risultati relativi a:

  • sensibilità, intesa come probabilità che uno strumento diagnostico ottenga un risultato positivo nelle persone che hanno la malattia;
  • specificità, intesa come riferimento all’accuratezza del test diagnostico, che completa la misura di sensibilità.

Risultati ottenuti

La ricerca ha identificato 31.587 studi, di cui 82, che descrivono 147 coorti di pazienti, sono stati inclusi nell’indagine.
Questi studi consideravano:

  • malattie oftalmologiche (18 studi)
  • cancro al seno (dieci studi)
  • ortopedia traumatologia (dieci studi)
  • tumori dermatologici (nove studi)
  • malattie respiratorie (otto studi)
  • tumori polmonari (sette studi)
  • tumori gastroenterologici o epatici (cinque studi),
  • carcinomi tiroidei (quattro studi)
  • gastroenterologia ed epatologia (due studi)
  • cardiologia (due studi)
  • tumori orali (due studi)
  • nefrologia (uno studio)
  • neurologia (uno studio)
  • chirurgia maxillo-faciale (uno studio)
  • reumatologia (uno studio)
  • carcinomi rinofaringei (uno studio)
  • malattie urologiche (uno studio).

69 tra questi studi hanno fornito dati sufficienti per costruire tabelle di contingenza, consentendo il calcolo dell’accuratezza del test.
Una validazione esterna, fuori campione, è stata effettuata in 25 studi, di cui 14 hanno permesso il confronto tra modelli di apprendimento profondo e operatori sanitari nello stesso campione.
Terminato il confronto è stata rilevata una sensibilità aggregata:

  • dell’87% per i modelli di apprendimento profondo
  • dell’86,4% per gli operatori sanitari.

e una specificità aggregata:

  • del 92,5% per gli algoritmi di apprendimento profondo
  • del 90,5% per gli operatori sanitari.
Foto di mohamed Hassan da Pixabay

Conclusioni e potenziale futuro del Deep Learning

La ricerca ha riscontrato come le prestazioni diagnostiche dei modelli di apprendimento profondo siano equivalenti a quelle degli operatori sanitari.
Tuttavia, è importante indicare alcune delle limitazioni sopraggiunte:

  • molti studi sono stati esclusi allo screening perché non hanno fornito confronti con gli operatori sanitari (umani vs macchine) e pochissimi degli studi inclusi hanno riportato confronti con gli operatori sanitari che utilizzano come campione lo stesso set di dati;
  • inoltre sono stati condotti pochissimi studi prospettici in ambienti clinici reali;
  • la maggior parte degli studi erano retrospettivi, ovvero basati su set di dati precedentemente raccolti;
  • infine, i criteri per la presenza o l’assenza di malattia erano spesso definiti in modo inadeguato.

La diagnosi della malattia mediante algoritmi di Deep Learning ha un potenziale enorme.
Da questa meta-analisi esplorativa, dichiariamo con cautela che l’accuratezza degli algoritmi di apprendimento profondo è equivalente a quella dei professionisti della sanità, pur riconoscendo che sono necessari ulteriori studi che considerino l’integrazione di tali algoritmi in contesti del mondo reale.
Le scoperte più importanti relative alla metodologia e ai rapporti indicano che la credibilità e il percorso dell’impatto di tali algoritmi diagnostici potrebbero essere minati da un’eccessiva affermazione di uno studio mal progettato o riportato in modo inadeguato.

hanno commentato i ricercatori, indicando quindi nelle conclusioni:

Nuovi standard di rendicontazione che affrontano le sfide specifiche del Deep Learning potrebbero migliorare gli studi futuri, consentendo una maggiore affidabilità nei risultati delle future valutazioni di questa promettente tecnologia.

Lucia Fava
Lucia Fava
Copywriter ed esperta di social media marketing, è la responsabile del coordinamento con i revisori scientifici. Si occupa di ricerca fonti e fact checking. ------ Note biografiche disponibili nella pagina Redazione | Tutti gli articoli, ove non espressamente specificato, sono sottoposti a Revisione Scientifica e Fact Checking.