Mancano studi ben progettati per dare una valutazione precisa del deep learning
Secondo la prima revisione sistematica e meta-analisi che ha sintetizzato tutte le evidenze disponibili, l'intelligenza artificiale analizza immagini diagnostiche con livelli di accuratezza simili a quelli dei medici. Gli autori avvertono che la vera potenza diagnostica dell’intelligenza artificiale rimane però incerta a causa della mancanza di studi che confrontino direttamente le prestazioni di esseri umani e computer o che convalidino le prestazioni dell'intelligenza artificiale in ambienti clinici reali.
Grazie al cosiddetto deep learning - l'uso di algoritmi, grandi dati e potenza di calcolo per emulare l'apprendimento e l'intelligenza umana - i computer oggi possono esaminare migliaia di immagini mediche ed identificare specifici pattern patologici. Questa tecnica ha un enorme potenziale e potrebbe migliorare l'accuratezza e la velocità delle diagnosi. Negli ultimi anni si sono lette diverse notizie relative allo sviluppo di modelli di deep learning capaci di superare i medici nel fare diagnosi. Questo ha generato molto entusiasmo e dibattito. Tuttavia, nonostante i continui sviluppi tecnologici e il forte interesse, sono state sollevate preoccupazioni sugli studi condotti. Alcuni sono sembrati poco obiettivi ed eccessivamente entusiastici. Altri non hanno chiarito quanto i risultati ottenuti dall’intelligenza artificiale siano davvero applicabili alla pratica clinica.
Un team di ricercatori ha recentemente condotto una revisione sistematica e una meta-analisi di tutti gli studi pubblicati sull’argomento tra gennaio 2012 e giugno 2019. In tutti gli studi il confronto si basava sull’analisi di immagini diagnostiche. I ricercatori hanno anche valutato la progettazione dello studio, la reportistica e il valore clinico.
Gli autori hanno notato diversi limiti nella metodologia e nella comunicazione degli studi diagnostici inclusi nell'analisi. "Abbiamo valutato oltre 20.500 articoli, ma meno dell'1% di questi erano sufficientemente robusti nella loro progettazione. Solo 14 studi hanno effettivamente confrontato le prestazioni dell'intelligenza artificiale e dei medici utilizzando i medesimi test", spiega il Professor Alastair Denniston della University Hospitals Birmingham NHS Foundation Trust, che ha condotto la ricerca. "All'interno di quei pochi studi di alta qualità, abbiamo scoperto che il deep learning potrebbe effettivamente rilevare malattie con la stessa precisione dei medici. Ma è importante notare che l'intelligenza artificiale non ha sostanzialmente superato la capacità diagnostica umana".
Dice il Dr. Xiaoxuan Liu della University of Birmingham. "Questo nostro lavoro sottolinea l’importanza della progettazione per realizzare uno studio di buona qualità in ambito sanitario. Senza di essa, è possibile introdurre facilmente pregiudizi che distorcono i risultati. Questi pregiudizi possono portare, ad esempio, a dichiarazioni esagerate sulla bontà delle prestazioni dell’intelligenza artificiale che, poi, non si traducono nella realtà clinica. Una buona progettazione ed una comunicazione obiettiva dei risultati di questi studi sono fondamentali per garantire che l’intelligenza artificiale possa intervenire sui pazienti in modo sicuro ed efficace”.
Fonte: Faes L, Wagner SK, Fu DJ, Liu X, Korot E, Ledsam JR, Back T, Chopra R, Pontikos N, Kern C, Moraes G, Schmid MK, Sim D, Balaskas K, Bachmann LM, Denniston AK, Keane PA. Automated deep learning design for medical image classification by health-care professionals with no coding experience: a feasibility study. The Lancet Digital Health. Volume 1, Issue 5, September 2019, Pages e232-e242. https://doi.org/10.1016/S2589-7500(19)30108-6