En médecine, l’IA est en plein essor, mais pas sa crédibilité

Avec la pandémie, les chercheurs ont eu plus que jamais recours à l’IA pour tenter de percer les secrets du Covid-19, notamment pour tenter de détecter la maladie plus tôt sur les images pulmonaires et mieux prédire quels patients sont plus susceptibles de tomber gravement malades. Des centaines d’études ont été publiées dans les revues médicales et sur les serveurs de prépublication pour démontrer les capacités de l’IA à effectuer ces analyses avec précision. Une équipe de recherche de l’université de Cambridge en Angleterre a examiné quelques 400 de ces modèles pour Nature et est arrivée à une conclusion bien différente. Chacun d’eux présentait de graves lacunes méthodologiques. En fait, dans la plupart des études, les algorithmes étaient entraînés sur de petits échantillons de données, provenant d’une seule origine, avec une diversité très limitée. Certaines études ont même utilisé les mêmes données pour l’entraînement et les tests, ce qui conduit souvent à des performances impressionnantes, mais totalement fallacieuses.

Le problème ne se limite pas au Covid, explique le toujours excellent Casey Ross (@caseymross) pour Statnews (@statnews) – qui nous avait déjà alerté sur les limites du Watson d’IBM dans le domaine de la santé, qui a visiblement depuis tiré des leçons de ses échecs et changé sa politique. Le Machine learning génère des milliards d’investissements en médecine, mais est confronté à une crise de crédibilité. Nombre d’articles s’appuient sur des données limitées ou de faibles qualités, beaucoup d’autres ne précisent par leurs méthodes, et d’autres voire les mêmes ne vérifient pas si leurs modèles fonctionnent pour des personnes de sexe, d’âge ou d’origines différentes. Certes, l’intensité de la concurrence et l’urgence ont tendance à générer la surpublication d’études peu rigoureuses. Mais le problème tient plutôt du cercle vicieux de l’apprentissage automatique : il existe peu de grands ensembles de données diversifiées pour entraîner et valider un nouvel outil. Trop souvent, les données sont protégées pour des raisons juridiques ou commerciales. Conséquence, les évaluateurs n’ont pas de données pour tester ou comparer, étape pourtant clé dans l’approbation des travaux. Le fait de ne pas tester les modèles avec des données différentes est courant dans les études de prépublication… Le problème, c’est que les algorithmes semblent souvent précis et efficaces, mais lorsque les modèles sont exposés à d’autres données (parfois seulement des images médicales obtenues avec d’autres appareils !), leur niveau de performance s’effondre. Au final, le risque, c’est d’approuver des modèles, des services ou des algorithmes auxquels nous ne pouvons pas faire confiance, explique Matthew McDermott (@mattmcdermott) du MIT qui vient de cosigner un article sur cet enjeu.

L'article de Casey Ross pour StatNews

En fait, c’est déjà le cas avec des systèmes utilisés pourtant pour traiter des maladies graves comme les maladies cardiaques ou le cancer. En février, Casey Ross avait publié un article sur le sujet qui montrait que seuls 73 des 161 produits basés sur l’IA approuvés par la Food and Drug Administration (FDA), l’autorité qui autorise la commercialisation des médicaments aux États-Unis, ont publiés les données qu’ils avaient utilisés et que seulement 7 ont donné des indications sur la composition et la diversité des populations étudiées. En fait, les sources de données ne sont « presque jamais » indiquées !

Dans un autre article pour Nature, des chercheurs de Stanford ont lancé l’alerte sur ces produits d’IA à haut risque autorisés par la FDA. L’étude des chercheurs de Cambridge souligne quant à elle que seuls 62 des 400 articles passent un succinct contrôle de qualité sur la question de l’indication de sources de données et d’explication sur la méthode d’entraînement. Mais qu’ensuite, sur ces 62 articles, 55 sont jugés à « haut risque de partialité » ! Un des problèmes que rencontre ce champ de recherche émergent tient à l’absence de normes consensuelles pour évaluer la recherche en IA en médecine. Les chercheurs de l’université de Cambridge, eux, ont utilisé une des rares listes de contrôle méthodologique dans le domaine (CLAIM) qui établit une liste de critères pour les auteurs et évaluateurs.

L’urgence peut certes peut-être excuser les lacunes de nombres de ces études… Mais les failles méthodologiques ne concernent pas que le Covid ! La mise en évidence des problèmes du machine learning en médecine, exhortant la recherche à améliorer ses méthodes d’évaluation et leurs transparences, est même devenue un sous-genre à part entière dans la recherche médicale (voir notamment notre article « Vers un renouveau militant des questions technologiques »), estime Casey Ross. Le problème c’est que l’incapacité à reproduire les résultats érode la confiance dans l’IA et sape les efforts qui cherchent à la déployer dans les soins cliniques.

« Un examen récent de plus de 500 études sur l’apprentissage automatique dans de multiples domaines a révélé que celles réalisées dans le domaine des soins de santé étaient particulièrement difficiles à reproduire, car le code et les ensembles de données sous-jacents étaient rarement divulgués. Cet examen, mené par des chercheurs du MIT, a révélé que seulement 23 % des études sur l’apprentissage automatique dans le domaine de la santé utilisaient des ensembles de données multiples pour établir leurs résultats, contre 80 % dans le domaine voisin de la vision par ordinateur et 58 % dans le traitement du langage naturel. »

Ce problème s’explique notamment par les restrictions en matière de protection des données plus affirmées dans le domaine de la santé et la difficulté d’obtenir des données provenant de plusieurs institutions.

Google a récemment annoncé une application qui utilise l’IA pour analyser les problèmes dermatologiques (parmi de nombreuses recherches que Google consacre à la santé), mais a refusé de divulguer publiquement les sources des données utilisées pour créer le modèle. Pour McDermott, ces obstacles structurels doivent être surmontés, notamment en utilisant l’apprentissage fédéré (une méthode qui permet de développer des modèles sans échanger les données) ou en utilisant des données virtuelles, modelées depuis des patients réels. Casey Ross signale encore un autre problème : dans un monde en constante évolution, les effets des maladies sur les patients peuvent rapidement changer tout comme les méthodes de traitement, rendant les modélisations plus fragiles sur le long terme. Pour McDermott, la stabilité des résultats en santé n’est pas acquise. « Un paradigme réglementaire statique où nous disons : « OK, cet algorithme obtient un tampon d’approbation et maintenant vous pouvez aller faire ce que vous voulez avec lui pour toujours et à jamais » – cela me semble dangereux. »

Hubert Guillaud

MAJ du 07/06/2021 : Au coeur de la pandémie, Epic, un des géant privé américain de la gestion de dossiers médicaux électroniques et l’un des principaux fournisseurs de données de santé, a accéléré le déploiement d’un outil de prédiction clinique du Covid depuis un système d’IA pour aider les médecins dans leur sélection de personnes à placer en soins intensifs en produisant un « score de détérioration », rapporte Fast Company. Pour les médecins Vishal Khetpal et Nishant Shah, ce score d’automatisation du « tri » des patients censé aider les médecins dans leur décision n’est pas sans poser problème, comme le pointait également Casey Ross. Une étude a montré que l’indice réussissait moyennement à distinguer les patients à faible risque de ceux qui avaient un risque élevé d’être transférés dans une unité de soin intensifs. Le déploiement « précipité » a pourtant créé un inquiétant précédent. Alors que l’utilisation d’algorithmes pour soutenir les décisions cliniques n’est pas nouvelle, leur mise en oeuvre, jusqu’à présent, nécessitait des examens rigoureux. Si Epic produit la liste de variable utilisée et l’estimation de l’impact de chaque variable sur le score, les données et les calculs demeurent non auditables par le corps médical. L’indice de détérioration n’a pas fait l’objet d’une validation indépendante avant son déploiement. Le risque bien sûr est qu’il encode des préjugés. Les médecins rappellent néanmoins que là encore, pourtant, il existe des listes de contrôle et des normes pour juger de la fiabilité d’une prédiction clinique (comme la liste de contrôle Tripod en 22 points (.pdf) développée en 2015 par le réseau international Equator Network). Et les médecins d’exiger une évaluation indépendante rapide de cet outil.

MAJ du 23/06/2021 : Dans un nouvel article pour State News, Casey Ross revient sur une étude (.pdf) du Centre pour l’intelligence artificielle appliquée de Chicago Booth qui montre que les préjugés algorithmiques dans la santé sont omniprésents et influent sur d’innombrables décisions quotidiennes concernant le traitement des patients par les hôpitaux. Le rapport est accompagné d’une check list pour aider les équipes à contrôler leurs outils d’aide à la décision. Parmi les calculs biaisés, les chercheurs pointent « l’indice de gravité des urgences », rien de moins que le système pour prioriser les arrivées aux urgences ! Mais encore les systèmes qui évaluent la gravité de l’arthrose du genou, ceux qui mesurent la mobilité, les outils de prédiction de l’apparition de maladies telles que le diabète, les maladies rénales et l’insuffisance cardiaque, ou les outils qui tentent d’identifier les patients qui ne se présenteront pas à leurs rendez-vous… Les chercheurs parlent d’un problème systémique. Des premiers éléments montrent que le problème s’étend également aux systèmes d’assurance santé…

MAJ du 16/09/2021 : Dans une tribune pour Le Monde, la spécialiste de l’éthique en IA, Nozha Boujemaa, revient également sur les défaillances de nombres de projets d’IA dans le domaine de la santé et souligne que les checks-lists éthiques, qui se positionnent en amont des déploiements, peinent à évaluer les systèmes. Dans le domaine médical notamment, c’est plus la robustesse et la précision des algorithmes qui pose problème. Tester la robustesse d’un algorithme repose surtout sur des principes de reproductibilité et répétabilité des systèmes : « Un algorithme est répétable s’il délivre les mêmes résultats quand il est appliqué plusieurs fois sur les mêmes données des patients. Il est reproductible quand il donne les mêmes résultats et performances dans des conditions différentes. » Elle signale d’ailleurs que l’Association for Computing Machinery (ACM) a déployé des procédures de validation des publications scientifiques incluant la répétabilité, la reproductibilité et la réplicabilité, comme des leviers pour améliorer la robustesse de l’IA. Il serait peut-être tant de les intégrer au-delà des seules publications scientifiques…

À lire aussi sur internetactu.net