Des chercheurs médicaux de Google sont humiliés lorsque l’outil de dépistage de l’IA ne répond pas aux tests réels

L’IA est souvent citée comme un miracle en médecine, en particulier dans les processus de dépistage, où les modèles d’apprentissage automatique disposent de compétences de niveau expert pour détecter les problèmes. Mais comme tant de technologies, c’est une chose de réussir en laboratoire, une autre de le faire dans la vie réelle – comme Google les chercheurs ont appris lors d’un test d’humilité dans des cliniques de la Thaïlande rurale.

Google Health a créé un système d’apprentissage en profondeur qui examine les images de l’œil et recherche des preuves de rétinopathie diabétique, l’une des principales causes de perte de vision dans le monde. Mais malgré une grande précision théorique, l’outil s’est révélé peu pratique dans les tests en situation réelle, frustrant à la fois les patients et les infirmières avec des résultats incohérents et un manque général d’harmonie avec les pratiques sur le terrain.

Il faut dire d’emblée que bien que les leçons apprises ici aient été difficiles, c’est une étape nécessaire et responsable pour effectuer ce type de test, et il est louable que Google ait publié ces résultats moins que flatteurs en public. Il ressort également de leur documentation que l’équipe a déjà pris les résultats à cœur (bien que le blog présente une interprétation plutôt ensoleillée des événements).

Le document de recherche documente le déploiement d’un outil destiné à augmenter le processus existant par lequel les patients de plusieurs cliniques en Thaïlande sont dépistés pour la rétinopathie diabétique, ou DR. Essentiellement, les infirmières prennent les patients diabétiques un à la fois, prennent des images de leurs yeux (une «photo du fond d’œil») et les envoient par lots à des ophtalmologistes, qui les évaluent et renvoient les résultats…. généralement au moins 4-5 semaines plus tard en raison de la forte demande.

Le système Google était destiné à fournir une expertise de type ophtalmologiste en quelques secondes. Dans des tests internes, il a identifié des degrés de DR avec une précision de 90%; les infirmières pouvaient alors faire une recommandation préliminaire de renvoi ou de tests supplémentaires en une minute au lieu d’un mois (les décisions automatiques étaient vérifiées par un ophtalmologiste dans un délai d’une semaine). Sonne bien – en théorie.

Idéalement, le système retournerait rapidement un résultat comme celui-ci, qui pourrait être partagé avec le patient.

Mais cette théorie s’est effondrée dès que les auteurs de l’étude ont touché le sol. Comme le décrit l’étude:

Nous avons observé un degré élevé de variation dans le processus de dépistage oculaire entre les 11 cliniques de notre étude. Les processus de capture et de classement des images étaient uniformes dans toutes les cliniques, mais les infirmières disposaient d’une grande autonomie sur la façon dont elles organisaient le flux de travail de dépistage, et différentes ressources étaient disponibles dans chaque clinique.

Le cadre et les lieux où les dépistages oculaires ont eu lieu étaient également très variés d’une clinique à l’autre. Seules deux cliniques avaient une salle de dépistage dédiée qui pouvait être assombrie pour garantir que les pupilles des patients étaient suffisamment grandes pour prendre une photo de fond d’œil de haute qualité.

La variété des conditions et des processus a entraîné l’envoi d’images au serveur non conforme aux normes élevées de l’algorithme:

Le système d’apprentissage en profondeur a des directives strictes concernant les images qu’il évaluera… Si une image a un peu de flou ou une zone sombre, par exemple, le système la rejettera, même si elle pouvait faire une forte prédiction. Les normes élevées du système en matière de qualité d’image sont en contradiction avec la cohérence et la qualité des images que les infirmières capturaient régulièrement sous les contraintes de la clinique, et cette inadéquation a causé de la frustration et du travail supplémentaire.

Des images avec une DR évidente mais de mauvaise qualité seraient refusées par le système, compliquant et étendant le processus. Et c’est à ce moment-là qu’ils ont pu les télécharger sur le système:

Sur une connexion Internet forte, ces résultats apparaissent en quelques secondes. Cependant, les cliniques de notre étude ont souvent connu des connexions plus lentes et moins fiables. Le téléchargement de certaines images prend de 60 à 90 secondes, ce qui ralentit la file d’attente de dépistage et limite le nombre de patients pouvant être examinés en une journée. Dans une clinique, Internet a été interrompu pendant une période de deux heures pendant le dépistage oculaire, réduisant le nombre de patients dépistés de 200 à seulement 100.

«D’abord, ne faites pas de mal» est sans doute en jeu ici: moins de personnes dans ce cas ont reçu un traitement en raison d’une tentative de tirer parti de cette technologie. Les infirmières ont essayé diverses solutions de contournement, mais l’incohérence et d’autres facteurs ont conduit certains à déconseiller aux patients de participer à l’étude.

Même le meilleur des cas a eu des conséquences imprévues. Les patients n’étaient pas préparés pour une évaluation instantanée et un rendez-vous de suivi immédiatement après l’envoi de l’image:

En raison de la conception du protocole de l’étude prospective et de la nécessité éventuelle de faire des plans sur place pour visiter l’hôpital de référence, nous avons observé des infirmières des cliniques 4 et 5 dissuadant les patients de participer à l’étude prospective, de peur que cela ne cause difficultés inutiles.

Comme l’a dit l’une de ces infirmières:

« [Patients] ne sont pas concernés par la précision, mais comment l’expérience sera-t-elle perdre mon temps si je dois aller à l’hôpital? Je leur assure qu’ils n’ont pas à aller à l’hôpital. Ils demandent: « cela prend-il plus de temps? », « Dois-je aller ailleurs? ». Certaines personnes ne sont pas prêtes à partir, alors elles ne participeront pas à la recherche. 40 à 50% ne se joignent pas parce qu’ils pensent qu’ils doivent aller à l’hôpital. »

Ce ne sont pas toutes de mauvaises nouvelles, bien sûr. Le problème n’est pas que l’IA n’a rien à offrir dans une clinique thaïlandaise bondée, mais que la solution doit être adaptée au problème et au lieu. L’évaluation automatique instantanée et facilement compréhensible a été appréciée par les patients et les infirmières lorsqu’elle a bien fonctionné, ce qui a parfois permis de prouver qu’il s’agissait d’un problème grave qui devait être résolu rapidement. Et bien sûr, le principal avantage de réduire la dépendance à l’égard d’une ressource très limitée (ophtalmologistes locaux) est potentiellement transformateur.

Mais les auteurs de l’étude semblaient lucides dans leur évaluation de cette application prématurée et partielle de leur système d’IA. Comme ils l’ont dit:

Lors de l’introduction de nouvelles technologies, les planificateurs, les décideurs et les concepteurs de technologies n’ont pas tenu compte de la nature dynamique et émergente des problèmes posés par les programmes de soins de santé complexes. Les auteurs soutiennent que s’occuper des gens – leurs motivations, leurs valeurs, leur identité professionnelle et les normes et routines actuelles qui façonnent leur travail – est essentiel lors de la planification des déploiements.

Le document mérite d’être lu à la fois comme une introduction à la façon dont les outils d’IA sont censés fonctionner dans les environnements cliniques et aux obstacles rencontrés – à la fois par la technologie et par ceux destinés à l’adopter.

L’IA et les mégadonnées ne feront pas de miracles dans la lutte contre les coronavirus

Traduit de l’anglais de https://techcrunch.com/2020/04/27/google-medical-researchers-humbled-when-ai-screening-tool-falls-short-in-real-life-testing/

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.