Il suffit d'ajouter des humains : une étude médicale d'Oxford souligne le chaînon manquant dans les tests de chatbot

Sélectionner la langue

French

Down Icon

Sélectionnez un pays

America

Down Icon

Il suffit d'ajouter des humains : une étude médicale d'Oxford souligne le chaînon manquant dans les tests de chatbot

Il suffit d'ajouter des humains : une étude médicale d'Oxford souligne le chaînon manquant dans les tests de chatbot

Participez à l'événement auquel les chefs d'entreprise font confiance depuis près de deux décennies. VB Transform rassemble les personnes qui élaborent de véritables stratégies d'IA pour les entreprises. En savoir plus

Les gros titres le répètent depuis des années : les grands modèles linguistiques (LLM) peuvent non seulement réussir les examens de licence médicale, mais aussi surpasser les humains. GPT-4 pouvait répondre correctement aux questions des examens de licence médicale américains dans 90 % des cas, même à l'époque préhistorique de l'IA en 2023. Depuis, les LLM ont surpassé les résidents qui passent ces examens et les médecins agréés .

Faites place à ChatGPT, docteur Google. Mais vous pourriez vouloir plus qu'un diplôme du LLM que vous déployez auprès de vos patients. À l'instar d'un étudiant en médecine brillant qui peut énumérer le nom de chaque os de sa main mais qui s'évanouit à la première vue du vrai sang, la maîtrise en médecine d'un LLM ne se traduit pas toujours directement dans le monde réel.

Une étude réalisée par des chercheurs de l'Université d'Oxford a révélé que si les LLM pouvaient identifier correctement les conditions pertinentes dans 94,9 % des cas lorsqu'ils étaient directement confrontés à des scénarios de test, les participants humains utilisant les LLM pour diagnostiquer les mêmes scénarios identifiaient les conditions correctes dans moins de 34,5 % des cas.

Plus remarquable encore, les patients utilisant des LLM ont obtenu des résultats encore plus mauvais qu'un groupe témoin à qui l'on avait simplement demandé de se diagnostiquer eux-mêmes en utilisant « les méthodes habituelles à domicile ». Le groupe livré à lui-même avait 76 % de chances en plus d'identifier les pathologies correctes que le groupe assisté par des LLM.

L’étude d’Oxford soulève des questions sur l’adéquation des LLM aux conseils médicaux et sur les critères que nous utilisons pour évaluer les déploiements de chatbots pour diverses applications.

Sous la direction du Dr Adam Mahdi, des chercheurs d'Oxford ont recruté 1 298 participants pour un master en droit. Leur mission était de déterminer leur pathologie et le niveau de soins approprié, allant de l'auto-prise en charge à l'appel d'une ambulance.

Chaque participant a reçu un scénario détaillé, présentant des pathologies allant de la pneumonie au rhume, ainsi que des détails sur sa vie quotidienne et ses antécédents médicaux. Par exemple, un scénario décrit un étudiant en ingénierie de 20 ans qui souffre d'un violent mal de tête lors d'une soirée entre amis. Il comprend des détails médicaux importants (il a mal à regarder par terre) et des fausses pistes (il boit régulièrement, partage un appartement avec six amis et vient de passer des examens stressants).

L'étude a testé trois LLM différents. Les chercheurs ont sélectionné GPT-4o pour sa popularité, Llama 3 pour ses pondérations ouvertes et Command R+ pour ses capacités de génération augmentée par récupération (RAG), qui lui permettent de rechercher de l'aide sur le Web ouvert.

Les participants ont été invités à interagir avec le LLM au moins une fois en utilisant les détails fournis, mais pouvaient l'utiliser autant de fois qu'ils le souhaitaient pour arriver à leur autodiagnostic et à l'action prévue.

En coulisses, une équipe de médecins a décidé à l'unanimité des conditions « standard » à privilégier pour chaque scénario, ainsi que de la conduite à tenir correspondante. Notre étudiant en ingénierie, par exemple, souffre d'une hémorragie sous-arachnoïdienne, qui nécessite une consultation immédiate aux urgences.

On pourrait penser qu'un LLM capable de réussir un examen médical serait l'outil idéal pour aider les gens ordinaires à s'autodiagnostiquer et à déterminer la marche à suivre, mais les choses ne se sont pas passées comme prévu. « Les participants utilisant un LLM ont identifié des pathologies pertinentes de manière moins systématique que ceux du groupe témoin, identifiant au moins une pathologie pertinente dans 34,5 % des cas au maximum, contre 47,0 % pour le groupe témoin », indique l'étude. Ils n'ont pas non plus réussi à déduire la bonne marche à suivre, ne la choisissant que dans 44,2 % des cas, contre 56,3 % pour un LLM agissant de manière autonome.

Qu'est-ce qui s'est mal passé ?

En examinant les transcriptions, les chercheurs ont constaté que les participants fournissaient des informations incomplètes aux LLM, et que ces derniers interprétaient mal leurs consignes. Par exemple, un utilisateur censé présenter des symptômes de calculs biliaires a simplement déclaré au LLM : « J'ai de fortes douleurs à l'estomac qui durent jusqu'à une heure. Elles peuvent me faire vomir et semblent coïncider avec un repas à emporter », omettant ainsi la localisation, l'intensité et la fréquence de la douleur. La commande R+ a suggéré à tort que le participant souffrait d'indigestion, et le participant a mal deviné ce problème.

Même lorsque les LLM fournissaient les informations correctes, les participants ne suivaient pas toujours leurs recommandations. L'étude a révélé que 65,7 % des conversations GPT-4o suggéraient au moins une condition pertinente pour le scénario, mais que moins de 34,5 % des réponses finales des participants reflétaient ces conditions pertinentes.

Cette étude est utile, mais pas surprenante, selon Nathalie Volkheimer, spécialiste de l'expérience utilisateur au Renaissance Computing Institute (RENCI) de l'Université de Caroline du Nord à Chapel Hill.

« Pour ceux d'entre nous qui se souviennent des débuts de la recherche sur Internet, c'est du déjà-vu », dit-elle. « En tant qu'outils, les grands modèles linguistiques exigent des invites rédigées avec un niveau de qualité particulier, surtout lorsqu'on attend un résultat de qualité. »

Elle souligne qu'une personne souffrant d'une douleur aveuglante ne fournirait pas de conseils judicieux. Bien que les participants à une expérience en laboratoire ne ressentaient pas directement les symptômes, ils ne communiquaient pas tous les détails.

« Il y a aussi une raison pour laquelle les cliniciens qui s'occupent des patients en première ligne sont formés à poser des questions d'une certaine manière et avec une certaine répétitivité », poursuit Volkheimer. Les patients omettent des informations parce qu'ils ne savent pas ce qui est pertinent ou, au pire, mentent par gêne ou honte.

Les chatbots pourraient-ils être mieux conçus pour répondre à ces besoins ? « Je ne mettrais pas l'accent sur les machines ici », prévient Volkheimer. « Je préférerais plutôt privilégier l'interaction homme-technologie. » La voiture, fait-elle une analogie, a été conçue pour transporter les gens du point A au point B, mais de nombreux autres facteurs entrent en jeu. « Il s'agit du conducteur, des routes, de la météo et de la sécurité générale du trajet. Ce n'est pas seulement la machine qui décide. »

L’étude d’Oxford met en lumière un problème, non pas lié aux humains ou même aux LLM, mais à la manière dont nous les mesurons parfois : dans le vide.

Lorsque nous affirmons qu'un LLM peut réussir un examen d'autorisation d'exercer en médecine, un examen d'autorisation d'exercer en immobilier ou un examen du barreau, nous sondons l'étendue de ses connaissances à l'aide d'outils conçus pour évaluer les humains. Cependant, ces mesures ne nous renseignent guère sur la capacité de ces chatbots à interagir avec les humains.

« Les instructions étaient conformes aux manuels scolaires (comme validé par la source et la communauté médicale), mais la vie et les gens ne sont pas conformes aux manuels scolaires », explique le Dr Volkheimer.

Imaginez une entreprise sur le point de déployer un chatbot de support entraîné à partir de sa base de connaissances interne. Une façon apparemment logique de tester ce bot pourrait simplement être de lui faire passer le même test que celui utilisé par l'entreprise pour les stagiaires du service client : répondre à des questions de support client pré-écrites et sélectionner des réponses à choix multiples. Une précision de 95 % serait certainement prometteuse.

Vient ensuite le déploiement : les vrais clients utilisent des termes vagues, expriment leur frustration ou décrivent les problèmes de manière inattendue. Le LLM, évalué uniquement sur des questions claires, s'embrouille et fournit des réponses incorrectes ou inutiles. Il n'a pas été entraîné ni évalué sur la désescalade des situations ni sur la recherche efficace de clarifications. Les critiques négatives s'accumulent. Le lancement est un désastre, malgré le fait que le LLM ait passé avec brio des tests qui semblaient robustes pour ses homologues humains.

Cette étude constitue un rappel crucial pour les ingénieurs en IA et les spécialistes de l'orchestration : si un LLM est conçu pour interagir avec des humains, s'appuyer uniquement sur des benchmarks non interactifs peut créer un dangereux faux sentiment de sécurité quant à ses capacités concrètes. Si vous concevez un LLM pour interagir avec des humains, vous devez le tester avec des humains, et non des tests pour des humains. Mais existe-t-il une meilleure solution ?

Les chercheurs d'Oxford ont recruté près de 1 300 personnes pour leur étude, mais la plupart des entreprises ne disposent pas d'un vivier de sujets prêts à tester un nouvel agent LLM. Alors pourquoi ne pas simplement remplacer les testeurs humains par des testeurs IA ?

Mahdi et son équipe ont également tenté cette expérience avec des participants simulés. « Vous êtes un patient », ont-ils demandé à un LLM, distinct de celui qui prodiguerait les conseils. « Vous devez auto-évaluer vos symptômes à partir de la vignette de cas donnée et de l'aide d'un modèle d'IA. Simplifiez la terminologie utilisée dans le paragraphe donné pour qu'elle soit accessible au plus grand nombre et gardez des questions ou des déclarations raisonnablement courtes. » Il a également été demandé au LLM de ne pas utiliser de connaissances médicales ni de générer de nouveaux symptômes.

Ces participants simulés ont ensuite discuté avec les mêmes outils LLM que les participants humains. Leurs résultats ont toutefois été bien meilleurs. En moyenne, les participants simulés utilisant les mêmes outils LLM ont réussi à répondre aux conditions pertinentes dans 60,7 % des cas, contre moins de 34,5 % chez les humains.

Dans ce cas, il s’avère que les LLM fonctionnent mieux avec d’autres LLM que les humains, ce qui en fait un mauvais prédicteur des performances dans la vie réelle.

Compte tenu des scores que les LLM pourraient obtenir seuls, il serait tentant de blâmer les participants. Après tout, dans de nombreux cas, ils ont reçu les bons diagnostics lors de leurs échanges avec les LLM, mais n'ont pas réussi à les deviner correctement. Mais ce serait une conclusion imprudente pour toute entreprise, prévient Volkheimer.

« Dans tout environnement client, si vos clients ne font pas ce que vous attendez d'eux, la dernière chose à faire est de les blâmer », explique Volkheimer. « La première chose à faire est de se demander pourquoi. Et pas un "pourquoi" spontané : mais un "pourquoi" approfondi, spécifique, anthropologique et psychologique. C'est le point de départ. »

Il est essentiel de comprendre votre public, ses objectifs et l'expérience client avant de déployer un chatbot, suggère Volkheimer. Tous ces éléments contribueront à la documentation complète et spécialisée qui, à terme, rendra un LLM utile. Sans supports de formation soigneusement sélectionnés, « le programme va produire des réponses génériques que tout le monde déteste, et c'est pourquoi les chatbots sont détestés », explique-t-elle. Dans ce cas, « ce n'est pas parce que les chatbots sont mauvais ou qu'ils présentent un problème technique. C'est parce que leur contenu est défectueux. »

« Les personnes qui conçoivent les technologies, développent les informations à intégrer, les processus et les systèmes sont, eh bien, des êtres humains », explique Volkheimer. « Elles ont aussi un bagage, des hypothèses, des faiblesses et des angles morts, ainsi que des forces. Et tous ces éléments peuvent être intégrés à toute solution technologique. »

Informations quotidiennes sur les cas d'utilisation métier avec VB Daily

Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.

Lisez notre politique de confidentialité

Merci de votre abonnement. Découvrez d'autres newsletters VB ici .

Une erreur s'est produite.

venturebeat

venturebeat

Nouvelles similaires

Toutes les actualités
Animated ArrowAnimated ArrowAnimated Arrow