OpenAI: GPT-5 to najbardziej zaawansowany model do udzielania odpowiedzi na pytania medyczne

GPT-5 stał się najbardziej niezawodnym modelem OpenAI w dziedzinie medycyny, twierdzi firma: według wyników oceny na platformie HealthBench, opracowanej z udziałem 250 praktykujących lekarzy, model przewyższył poprzednie wersje pod względem dokładności i jakości odpowiedzi. W testach przeanalizowano 5000 dialogów symulujących konsultacje między pacjentami a asystentami cyfrowymi.
Model ten jest już wykorzystywany w przemyśle farmaceutycznym i ubezpieczeniowym. Na przykład firma Amgen wykorzystuje GPT-5 w rozwoju leków, wykorzystując jego możliwości do dogłębnej analizy danych naukowych i klinicznych. Firma Oscar Health zauważyła wysoką skuteczność GPT-5 w interpretacji złożonych przepisów medycznych podczas pracy z konkretnymi przypadkami pacjentów.
Zapowiedziano również wprowadzenie modelu do pracy w amerykańskich służbach federalnych. GPT-5 jest dostępny w trzech wariantach – GPT-5, GPT-5 mini i GPT-5 nano. OрenAI przewiduje, że w nadchodzących miesiącach model znajdzie szerokie zastosowanie w nowych, jeszcze nieoczywistych scenariuszach.
Jednak wraz ze wzrostem zainteresowania wykorzystaniem sztucznej inteligencji w opiece zdrowotnej, rośnie również zainteresowanie kwestiami bezpieczeństwa. Przedstawiciele firmy Microsoft, strategicznego partnera OpenAI, zauważyli, że scenariusze medyczne są zarówno wartościowe, jak i obarczone wysokim ryzykiem. Potencjalne błędy sztucznej inteligencji w interpretacji danych mogą mieć poważne konsekwencje dla pacjenta. Podkreśla to potrzebę ścisłej kontroli eksperckiej nad wykorzystaniem tego modelu w praktyce klinicznej.
W marcu 2024 roku grupa naukowców z Austrii i Niemiec przedstawiła kompleksowe badanie dotyczące zastosowania ChatGPT, w tym czwartej wersji, w naukach medycznych. Analiza publikacji naukowych od czasu wydania tego modelu LLM (Large Language Model) wykazała, że główny obszar testowania koncentruje się na edukacji medycznej, konsultacjach i badaniach, a także na poszczególnych etapach pracy klinicznej, w tym diagnozie, podejmowaniu decyzji i dokumentacji medycznej.
Jeśli chodzi o konsultacje medyczne, autorzy badania podkreślają, że ChatGPT wykazuje wysoką dokładność w zakresie onkologii (prawdopodobnie dzięki uwzględnieniu w danych szkoleniowych źródeł publicznych, takich jak Narodowy Instytut Raka), a jego skuteczność w innych specjalizacjach wymaga dalszej oceny. Ogólnie rzecz biorąc, naukowcy zauważyli, że ChatGPT nie spełnia wysokich standardów klinicznych – do rzeczywistego wdrożenia potrzebne są specjalistyczne modyfikacje i standaryzowane metody oceny.
Jak wynika z badania, obecne metody oceny w nadmiernym stopniu opierają się na subiektywnych opiniach ekspertów i charakteryzują się brakiem obiektywizmu oraz skalowalności. Obiecującym kierunkiem wydaje się rozwój zautomatyzowanych metryk ilościowych do oceny jakości odpowiedzi, co będzie kluczowym warunkiem klinicznej integracji tej technologii. Stworzenie profesjonalnych wersji ChatGPT dla konkretnych specjalności medycznych, poddanych rygorystycznym testom ilościowym, może utorować drogę do jego praktycznego zastosowania w medycynie.
Jednocześnie ChatGPT4 miał szereg istotnych wad, które ograniczały jego kliniczne zastosowanie – model działa wyłącznie na danych tekstowych, nie potrafi analizować obrazów i nie posiada logiki systemów eksperckich: jego „uzasadnienia” to jedynie probabilistyczne przewidywania kolejnych słów, co może prowadzić do paradoksalnych sytuacji, gdy poprawnej odpowiedzi towarzyszy absurdalne wyjaśnienie. Wiarygodność odpowiedzi zależy bezpośrednio od jakości danych treningowych, a model nie rozróżnia informacji wiarygodnych od fałszywych, co stwarza ryzyko udzielania niebezpiecznych i stronniczych rekomendacji. Szczególnym problemem jest tendencja modelu do generowania wiarygodnych, ale całkowicie fikcyjnych informacji prezentowanych w przekonującej formie. Wymaga to obowiązkowej weryfikacji eksperckiej wszystkich wniosków przed ich wykorzystaniem w praktyce medycznej.
Naukowcy stwierdzili również, że odpowiedzi ChatGPT są często powierzchowne i brakuje im niezbędnej głębi, a model ten nie jest specjalistycznym narzędziem medycznym i wymaga dodatkowej adaptacji do zastosowań klinicznych. Istotnym ograniczeniem jest zależność wyników od sformułowania zapytania – nawet niewielka zmiana w pytaniu może prowadzić do zupełnie innej odpowiedzi.
Prywatność danych to osobna kwestia, ponieważ wykorzystanie zastrzeżonego modelu do przetwarzania danych osobowych dotyczących zdrowia może naruszać wymogi dotyczące prywatności pacjenta. Ograniczenia te podkreślają potrzebę znacznego udoskonalenia modelu i opracowania ścisłych protokołów dotyczących jego stosowania w opiece zdrowotnej.
Badania przeprowadzone w USA i Rosji pokazują podobny trend: zainteresowanie wykorzystaniem sztucznej inteligencji w opiece zdrowotnej łączy się z ostrożnością i nierównym poziomem zaufania. Na przykład, według Annenberg Public Policy Center, 63% Amerykanów jest skłonnych polegać na odpowiedziach generowanych przez sztuczną inteligencję podczas wyszukiwania informacji medycznych, podczas gdy 79% regularnie korzysta z internetu w poszukiwaniu informacji związanych ze zdrowiem. W Rosji, według wyników badania MAR CONSULT, użytkownicy są zainteresowani nowymi technologiami, ale preferują bezpośrednią interakcję z lekarzem, a poziom nieufności wobec sztucznej inteligencji pozostaje wysoki: 46% nie ufa algorytmom maszynowym, 51% wątpi w możliwość uwzględnienia indywidualnych cech pacjenta, a 36% obawia się wycieku danych osobowych.
Według prognoz analityków szwajcarskiej firmy ubezpieczeniowej Swiss Re, do 2034 roku sektor opieki zdrowotnej i farmaceutyczny staną się liderami pod względem poziomu ryzyka ubezpieczeniowego związanego z wykorzystaniem sztucznej inteligencji. Badanie opiera się na analizie obecnej sytuacji rynkowej i przypadków negatywnego wpływu sztucznej inteligencji na różne branże. O ile dziś sektor IT jest uważany za najbardziej podatny na zagrożenia, to w nadchodzącej dekadzie, zdaniem ekspertów, największe zagrożenia będą związane z wprowadzeniem sztucznej inteligencji do praktyki klinicznej, ochroną danych medycznych oraz podejmowaniem decyzji w oparciu o modele samouczące.
Wraz z dynamicznym wdrażaniem ChatGPT w edukację medyczną, naukowcy z Uniwersytetu Syczuańskiego w Chinach przeprowadzili jedno z pierwszych szeroko zakrojonych badań nad postrzeganiem tej technologii przez studentów medycyny. W badaniu wzięło udział 1133 przyszłych lekarzy z różnych uczelni medycznych w prowincji Syczuan. Wyniki pokazały, że 62,9% z nich korzystało już z ChatGPT w trakcie studiów, najczęściej do wyszukiwania informacji medycznych (84,4%) i wykonywania specjalistycznych zadań akademickich (60,4%). Jednocześnie 76,9% studentów wyraziło obawy dotyczące możliwości rozpowszechniania przez bot AI nieprawdziwych informacji medycznych, a 65,4% – ryzyka nieuczciwego zapożyczania treści. Mimo to ponad 60% uczestników zadeklarowało chęć wykorzystania ChatGPT do rozwiązywania problemów edukacyjnych podczas kształcenia klinicznego i ogólnie pozytywnie oceniło jego potencjał w edukacji medycznej.
vademec