OpenAI: GPT-5 ist das fortschrittlichste Modell zur Beantwortung medizinischer Fragen

GPT-5 hat sich laut OpenAI zum zuverlässigsten Modell im medizinischen Bereich entwickelt: Laut den Ergebnissen der Evaluierung auf der HealthBench-Plattform, die unter Beteiligung von 250 praktizierenden Ärzten entwickelt wurde, übertraf das Modell frühere Versionen hinsichtlich Genauigkeit und Qualität der Antworten. Bei den Tests wurden 5.000 Dialoge analysiert, die Konsultationen zwischen Patienten und digitalen Assistenten simulierten.
Das Modell wird bereits in der Pharma- und Versicherungsbranche eingesetzt. Beispielsweise nutzt Amgen GPT-5 in der Arzneimittelentwicklung und nutzt dessen Fähigkeiten zur detaillierten Analyse wissenschaftlicher und klinischer Daten. Oscar Health hob die hohe Effizienz von GPT-5 bei der Interpretation komplexer medizinischer Vorschriften bei der Arbeit mit spezifischen Patientenfällen hervor.
Die Einführung des Modells in die Arbeit der US-Bundesbehörden wurde ebenfalls angekündigt. GPT-5 ist in drei Varianten verfügbar: GPT-5, GPT-5 mini und GPT-5 nano. OрenAI prognostiziert, dass das Modell in den kommenden Monaten breite Anwendung in neuen, noch nicht offensichtlichen Szenarien finden wird.
Mit dem wachsenden Interesse am Einsatz von KI im Gesundheitswesen steigt jedoch auch die Aufmerksamkeit für Sicherheitsfragen. Vertreter von Microsoft, einem strategischen Partner von OpenAI, wiesen darauf hin, dass medizinische Szenarien zwar wertvolle, aber auch risikoreiche Fälle seien. Mögliche KI-Fehler bei der Interpretation von Daten können schwerwiegende Folgen für den Patienten haben. Dies unterstreicht die Notwendigkeit einer strengen Expertenkontrolle über den Einsatz des Modells in der klinischen Praxis.
Im März 2024 präsentierte eine Gruppe von Wissenschaftlern aus Österreich und Deutschland eine umfassende Studie zur Anwendung von ChatGPT, einschließlich der vierten Version, in den medizinischen Wissenschaften. Die Untersuchung wissenschaftlicher Veröffentlichungen seit der Veröffentlichung dieses LLM (Large Language Model) zeigte, dass der Schwerpunkt der Tests auf der medizinischen Ausbildung, Beratung und Forschung sowie auf einzelnen Phasen der klinischen Arbeit, einschließlich Diagnose, Entscheidungsfindung und medizinischer Dokumentation, liegt.
Was medizinische Konsultationen betrifft, so weisen die Autoren der Studie darauf hin, dass ChatGPT eine hohe Genauigkeit bei onkologischen Themen aufweist (möglicherweise aufgrund der Einbeziehung öffentlicher Quellen wie des National Cancer Institute in die Trainingsdaten). Seine Wirksamkeit in anderen Fachgebieten muss jedoch noch weiter evaluiert werden. Insgesamt, so die Wissenschaftler, erfüllt ChatGPT keine hohen klinischen Standards. Für eine tatsächliche Implementierung sind spezielle Modifikationen und standardisierte Evaluierungsmethoden erforderlich.
Aktuelle Bewertungsmethoden stützen sich laut Studie übermäßig auf subjektive Expertenmeinungen und weisen mangelnde Objektivität und Skalierbarkeit auf. Eine vielversprechende Entwicklung scheint die Entwicklung automatisierter quantitativer Messgrößen zur Bewertung der Antwortqualität zu sein, die eine wichtige Voraussetzung für die klinische Integration der Technologie darstellen. Die Entwicklung professioneller Versionen von ChatGPT für bestimmte medizinische Fachgebiete, die strengen quantitativen Tests unterzogen wurden, könnte den Weg für den praktischen Einsatz in der Medizin ebnen.
Gleichzeitig wies ChatGPT4 eine Reihe erheblicher Mängel auf, die seine klinische Anwendung einschränkten – das Modell arbeitet ausschließlich mit Textdaten, kann keine Bilder analysieren und verfügt nicht über die Logik von Expertensystemen: Seine „Begründungen“ sind lediglich probabilistische Vorhersagen der nächsten Wörter, was zu paradoxen Situationen führen kann, wenn die richtige Antwort von einer absurden Erklärung begleitet wird. Die Zuverlässigkeit der Antworten hängt direkt von der Qualität der Trainingsdaten ab, während das Modell nicht zwischen zuverlässigen und falschen Informationen unterscheidet, was das Risiko birgt, gefährliche und voreingenommene Empfehlungen abzugeben. Ein besonderes Problem ist die Tendenz des Modells, plausible, aber völlig fiktive Informationen zu generieren, die in überzeugender Form präsentiert werden. Dies erfordert eine obligatorische Expertenüberprüfung aller Schlussfolgerungen vor ihrer Anwendung in der medizinischen Praxis.
Die Wissenschaftler stellten außerdem fest, dass die Antworten von ChatGPT oft oberflächlich sind und es ihnen an der nötigen Tiefe mangelt. Das Modell ist kein spezialisiertes medizinisches Instrument und erfordert zusätzliche Anpassungen für den klinischen Einsatz. Eine wichtige Einschränkung ist die Abhängigkeit der Ergebnisse von der Formulierung der Anfrage – selbst eine geringfügige Änderung der Frage kann zu einer völlig anderen Antwort führen.
Der Datenschutz ist ein separates Thema, da die Verwendung eines proprietären Modells zur Verarbeitung persönlicher Gesundheitsdaten möglicherweise gegen die Datenschutzbestimmungen der Patienten verstößt. Diese Einschränkungen unterstreichen die Notwendigkeit einer deutlichen Verfeinerung des Modells und der Entwicklung strenger Protokolle für seinen Einsatz im Gesundheitswesen.
Umfragen in den USA und Russland zeigen einen ähnlichen Trend: Das Interesse am Einsatz von KI im Gesundheitswesen geht mit Vorsicht und unterschiedlichem Vertrauen einher. Laut dem Annenberg Public Policy Center sind beispielsweise 63 % der Amerikaner bereit , sich bei der Suche nach medizinischen Informationen auf KI-generierte Antworten zu verlassen, während 79 % regelmäßig das Internet für gesundheitsbezogene Informationen nutzen. In Russland sind die Nutzer laut einer MAR CONSULT-Studie zwar an neuen Technologien interessiert, bevorzugen jedoch die persönliche Interaktion mit einem Arzt, und das Misstrauen gegenüber KI ist nach wie vor groß: 46 % vertrauen maschinellen Algorithmen nicht, 51 % bezweifeln deren Fähigkeit, die individuellen Merkmale des Patienten zu berücksichtigen, und 36 % sind besorgt über den Verlust personenbezogener Daten.
Laut Analysten des Schweizer Versicherungsunternehmens Swiss Re werden das Gesundheitswesen und die Pharmabranche bis 2034 hinsichtlich der mit dem Einsatz von KI verbundenen Versicherungsrisiken führend sein . Die Studie basiert auf einer Analyse der aktuellen Marktsituation und negativer Auswirkungen von KI in verschiedenen Branchen. Gilt der IT-Bereich heute als der anfälligste, so werden Experten zufolge im nächsten Jahrzehnt die größten Risiken mit der Einführung von KI in die klinische Praxis, dem Schutz medizinischer Daten und der Entscheidungsfindung auf Basis selbstlernender Modelle verbunden sein.
Da ChatGPT rasch in die medizinische Ausbildung integriert wird, führten Forscher der Sichuan University in China eine der ersten groß angelegten Studien zur Wahrnehmung der Technologie durch Medizinstudenten durch. An der Umfrage nahmen 1.133 zukünftige Ärzte verschiedener medizinischer Ausbildungseinrichtungen in der Provinz Sichuan teil. Die Ergebnisse zeigten, dass 62,9 % ChatGPT bereits während ihres Studiums verwendet hatten, am häufigsten zur Suche nach medizinischen Informationen (84,4 %) und zur Erledigung fachspezifischer akademischer Aufgaben (60,4 %). Gleichzeitig äußerten 76,9 % der Studenten Bedenken hinsichtlich der Möglichkeit, dass der KI-Bot ungenaue medizinische Informationen verbreitet, und 65,4 % hinsichtlich des Risikos der unredlichen Übernahme von Inhalten. Trotzdem erklärten mehr als 60 % der Teilnehmer, ChatGPT zur Lösung pädagogischer Probleme während der klinischen Ausbildung einsetzen zu wollen, und bewerteten dessen Potenzial in der medizinischen Ausbildung grundsätzlich positiv.
vademec