
Wenn der Chatbot zum Arzt wird: KI versagt als medizinischer Ratgeber klÀglich
Millionen Menschen vertrauen mittlerweile blindlings auf KĂŒnstliche Intelligenz, wenn es um ihre Gesundheit geht. Ein Ziehen in der Schulter? Kopfschmerzen nach dem Aufstehen? Statt den Hausarzt aufzusuchen, wird ChatGPT befragt. Schnell, anonym, rund um die Uhr verfĂŒgbar â so das Versprechen. Doch eine aktuelle Studie entlarvt nun, was kritische Beobachter lĂ€ngst vermuteten: Die digitalen Wundermaschinen sind als medizinische Berater schlichtweg unbrauchbar.
Menschen recherchieren besser als die Maschine
Die Ergebnisse der Untersuchung sind so eindeutig wie ernĂŒchternd. Ein Ărzteteam entwickelte zehn detaillierte, fiktive KrankheitsfĂ€lle â komplett mit Symptomen, LebensumstĂ€nden und Vorerkrankungen. Rund 1.000 Freiwillige aus GroĂbritannien wurden anschlieĂend in vier Gruppen aufgeteilt. Drei Gruppen arbeiteten jeweils mit einem der groĂen Sprachmodelle: GPT-4o von OpenAI, Llama 3 von Meta oder Command R+ von Cohere. Die vierte Gruppe durfte ganz klassisch recherchieren â mit Suchmaschinen und medizinischen Webseiten.
Das Resultat dĂŒrfte den Silicon-Valley-Propheten die Schamesröte ins Gesicht treiben. Die Kontrollgruppe, die auf herkömmliche Weise recherchierte, identifizierte mit anderthalbfach höherer Wahrscheinlichkeit eine passende Verdachtsdiagnose als jene Teilnehmer, die sich auf die vermeintlich ĂŒberlegene KI verlieĂen. Der gute alte gesunde Menschenverstand, gepaart mit einer simplen Google-Suche, schlug also die milliardenschweren Sprachmodelle. Welch eine Ironie.
Fatale FehleinschÀtzungen bei der Dringlichkeit
Noch beunruhigender als die mangelhaften Diagnosen ist ein weiterer Befund: Sowohl KI-Nutzer als auch Selbstrecherchierende trafen in mehr als der HĂ€lfte der FĂ€lle eine falsche Entscheidung beim empfohlenen nĂ€chsten Schritt. Besonders hĂ€ufig wurde die Dringlichkeit der Situation unterschĂ€tzt â etwa wenn eigentlich eine rasche Ă€rztliche AbklĂ€rung notwendig gewesen wĂ€re. Man stelle sich vor, was das in der RealitĂ€t bedeuten könnte: Ein Patient mit ernsthaften Symptomen vertraut dem Chatbot, der zur Ruhe rĂ€t, wĂ€hrend tatsĂ€chlich der Notruf angebracht wĂ€re. Die Konsequenzen einer solchen FehleinschĂ€tzung können tödlich sein.
Ein genauerer Blick in die ChatverlĂ€ufe offenbarte zudem ein strukturelles Problem. In einigen FĂ€llen nannten die Chatbots durchaus korrekte oder zumindest plausible Diagnosen. Doch die Nutzer griffen diese VorschlĂ€ge schlicht nicht auf oder gewannen aus dem GesprĂ€ch keine klare Entscheidungsgrundlage. Die QualitĂ€t der KI-Antwort allein reichte also nicht aus, um zu besseren Entscheidungen zu fĂŒhren. Ein faszinierendes Paradoxon: Die Maschine weiĂ es manchmal besser, kann es aber nicht vermitteln.
Das eigentliche Problem liegt in der Mensch-Maschine-Interaktion
Interessanterweise zeigte die Studie auch, dass die Sprachmodelle deutlich besser abschnitten, wenn ihnen die vollstĂ€ndigen Fallbeschreibungen ohne Zwischenfragen vorgelegt wurden. Auch in einem Test, bei dem ein Sprachmodell selbst die Rolle eines Nutzers simulierte, ĂŒbertraf die KI reale Menschen. Das deutet auf einen zentralen Schwachpunkt hin: Nicht die medizinische Wissensbasis der Modelle ist das Problem, sondern die Interaktion mit echten Menschen. UnvollstĂ€ndige Angaben, missverstĂ€ndliche Nachfragen, das selektive Aufgreifen von Antworten â all das sabotiert das theoretische Potenzial der Systeme im Alltag.
Iryna Gurevych, Professorin an der Technischen UniversitĂ€t Darmstadt, bestĂ€tigte diese EinschĂ€tzung. Es sei nicht ĂŒberraschend, dass groĂe Sprachmodelle in realen Interaktionen schlechter abschnitten als in Benchmarks. Diese seien oft vereinfacht, stark strukturiert und hĂ€ufig öffentlich zugĂ€nglich, was die Wahrscheinlichkeit erhöhe, dass Modelle sie auswendig lernten, anstatt echte GeneralisierungsfĂ€higkeiten zu entwickeln. Die Diskrepanz zwischen simulierten und realen Nutzern zeige, dass Benchmark-Ergebnisse die Leistung in der realen Welt systematisch ĂŒberschĂ€tzten.
Der Mensch braucht den Menschen â nicht die Maschine
Was lehrt uns das? In einer Zeit, in der die Digitalisierung als Allheilmittel fĂŒr sĂ€mtliche gesellschaftlichen Probleme angepriesen wird â auch und gerade im maroden deutschen Gesundheitssystem â, sollte diese Studie als Weckruf dienen. Statt Milliarden in KI-gestĂŒtzte Gesundheitsplattformen zu pumpen, wĂ€re es vielleicht ratsamer, zunĂ€chst die Grundversorgung durch niedergelassene Ărzte sicherzustellen. Doch das passt natĂŒrlich nicht in die Narrative einer politischen Klasse, die lieber auf technologische Scheinlösungen setzt, als die strukturellen Probleme im Gesundheitswesen anzugehen.
Anne Reinhardt von der Ludwig-Maximilians-UniversitĂ€t MĂŒnchen forderte, man mĂŒsse einerseits die Kompetenzen der Nutzer stĂ€rken â etwa durch einfache Leitfragen oder Checklisten fĂŒr den Umgang mit KI im Gesundheitskontext. Andererseits mĂŒssten die Systeme selbst besser gestaltet werden: Sie sollten aktiv fehlende Informationen abfragen, die Sicherheit ihrer EinschĂ€tzungen transparent machen und Warnzeichen klar hervorheben. Nur so lasse sich das Risiko reduzieren, dass ĂŒberzeugende Sprache mit verlĂ€sslicher medizinischer Beratung verwechselt werde.
Ute Schmid, geschĂ€ftsfĂŒhrende Direktorin des Bamberger Zentrums fĂŒr KĂŒnstliche Intelligenz, brachte es auf den Punkt: KI-Systeme könnten Menschen bei komplexen Entscheidungsprozessen unterstĂŒtzen â aber nur, wenn Fachwissen und ein GrundverstĂ€ndnis der Funktionsweise vorhanden seien. Ohne dieses Fundament drohten falsche Erwartungen sowie Ăber- oder Untervertrauen in die Ausgaben der Systeme.
Ein Symptom unserer Zeit
Die blinde TechnikglĂ€ubigkeit, die sich in der massenhaften Nutzung von Chatbots als Gesundheitsberater manifestiert, ist letztlich nur ein Symptom einer tiefergehenden gesellschaftlichen Entwicklung. Wir haben verlernt, auf bewĂ€hrte Strukturen zu vertrauen â auf den Hausarzt um die Ecke, auf das persönliche GesprĂ€ch, auf menschliche Expertise. Stattdessen delegieren wir existenzielle Entscheidungen an Algorithmen, die zwar beeindruckend formulieren können, aber weder Empathie noch klinische Erfahrung besitzen. QualitĂ€tsgeprĂŒfte Chatbots könnten zwar als ErgĂ€nzung sinnvoll sein â etwa ĂŒber gesetzliche Krankenkassen angeboten und von Hausarztpraxen als Erstzugang empfohlen. Doch der direkte menschliche Kontakt dĂŒrfe niemals ersetzt werden.
Die Studie macht eines ĂŒberdeutlich: Wenn es um die eigene Gesundheit geht, ist der Gang zum Arzt durch keine Maschine der Welt zu ersetzen. Wer sein Wohlbefinden einem Chatbot anvertraut, spielt russisches Roulette â mit seinem eigenen Körper als Einsatz.










