Irrtümliche Intuition bei Wahrscheinlichkeiten (I): Testen oder nicht testen?

161202-imprimatur-4-2016-page-005Auf die Frage: „Mit welcher Wahrscheinlichkeit wird Krankheit X durch Test T richtig diagnostiziert?“ halten nachweislich viele intuitiv dieselbe Antwort für richtig wie auf die Frage: „Mit welcher Wahrscheinlichkeit wurde Krankheit X durch Test T richtig diagnostiziert?“. Dass die beiden Fragen fast immer nicht dieselbe korrekte Antwort besitzen und folglich die Intuition zu einem Fehlschluss verleitet, ist Gegenstand von Teil I dieses Beitrags. Am Ende wird mit dem „Ziege oder Auto“-Problem ein paradoxes Rätsel vorgestellt, bei dessen -korrekter Lösung Intuition ebenfalls leicht versagt, was in Teil II dieses Artikels näher ausgeführt werden wird.

A. Die beiden Fehler diagnostischer Tests

Die moderne Medizin und mit ihr verbundene Unternehmen haben für gravierende und im Besonderen vergleichsweise seltene gesundheitliche Defekte Tests entwickelt, die eine verlässliche Diagnose ermöglichen sollen, ob der Defekt bei der getesteten Person vorliegt oder nicht. Bekannte Beispiele sind: Brustkrebsfrüherkennung bei Frauen durch Mammografie; Prostatakrebsfrüherkennung bei Männern mittels PSA-Test; ELISA-Test, um im Fall einer HIV („Aids“)-Infektion im Blut Antikörper zur Abwehr des HI-Virus nachzuweisen; pränatale Fruchtwasseruntersuchung zur Diagnose des Down-Syndroms (Trisomie 21) bei Neugeborenen. Diagnostische Früherkennung darf nicht mit Vorsorge verwechselt werden: Letztere beugt dem Krebs vor, etwa durch Nichtrauchen, wenig Alkohol und gesunde Ernährung; erstere will ihn frühzeitig entdecken, um durch rechtzeitige Therapie zur Verbesserung der individuellen Lebensqualität und Erhöhung der Lebenserwartung bei-zutragen. Dieser potenzielle Nutzen von Früher-kennung kann sich aber nur realisieren, wenn sichergestellt ist, dass der (die) Patient(in) die diag-nostizierte Krankheit tatsächlich hat. Denn das Kernproblem jedes diagnostischen Tests und der bedeutendste Faktor auf der Kostenseite ist, dass praktisch kein Test absolute Gewissheit geben kann, sondern stets mit zwei durchaus unterschiedlichen Fehlern gerechnet werden muss. Der eine Fehler ist ein falsch-positives Testergebnis: Seine Folgekosten sind die nachhaltige Angst der Betroffenen (und ihrer Familien), längerfristige Beeinträchtigung der Lebensqualität infolge der medizinisch gebotenen erachteten Behandlungsmaßnahmen, im schlimmsten Fall Suizid. Der andere Fehler ist ein falsch-negatives Testergebnis: Es erzeugt trügerischere Sicherheit, verhindert eine rechtzeitige Therapie, führt im schlimmsten Fall zu vorzeitigem Tod. Somit ist ohne ein klares Verständnis dieser beiden Fehler und der aus ihrer Größe zu ziehenden Schlüsse weder eine rationale individuelle Entscheidung möglich, ob man an einem bestimmten Test teilnehmen soll, noch eine begründete politische Entscheidung, die Testteilnahme einem bestimmten Personenkreis öffentlich zu empfehlen.

Was man über diese beiden Fehler, ihre Quantifizierung und die sich daraus ergebenden Folgerungen unbedingt wissen sollte, wird nunmehr im Einzelnen, aber mit einem Minimum an technisch-mathematischem Detail, dargelegt. Dabei werden die Begriffe „Krankheit“ K und „Test“ T umfassend allgemein verwendet; konkrete Beispiele dienen der Veranschaulichung.

B. Statistische Kennzahlen 

Die Anzahl der an einem bestimmten Stichtag in einer relevanten Population von der Krankheit K betroffenen Individuen im Verhältnis zur Anzahl aller Individuen der Population, also die relative Häufigkeit von K in dieser Population, lässt sich als die Wahrscheinlichkeit (engl.: probability) P(K) interpretieren, dass für ein zufällig aus der Population ausgewähltes Individuum1 das Ereignis K: „Krankheit K liegt vor“ eintritt. Wie jede Wahrscheinlichkeit kann P (K) Werte im Intervall zwischen 0 und 1 annehmen. P(K) := 1 – P(K) ist die (Gegen-)Wahrscheinlichkeit, dass das Ereignis K nicht eintritt.2 P(K) wird in Mediziner-Kreisen (Stichtags-)„Prävalenz“ der Krankheit K genannt. Da eine vollständige Erfassung der relevanten Population (z. B. der gesamten Bevölkerung der Bundesrepublik im Fall von HIV) sehr oft zu kostspielig, wenn nicht unmöglich ist, muss die Größe von P(K) regelmäßig mittels Stichprobenerhebung geschätzt werden und ist deshalb mit einem mehr oder weniger großen Schätzfehler behaftet.

Kennzahlen für die Güte (Verlässlichkeit) eines diagnostischen Tests, um das Vorliegen der Krankheit K zu erkennen, gewinnt man auf folgende Weise. Es wird aus der relevanten Population eine hinreichend große Stichprobe von n Individuen erhoben. Das Ereignis „Krankheit K liegt vor, und das Testergebnis ist positiv“ sei mit K`T bezeichnet3, und nK`T sei die Anzahl der Individuen aus der Stichprobe, bei denen dieses Ereignis eintritt.4 Der Quotient nK`T / n definiert dann die Wahrscheinlichkeit P(K`T), dass ein aus der Stichprobe zufällig ausgewähltes Individuum die Krankheit K und ein positives Testergebnis hat. Die Wahrscheinlichkeit P(K) = nK / n, wobei nK die Anzahl der in der Stichprobe an K erkrankten Individuen angibt, ist die (Stichproben-)Prävalenz von K. Der Quotient nK`T / nK ist die Quote, mit welcher der Test die an K Erkrankten als solche erkennt. Diese Quote ist praktisch kleiner als 1, weil der Test nicht unfehlbar ist und deshalb die Krankheit bei einer gewissen -Anzahl von tatsächlich Erkrankten nicht entdeckt. Nun ist nK`T / nK offensichtlich identisch gleich mit (nK`T / n) / (nK / n), und der letzte Quotient entspricht nach Definition dem Quotienten P(K`T) / P(K). Dies motiviert die Definition von

Akadmie_Windisch_Irrtümliche Intuition bei Wahrscheinlichkeiten

mit P(K) > 0 als die bedingte Wahrscheinlichkeit, dass man für ein zufällig aus der Stichprobe ausgewähltes Individuum ein positives Testergebnis erhält, gegeben (= unter der Bedingung), dass dieses Individuum an K erkrankt ist.5 P(T | K) wird Richtig-Positiv-Rate, Trefferquote oder (synonym)“Sensitivität“ des Tests T genannt. Dann ist P( –T | K) : = 1 – P(T | K) die Falsch-Negativ-Rate des Tests, und sie ist der eine der beiden unter A. beschriebenen Testfehler, nämlich dass der Test das Vorliegen der Krankheit K nicht anzeigt, d. h. ein negatives Testergebnis (= Ereignis –T ) eintritt. Nach dieser ausführlichen Erläuterung des nicht ganz einfachen Begriffs der bedingten Wahrscheinlichkeit am Beispiel von P(T | K) sollte es keine Schwierigkeiten mehr bereiten, in analoger Vorgangsweise die bedingte Wahrscheinlichkeit eines negativen Testergebnisses ( –T ), gegeben, dass das getestete Individuum die Krankheit nicht hat ( –K ), zu definieren:

Akadmie_Windisch_Irrtümliche Intuition bei Wahrscheinlichkeiten

mit P( –K ) > 0. Die bedingte Wahrscheinlichkeit P( –T | –K )heißt Richtig-Negativ-Rate oder „Spezifität“ des Tests. P( T | –K ) = 1 – P( –T | –K ) ist dann die Falsch-Positiv-Rate des Tests, und sie ist der andere der beiden unter A. beschriebenen Testfehler, nämlich dass der Test bei Nichtvorliegen der Krankheit (= Ereignis –K ) ein positives Testergebnis T liefert („Fehlalarm“).

Ein Beispiel soll die eingeführten Kennzahlen illustrieren: Die Prävalenz P(K) der HIV-Infektion in der Bevölkerung der Bundesrepublik Deutschland beträgt 2015 nach einer Schätzung des Robert-Koch-Instituts 1 : 1000 oder 0,001 = 0,1 %. Für den ELISA-Test zur Entdeckung einer HIV-Infektion sei die Sensitivität P(T | K) = 0,998 = 99,8 % und die Spezifität P( –T | –K ) = 0,99 = 99 % angenommen. Dieser Test sei für Herrn X positiv (T) und für Frau Y negativ ( –T ) ausgefallen. Es stellt sich die naheliegende Frage, wie wahrscheinlich, gegeben diese Testergebnisse, es ist, dass Herr X tatsächlich HIV-infiziert ist und Frau Y es nicht ist. Gefragt ist also, was Herrn X betrifft, die bedingte Wahrscheinlichkeit P(K | T), die als positiver Vorhersagewert bezeichnet wird; und was Frau Y betrifft, die bedingte Wahrscheinlichkeit P( –T | –K ), die als negativer Vorhersagewert bezeichnet wird. Hier kommt nun irrtümliche Intuition ins Spiel: Nachweislich schätzen sehr viele Leute – Ärzte eingeschlossen6 – die gefragten Wahrscheinlichkeiten beide mit rd. 99 % ein. Sie kommen zu dieser Einschätzung, weil sie die Frage „mit welcher Wahrscheinlichkeit wurde die -Krankheit durch den Test richtig diagnostiziert?“ – das sind die gefragten Wahrscheinlichkeiten P(K | T) bzw. P( –T | –K ) – inhaltlich gleichsetzen mit der Frage: „Mit welcher Wahrscheinlichkeit wird der Test die Krankheit richtig diagnostizieren?“ Sie wird durch die Richtig-Positiv-Rate P(T|K) bzw. die Richtig-Negativ-Rate P( –T | –K ) beantwortet. Diese Gleichsetzung ist jedoch grundfalsch – hier hat die Intuition versagt! Wie lässt sich dieses Versagen korrigieren?

C. Die Formel von Bayes
Aus der Definition der bedingten Wahrscheinlichkeit (Abschnitt B, Beziehung (1)) P(T|K) = P(K`T)/P(K) folgt sofort die „Multiplikationsformel“:

Akadmie_Windisch_Irrtümliche Intuition bei Wahrscheinlichkeiten

In Worten: Die Wahrscheinlichkeit, dass für ein aus der relevanten Population zufällig ausgewähltes Individuum das Ereignis „Vorliegen der Krankheit K und ein positives Testergebnis T“ eintritt, ist gleich dem Produkt aus der Richtig-Positiv-Rate P(T|K) und der Prävalenz P(K). Analog gilt

Akadmie_Windisch_Irrtümliche Intuition bei Wahrscheinlichkeiten

für die Wahrscheinlichkeit, dass die Krankheit nicht vorliegt (K) und der Test fälschlicherweise positiv (T) ausfällt.

Gefragt wird nun nach der bedingten Wahrscheinlichkeit P(K|T), dass, gegeben ein positiver Testbefund (T), das Individuum tatsächlich krank ist (K). Gemäß der Definition einer bedingten Wahrscheinlichkeit ist

Akadmie_Windisch_Irrtümliche Intuition bei Wahrscheinlichkeiten

wobei bei der rechten Gleichsetzung für P(K`T) Beziehung (3) benutzt wurde. Der Zähler von (5) wurde oben erläutert; es bleibt die sog. totale Wahrscheinlichkeit P(T) eines positiven Testergebnisses zu bestimmen. Nun kann ein positives Testergebnis entweder (richtig) bei Kranken oder (falsch) bei Nichtkranken auftreten. Folglich gilt die „Zerlegungsformel“

Akadmie_Windisch_Irrtümliche Intuition bei Wahrscheinlichkeitenwegen (3) und (4). Einsetzen von (6) für P(T) in (5) liefert die nach Thomas Bayes benannte Formel7

Akadmie_Windisch_Irrtümliche Intuition bei WahrscheinlichkeitenMittels der Formel (7) kann jetzt die Frage, wie wahrscheinlich Herr X HIV-infiziert ist, nachdem sich für ihn ein positiver Testbefund ergeben hat, korrekt beantwortet werden. Man muss nur in (7) die Zahlen des Beispiels aus Abschnitt B. einsetzen, nämlich: die Prävalenz P(K) = 0,001, also P( ––K ) = 1 – P(K) = 0,999; die Richtig-Positiv-Rate P(T | K) = 0,998 und die Richtig-Negativ-Rate P( –T | –K ) = 0,99, also für die Falsch-Positiv-Rate P( T | –K ) = 1 – P( –T | –K ) = 1 – 0,99 = 0,01. Man erhält dann

Akadmie_Windisch_Irrtümliche Intuition bei Wahrscheinlichkeiten

Nach der Information, dass sein Testbefund positiv ist, ist die Wahrscheinlichkeit einer HIV-Infektion von Herrn X nicht mehr gleich der Prävalenz P(K) = 0,001 oder 0,1 %, sondern sie beträgt das beinahe 100-fache, nämlich 9,1 %. Aber dieser positive Vorhersagewert ist noch ganz weit entfernt von der intui-tiv-falschen Schätzung von rd. 99 %, die P(K | T) irrtümlich mit der Richtig-Positiv-Rate P(T|K) gleichsetzt (Abschnitt B am Ende).

Für Frau Y mit ihrem negativen Testbefund ( –T ) ergibt sich die bedingte Wahrscheinlichkeit dafür, dass bei ihr eine HIV-Infektion auszuschließen ist ( –K ), aus der Bayes‘schen Formel

Akadmie_Windisch_Irrtümliche Intuition bei Wahrscheinlichkeiten

Mit den obigen Zahlenangaben liefert (8) die Wahrscheinlichkeit P( –K | –T ) = 0,999998, d. h. bei einem derart hohen negativen Vorhersagewert ist Frau Y mit (fast) absoluter Sicherheit nicht HIV-infiziert.

D. Resümee: Baumdiagramm

Die Schwierigkeit, die bedingten Wahrscheinlichkeiten, welche die Richtig-Positiv-Rate P(T|K) bzw. die Richtig-Negativ-Rate zum Ausdruck bringen, in Verbindung mit der Prävalenz P(K) intuitiv korrekt zu verarbeiten, lassen für Viele den niedrigen positiven Vorhersagewert P(K|T) = 9,1 % von Herrn X verblüffend, wenn nicht unglaubwürdig erscheinen. Werden alle diese Wahrscheinlichkeiten jedoch in absolute Häufigkeiten übersetzt, macht ein Baumdiagramm das korrekte Ergebnis rasch sichtbar:

Akadmie_Windisch_Irrtümliche Intuition bei Wahrscheinlichkeiten

Baumdiagramm, Abb. 1

Die „Wurzel“ des Baums bilden 10.000 zufällig ausgewählte Personen, an den „Ästen“ sind Ereignisse und zugeordnete Wahrscheinlichkeiten eingetragen. 10 (= Prävalenz von 0,1 %) der 10.000 Personen sind HIV-infiziert, was der Test richtig diagnostiziert. Weil der Test aber nicht fehlerfrei ist, werden von den 9990 Nichtinfizierten nur 9890 als solche erkannt, doch 100 Nichtinfizierte fälschlicherweise HIV-positiv diagnostiziert. Folglich sind von den 110 positiv ge-tes–teten Personen tatsächlich nur 10 HIV-infiziert, d. h. der positive Vorhersagewert ist 9,1 %.

Damit für eine bestimmte Population der positive bzw. der negative Vorhersagewert aussagekräftig ist, muss die Prävalenz in der erhobenen Stichprobe mit jener in der Population übereinstimmen. Auch „hoch zuverlässige“ – aber eben nicht perfekte – Tests liefern im Fall vergleichsweise seltener Krankheiten wenig verlässliche Aussagen, dass bei positivem Testergebnis die Krankheit tatsächlich vorliegt. Negative Testergebnisse sind dagegen sehr verlässlich – und beruhigend. Bei gegebener Testgüte nimmt der positive Vorhersagewert mit zunehmender Prävalenz (unterproportional) zu. Wäre im Beispiel der HIV-Infektion die Prävalenz nicht 0,1 %, sondern doppelt (= 0,2 %) oder zehnfach (= 1 %) so hoch, dann ergäbe sich eine Wahrscheinlichkeit P(K | T) = 16,6 % bzw. 50 % für das Vorliegen der Infektion bei positivem Testergebnis, wie man mit Hilfe der Bayes-Formel (7) oder eines Baumdiagramms leicht nachrechnet.8

Bei seltenen Krankheiten wird man es im Fall eines ersten positiven Testergebnisses wegen der schweren psychischen Belastungsfolgen nicht bei diesem bewenden lassen, sondern positiv getestete Personen einem zweiten Test unterziehen (wie in Deutschland vorgeschrieben, bevor HIV-positive Testergebnisse mitgeteilt werden dürfen). In der Bayes-Formel (7) rechnet man dann (bei unveränderter Testgüte) mit P(K) = 0,091 (= 9,1 %) statt mit 0,001 (= 0,1 %) und erhält 90,9 % für die Wahrscheinlichkeit, dass eine HIV-Infektion vorliegt, nachdem zweimal positiv getestet wurde. Dasselbe Ergebnis erhält man natürlich auch mittels eines Baumdiagramms wie in Abbildung 1, wenn jetzt an der „Wurzel“ 110 (die Anzahl der positiven Testbefunde) steht.

E. Zum Schluss: „Rätsel der drei Türen“ bzw. „Ziege oder Auto“-Problem 

Kandidatin K sieht auf der Bühne eine Wand mit drei geschlossenen Türen – 1, 2, 3. Moderator M erklärt ihr, dass sich hinter einer der drei Türen ein teures Cabriolet, der Gewinn C, verbirgt, hinter den beiden anderen Türen dagegen eine Niete in Gestalt einer Ziege. M – er weiß, hinter welcher Tür das Cabriolet C steht – bittet K, die Tür zu bezeichnen, hinter der K das Auto vermutet. Nachdem K eine geschlossene Tür gewählt hat, öffnet M eine andere Tür, hinter der eine Ziege sichtbar wird. Dann fragt er K, ob sie bei der zuerst gewählten Tür bleiben oder zu der anderen – ebenfalls noch geschlossenen – Tür wechseln will. K stellt sich jetzt die Frage, ob ein Türwechsel ihre Chance, das Auto zu gewinnen, erhöht oder nicht. Wie würden Sie sich an der Stelle von K entscheiden?

Anmerkungen 

1 „Zufällig“ bedeutet hier und im Folgenden, dass die Wahrscheinlichkeit ausgewählt zu werden, für jedes Individuum der relevanten Population gleich groß ist. Welche Population „relevant“ ist, hängt von der Problemstellung ab. Beispielsweise bilden für das Down-Syndrom bei Neugeborenen die 25-jährigen Frauen mit P(K) 1/1400 = 0,0007 oder 0,07 % eine andere Risikoklasse und damit relevante Population als die 45-jährigen Frauen mit P(K) ˘ 1/29 = 0,0345 oder 3,45 %.

2 Hier und im Folgenden bedeutet ein Querstrich über einem Großbuchstaben, dass das durch diesen bezeichnete Ereignis nicht eintritt.

3 Das Zeichen „`“ steht hier und im Folgenden für „und“.

4 Um nK`T zu ermitteln, muss bei einem positiven Testergebnis entweder schon bekannt sein, dass K vorliegt, oder dies nachträglich durch eingehende Untersuchungen festgestellt werden.

5 Der senkrechte Strich „|“ meint hier und im Folgenden „unter der Bedingung bzw. gegeben, dass“.

6 Für Nachweise siehe Gigerenzer (2002), passim.

7 Thomas Bayes (1702 – 1761), presbyterianischer Geistlicher und als Mathematiker Mitglied der Royal Society in England. Die Formel von Bayes ist in jedem Lehrbuch der Wahrscheinlichkeitsrechnung unverzichtbar, siehe zum Beispiel Bosch (2011).

8 Wer Interesse hat, kann mit der Bayes’schen Formel (7) nachrechnen, dass mit den in FN 1 angegebenen Prävalenzen (und der im Text angenommenen Testgüte) der positive Vorhersagewert für ein Neugeborenes mit Down-Syndrom bei einer 25-jährigen Frau 6,5 %, dagegen bei einer 45-jährigen Frau 78 % beträgt.

Literatur

Bosch, K. (2011): Elementare Einführung in die Wahrscheinlichkeitsrechnung, 11. Aufl., Wiesbaden: Vieweg + Teubner.

Gigerenzer, G. (2002): Das Einmaleins der Skepsis. München: Piper.

Autoren:

  • Universitätsprofessor Dr. Rupert Windisch

    Prof. em. Dr. Rupert Windisch war Studienleiter der VWA Gera. Foto: Universität Jena