Irreführende Bayes-Schätzungen

Wenn es weltweit auch nur einen einzigen 50%-Psi-Begabten im Sinne des vorigen Hoppla!-Artikels Was zeigen uns die Ergebnisse statistischer Tests? gäbe, wäre das eine Riesensensation. Aber er wäre kaum aufzufinden. Und dann würde er beim Würzburger Psi-Test auch noch mit 50prozentiger Wahrscheinlichkeit unentdeckt durchrutschen. In diesem Licht scheint die Behauptung, dass die Keine-Übernatur-Hypothese prüfbar sei, doch etwas kühn zu sein.

Auch wenn der Würzburger Psi-Test wohl nie zu positiven Ergebnissen führt, kann man sich die Frage stellen, wie sich die weltweite Verteilung der Trefferwahrscheinlichkeit der Psi-Begabung anhand der erzielten Trefferquoten ermitteln lässt.

Wie wir im vorhergehenden Artikel gesehen haben, kann die Bayes-Schätzung Derartiges wohl nicht leisten. Schade. Woran liegt es, dass die Bayes-Schätzung versagt? Lässt sich über die speziellen Fälle hinaus etwas über die generellen Gültigkeitsgrenzen der Bayes-Schätzung sagen? (Die unten zitierten Quellen finden Sie ebenfalls am Schluss des vorigen Hoppla!-Artikels.)

Oft funktioniert die Bayes-Schätzung wie erwartet

Im Fall der Harvard-Medical-School-Studie wird mit einer einfachen Häufigkeitsbetrachtung die Wirksamkeit eines diagnostischen Tests abgeschätzt. Durch den Übergang von Häufigkeiten auf Wahrscheinlichkeiten wird daraus die Bayes-Schätzung.

Im Kern besagt die Formel von Bayes, dass die Wahrscheinlichkeit einer Hypothese H („Person ist krank“) durch die gemachte Beobachtung E („Test ist positiv“) in demselben Verhältnis steigt, wie die Beobachtung durch die Hypothese wahrscheinlicher wird. Mit den Formelzeichen für (bedingte) Wahrscheinlichkeiten sieht dieser Zusammenhang so aus:

P(H|E)/P(H) = P(E|H)/P(E).

Im Fall der Harvard-Medical-School-Studie setzen wir folgende Daten als bekannt voraus: P(H)=0,1%, P(E|H)=95% (Power, auch Sensitivität des Tests) und P(EH) = 5% (Falsch-positiv-Wahrscheinlichkeit). Damit ist P(E) = P(E|H)∙P(H)+ P(EH)∙PH) ≈ 5,1%. Die Formel liefert dann das Ergebnis für P(H|E): Eine positiv getestete Person ist mit der Wahrscheinlichkeit von weniger als 2% tatsächlich krank.

Diese Anwendung der Bayes-Formel auf diagnostische Tests ist methodisch einwandfrei. Die Wahrscheinlichkeiten P(H) und P(H|E) sind die A-priori- bzw. A-posteriori-Wahrscheinlichkeit der Hypothese.

Die A-posteriori-Wahrscheinlichkeit ist eine verbesserte Schätzung unter der Bedingung der gemachten Beobachtung. Es geht nicht darum, mithilfe der Bayes-Formel mehr über die Hypothesenwahrscheinlichkeit P(H) zu erfahren. Die Basisrate der Krankheit bleibt selbstverständlich unverändert!

Bei der Parameterschätzung ist die Anwendung der Bayes-Formel fragwürdig

Versuch der Abschätzung einer Parameterverteilung

Was auf diagnostische Tests so erfolgreich angewendet wird, das sollte auf Parameterschätzungen übertragbar sein, oder?

Eine bis vor etwa zehn Jahren im Rahmen des GUM (Guide to the Expression of Uncertainty in Measurement) empfohlene Methode zur Bestimmung der Messunsicherheit basiert auf der Formel von Bayes und funktioniert im Kern folgendermaßen:

Zu bestimmen ist ein Parameter α, der einer Messung direkt nicht zugänglich ist. Messbar ist die Zufallsvariable X, deren Verteilungsdichte f vom Parameter α abhängt: fα(x).

Der Parameter α wird als Realisierung einer Zufallsvariablen Α aufgefasst. Das anfängliche Wissen oder auch Unwissen hinsichtlich dieser Variablen wird durch die A-priori-Verteilungsdichte g(α) modelliert. Die A-priori-Wahrscheinlichkeitsdichte kann das Ergebnis vergangener Beobachtungen sein oder sie kann nach dem Prinzip maximaler Unwissenheit angesetzt werden (Rüger, 1999, S. 211 ff.). Im letzten Kapitel haben wir zur Bestimmung der A-priori-Verteilung das Indifferenzprinzip angewendet.

Wird nun ein bestimmter Wert x gemessen, dann ergibt sich mit der Formel von Bayes eine neue Schätzung der Verteilungsdichte des Parameters, die A-posteriori-Schätzung h(α):

h(α) ~ fα(x)∙g(α).

Hierin ist der Proportionalitätsfaktor durch die Eigenschaft der Dichte bestimmt: Das Integral über h muss den Wert 1 ergeben.

Die A-posteriori-Schätzung sollte laut Messunsicherheits-Leitfaden als Verbesserung der Parameterschätzung gegenüber der A-priori-Schätzung angesehen werden. Das war jedenfalls die Interpretation des Ergebnisses vor der Revision des Messunsicherheits-Leitfadens im Jahre 2008. In der kleinen Studie Bayes-Schätzung – Eine kritische Einführung habe ich mich seinerzeit mit den Hintergründen der Bayes-Schätzung befasst.

Kritik

Anders als bei den klassischen Test- und Schätzverfahren gibt es für die Bayes-Schätzung von Messunsicherheiten keine gesicherten Genauigkeitsangaben. Zuweilen ergeben mehr Daten sogar schlechtere Folgerungen. Dass es zu solchen paradoxen Resultaten kommen kann, liegt daran, dass die Bayes-Schätzung von Parametern nicht auf einer logisch zwingenden Deduktion beruht.

Wenn man die A-posteriori-Verteilung des Parameters als eine gegenüber der A-priori-Verteilung bessere Schätzung der tatsächlichen Verteilung des Parameters ansieht, dann ist das lediglich ein plausibler Schluss. Die A-posteriori-Verteilung ist nur eine verbesserte Schätzung unter der Bedingung des Messergebnisses; sie besagt, mit welchen Wahrscheinlichkeiten die verschiedenen Parameterwerte zu dem beobachteten Messergebnis beigetragen haben können. Der Umkehrschluss von der Beobachtung auf die tatsächliche Verteilung des Parameters kann demnach auch falsch sein. Im Grunde werden aus einer Beobachtung zu starke Schlussfolgerungen gezogen.

Im Wikipedia-Artikel „Satz von Bayes“ habe ich seinerzeit meine Kritik zu dieser Art der Parameterschätzung abgeliefert. Am 29. September 2008 war die Kritik noch auffindbar.

Seinerzeit wurde der Messunsicherheits-Leitfaden neu gefasst, da die von vielen Seiten geäußerte Kritik wohl unüberhörbar war. Die Methode von Bayes spielt darin jetzt keine große Rolle mehr, wie die aktuelle Version des Wikipedia-Artikels zum Thema GUM (Norm) zeigt.

Inzwischen ist der kritische Abschnitt durch ein Rechenbeispiel über die „Ermittlung von Messunsicherheiten“ ersetzt.  Darin wird nach wie vor die umstrittene Bayes-Formel auf die Parameterschätzung angewendet, jedoch ohne zu sagen, welchen Sinn diese Rechnung haben soll.

Zum Schluss

In der medizinischen Diagnostik nimmt man, anders als bei der Parameterschätzung, die A-posteriori-Wahrscheinlichkeit nicht als eine verbesserte Schätzung gegenüber dem Apriori: Die Basisrate der Krankheit bleibt unverändert. Die errechnete A-posteriori-Krankheitswahrscheinlichkeit gilt nur für die Personen mit positivem Testergebnis und nicht etwa für „die ganze Welt“. Das ist eine gut abgesicherte Anwendung des Satzes von Bayes.

Einen solchen sicheren Interpretationsrahmen gibt es bei der Anwendung der Formel von Bayes auf die Parameterschätzung nicht.

Wer einer Analyse mittels der Bayes-Formel nähertreten will, kann sich über die Anwendbarkeit vergewissern, indem er sich ein Urnenmodell vor Augen hält, wie das beispielsweise auch Regina Nuzzo (2014) tut.

Wie sich die Bayes-Formel auswirkt, habe ich mit dem Ein-Euro- Spiel versucht zu veranschaulichen.

Dieser Beitrag wurde unter Bildungswesen, Statistik, Tests, Wahrscheinlichkeitsrechnung abgelegt und mit , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

1 Response to Irreführende Bayes-Schätzungen

  1. Timm Grams sagt:

    Rainer Wolf, Biologe und Wahrnehmungsforscher, Universität Würzburg, schreibt am 8. Februar 2019: „Deinen Text zum Thema Statistik im Hoppla-Blog kann ich im Detail nicht kompetent beurteilen.

    Nur soviel: Selbstredend geht es bei unseren Psi-Tests darum, Fehler erster Art (falsch-positiv) wie auch zweiter Art (falsch negativ) zu vermeiden. Und tatsächlich würde, wie Du schreibst, ein Kandidat, der (nur) zu 50% Psi-tüchtig ist, unseren Test nicht bestehen.

    Nicht alle unsere Kandidaten sind mit Hilfe von Statistik zu beurteilen. Wenn jemand behauptet, er könne sich – auf einer Waage stehend – um mindestens 10% leichter machen, oder er sei fähig, durch Auspendeln einer Landkarte einen vergrabenen Goldbarren zu orten, gibt unser Test eine klare ja/nein-Antwort.

    Wo sie anwendbar ist, sorgt unsere Statistik für eine Power von 0,99 – d.h. nur in durchschnittlich einem von 100 Fällen müssen wir mit einem Fehler zweiter Art rechnen, also einen wirklich Psi-fähigen Kandidaten falsch beurteilen. Grundlage dafür ist die Tatsache, dass alle Kandidaten uns vor dem Test ausdrücklich versicherten, dass sie mit einer Erfolgsrate von 100%, mindestens aber 90% rechnen.

    Da unsere Statistik schon bei einer Erfolgsrate ab 81% für die genannte Power sorgt, dürfen wir davon ausgehen, dass unsere Kandidaten eine faire Chance haben, auch wenn wir das Vorhandensein von schwachen Psi-Fähigkeiten grundsätzlich nicht ausschließen können.“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.