Thy wish was father to that thought
William Shakespeare. Heinrich IV
Was nach Wissenschaft klingt, aber keine ist, nennen wir Pseudowissenschaft. Harald Walach beispielsweise betreibt Pseudowissenschaft, wenn er die Welt der Esoterik in wissenschaftliches Licht taucht. Er nutzt, wie er zugibt, nur die „wissenschaftliche Terminologie“, nicht etwa die Methoden und Erkenntnisse der Wissenschaft. Er gibt also vor, ein Spiel nach bestimmten Regeln zu spielen; dabei hat er gar nicht vor, diese einzuhalten.
Dasselbe kann man mit Mathematik machen: Pseudomathematik klingt wie Mathematik, ist aber keine.
Um das Feld einzugrenzen, um das es hier geht, stelle ich klar: Ich spreche nicht von den notorischen Fehlern in Herleitungen und Formeln, die bei nächster Gelegenheit bereinigt werden. Denn: Zum Werkzeug des Mathematikers gehören Papier, Bleistift und ein großes Radiergummi. Das Studium notorischer Fehler ist ein grundlegendes pädagogisches Prinzip: Aufgedeckte Fehler sind lehrreich, wie Walter Lietzmann in „Wo steckt der Fehler“ schreibt. Ich gebe ein klassisches Beispiel für diese Art von Fehlern: a2 – a2 lässt sich auf mehrerlei Arten darstellen, beispielsweise so: a(a–a) oder auch so: (a+a)(a–a). Also ist a(a–a) = (a+a)(a–a). Wir kürzen den Faktor a–a heraus und erhalten a = 2a. Jede Zahl ist also ihrem Doppelten gleich. (Nicht immer springt einem die unerlaubte Division durch null so ins Gesicht wie hier.)
Also: Um diese Art von Fehlern geht es mir nicht. Für viel wichtiger halte ich die weit verbreitete grundlegende Fehlauffassung von mathematischen Konzepten. So etwas nenne ich Pseudomathematik.
Ich beginne mit einem Beispiel, bei dem schon die Aufgabenstellung falsch in Formeln umgesetzt wird, nach dem Motto: Wenn du nicht beweisen kannst, was du beweisen willst, dann demonstriere etwas anderes und behaupte, es sei dasselbe. Der Problemlöser macht sich sozusagen an einem Stellvertreter zu schaffen, der leichter zugänglich ist als das Original, und gibt vor, das schwere Problem zu lösen.
So etwas finden wir beispielsweise in Konsumstudien, wenn die in der Stadt angetroffenen Besucher als repräsentativ für die Bürger des Einzugsbereichs gelten, oder auch in öffentlichen Statistiken, wenn die Absolventenquote eines Jahrgangs als Absolventenquote aller Schüler oder Studenten einer Kohorte ausgegeben wird.
Umtauschparadoxon und Ziegenproblem
Ein Stück Pseudomathematik habe ich auf der Suchliste zum Stichwort „Umtauschparadoxon“ gefunden:
http://www.reiter1.com/Glossar/Umtauschparadoxon.html.
Die gute Google-Platzierung spricht dafür, dass die hier angebotene einfache Lösung allgemeinen Beifall findet. Hier der Text.
Jemand erhält einen Briefumschlag. Ihm wird gesagt, dass es insgesamt 2 Umschläge gibt, wobei im einen doppelt so viel Geld drin ist wie im anderen.
Frage: Soll er den Umschlag behalten, oder gegen den anderen umtauschen?
Die naive Rechnung lautet: Seien die beiden Beträge x und 2x. Bei Tausch erhält man zu jeweils 50% Wahrscheinlichkeit den doppelten bzw. den halben Betrag, also 0.5x/2 +0.5×2x = 1.25x. Man gewinnt demnach bei Tausch statistisch im Mittel 25% dazu.
Dass das Umtauschparadoxon in Wahrheit gar kein Paradoxon ist, erkennt man, wenn man das Rätsel anders formuliert, ohne es mathematisch und logisch zu verändern: Jemand erhält 2 Briefumschläge. Ihm wird gesagt, dass im einen doppelt so viel Geld drin ist wie im anderen.
Welchen soll er nehmen?
Hier erkennt man, dass der Beschenkte gar keinen gezielten Einfluss auf den erzielten Gewinn haben kann, denn die beiden Umschläge sind völlig gleichberechtigt. Er kann nur den einen oder anderen wählen.
Hier gilt die folgende Rechnung: 0.5x + 0.5×2x = 1.5x. Das jetzige x bezieht sich auf den kleineren Betrag, von dem man nicht weiß, in welchem Brief er steckt.
Das x in der naiven Rechnung weiter oben dagegen bezieht sich auf den unbekannten Betrag, welcher in dem Umschlag ist, den der Beschenkte gerade in Händen hält.
Allerdings wird in der naiven Rechnung die Bezugsbasis gewechselt: Das erste x geht davon aus, dass man den Brief mit dem größeren Betrag in Händen hält, während das zweite x davon ausgeht, dass man den Brief mit dem kleineren Betrag in Händen hält.
Ferner ist in der naiven Rechnung von 0.5x und 2x die Rede, was ja um Faktor 4 auseinander liegt, was für sich genommen schon der Ausgangsformulierung widerspricht.
Deshalb ist das Ergebnis 1,25x ohne jegliche Bedeutung.
Dem Autor ist das passiert, was man die „Leugnung des Problems durch Umformulierung“ nennen könnte. Wenn er schreibt „Hier gilt die folgende Rechnung: 0.5x + 0.5×2x = 1.5x“, so hat er die eigentliche Aufgabe aus den Augen verloren. Ohne nähere Begründung – und auch ohne das so zu benennen – gibt er die Gewinnerwartung an. Aber danach war gar nicht gefragt. Gefragt war, ob es sich lohnt zu tauschen.
Den interessierten Leser, der sich dem Umtauschparadoxon nähern will und der sich mit derartigen Kurzschlüssen nicht zufrieden gibt, den verweise ich auf meine Denkfallen-Seite.
Eine ganz ähnliche Leugnung des Problems wie hier ist mir im Zusammenhang mit dem sogenannten Ziegenproblem begegnet.
Nun wende ich mich einem anderen Bereich der Pseudomathematik zu: Fehlerhafte Herleitungen von Hypothesenwahrscheinlichkeiten und Fehlauffassungen zu Konfidenzintervallen in der schließenden Statistik. Denn eins zeigt sich immer wieder: Auch geübte Statistiker wechseln ohne Vorwarnung von der Testtheorie zur Bayes-Schätzung und wieder zurück und beachten nicht, dass jeweils ganz verschiedene Voraussetzungen gelten.
Die „exakten“ Konfidenzintervalle nach Clopper und Pearson
Es gibt Leute, die behaupten, dass sich das Wissen der Menschheit alle sieben Jahre verdoppele. Diese Leute messen wohl nur die Berge an Papier oder Textzeilen, die produziert werden. Meiner Meinung nach irren sich diese Leute.
Lehrbuchautoren pflegen von anderen abzuschreiben. Und da sich einfache „Beweise“ leichter „verkaufen“ lassen als komplizierte, breiten sie sich auf dem Lehrbuchmarkt auch schneller aus.
Leichtfassliches hat einen Selektionsvorteil. Scheinwissen, das den Schülern und Studenten mit geringem kognitiven Aufwand nahe gebracht werden kann, hat eine größere Wachstumsrate als das Schwerverdauliche. Die einfache und plausible, wenngleich logisch und mathematisch windige Herleitung hat im Darwinschen Überlebenskampf der Ideen die besseren Karten.
Durch diesen Mechanismus werden wertvolle Erkenntnisse zugeschüttet. Das gewaltige Wissenswachstum ist in vielen Bereichen nur vorgetäuscht.
Das habe ich bereits während meiner Studienzeit bemerkt, als ich in einem weit verbreiteten damals aktuellen Lehrbuch der Variationsrechnung (Gelfand/Fomin) einen fehlerhaften Beweis entdeckte. Erst später las ich, dass dieser Fehler in der Fachliteratur unter dem Titel „Irrtum von Lagrange“ bereits aktenkundig war. Aber unter den Lehrbuchschreibern hatte der korrekte langwierige Beweis offensichtlich keine Verbreitungschance.
Vor einigen Jahren begegneten mir die in Statistikerkreisen gut bekannten Formeln für die Schätzung einer Wahrscheinlichkeit von Clopper und Pearson. Diese Formel und besonders die zugehörige Herleitung erschienen mir ziemlich dubios
Diese Formeln werden in vielen Lehrbüchern – beispielsweise auch in dem zu meinen Studienzeiten beliebten Buch von Heinhold und Gaede – als „exakte“ Vertrauensgrenzen nach Clopper und Pearson ausgegeben. Auch in dem von mir geschätzten Buch „Qualität und Zuverlässigkeit technischer Systeme“ von Birolini habe ich die Formeln samt „Herleitung“ gefunden.
Ich bin meinen Zweifeln auf den Grund gegangen und habe ein Programm geschrieben, das bei vorgegebener Wahrscheinlichkeit p mir eine Reihe von möglichen Stichproben der Größe n zieht. Für jeden der Versuche habe ich also die zufällige Trefferzahl k ermittelt. Zu jedem dieser Werte k und n habe ich dann das Konfidenzintervall nach den Formeln von Clopper und Pearson errechnet. Als Aussagewahrscheinlichkeit 1-b1–b2 habe ich 95% gewählt. Genauer: b1 = b2 = 2.5%.
Das Ergebnis von hundert solcher Versuche ist in der folgenden Grafik für die Wahrscheinlichkeit p = 0.07, und die Stichprobengröße n = 10 dargestellt. Der exakte Wert p müsste in etwa 5% der Fälle außerhalb des Intervalls liegen. Tatsächlich wird der exakte Wert aber von allen hundert Intervallen überdeckt.
Das kann Zufall sein. Also habe ich 100 000 Versuche gemacht. Anstelle einer „Daneben-Rate“ von 5% komme ich auf etwa 3 Promille. Der tatsächliche Wert ist also um wenigstens den Faktor zehn kleiner als die angebliche Aussageunsicherheit.
Bei anderen Zahlenkombinationen sind die Abweichungen von den Clopper-Pearson-Vorgaben nicht ganz so drastisch. Aber die tatsächliche Daneben-Rate ist stets signifikant geringer als die „exakte“ Vorhersage nach Clopper und Pearson.
Immer noch zweifelte ich an meinen Zweifeln. Wenn die Formeln falsch sind, dann muss sich das in der Literatur niedergeschlagen haben. Also bin ich ins Internet. Bereits der dritte Google-Eintrag zu Clopper und Pearson förderte ein Papier zutage, das meine Daten bestätigte. Dort finde ich auch den Satz: „Nun ist seit langem bekannt, dass die Clopper-Pearson-Intervalle die zugelassene Irrtumswahrscheinlichkeit bei weitem nicht ausschöpfen, was zu unnötig langen Intervallen führt.“ (Johannes Gladitz in den RZ-Mitteilungen Nr. 9 vom Dezember 1994. Titel der Schrift: Fudizialintervalle für den Parameter der Binomialverteilung mit SPSS 6.0 für Windows.)
Mir scheint, dass Clopper und Pearson auf der Basis falscher Annahmen zufällig Formeln gefunden haben, die als pessimistische Schätzungen durchgehen können.
Ich stelle nun mit gestärkter Überzeugung fest, dass manche der in den Lehrbüchern vorgebrachten Gründe oder „Herleitungen“ für Konfidenzintervalle und Hypothesenwahrscheinlichkeiten sich nur als Mathematik ausgeben. Einen weiteren Beleg für derartige Pseudomathematik findet der Leser auf meiner Denkfallen-Seite unter dem Stichwort Software-Verifikation und –Test. Die hier aufgespießte Pseudomathematik nimmt sich auch Gerd Gigerenzer in seinem gut lesbaren Aufsatz „Die Evolution des statistischen Denkens“ vor (Unterrichstswissenschaft 32(2004)1, S. 4-22).
Es gibt Leute, die behaupten, dass sich das Wissen der Menschheit alle sieben Jahre verdoppele. – Diese Ansicht ist zu bezweifeln.