Schöne Mathematik

Ein neuer Zweig der Mathematik entsteht

Kürzlich entdeckte ich ein populärwissenschaftliches Buch über die Anfänge der Wahrscheinlichkeitsrechnung. Es ist vom auch hierzulande beliebten britischen Autor Keith Devlin und trägt den Titel „Pascal, Fermat und die Berechnung des Glücks“ (englische Ausgabe 2008, deutsch 2009). Für Leute, die ihre mathematische Allgemeinbildung pflegen wollen, eignet es sich gut als Urlaubslektüre.

Im Zentrum des Buches steht ein Briefwechsel aus dem Jahre 1654 zwischen Blaise Pascal (ja, der mit dem „Pascalschen Dreieck“) und Pierre de Fermat (Entdecker des großen und des kleinen Fermatschen Satzes). Dieser Briefwechsel gab den Anstoß zur Entwicklung eines neuen Zweiges der Mathematik: der Wahrscheinlichkeitsrechnung. Die Wahrscheinlichkeitsrechnung ist also ein Kind der Neuzeit und sie hat sich zu einem sehr umfangreichen Zweig der Mathematik mit weitreichenden praktischen Anwendungen herausgebildet: Ohne die darauf aufbauende Risikoanalyse ist der moderne Verkehr mit Großflugzeugen, Hochgeschwindigkeitsbahnen und dichtem Straßenverkehr nicht vorstellbar, ebenso wenig das heutige Banken- und Versicherungswesen und auch nicht eine zeitgemäße Qualitätssicherung.

Gegenstand der brieflichen Auseinandersetzung zwischen Pascal (Paris) und Fermat (Toulouse) ist die Frage, wie der Einsatz unter den Beteiligten wohl aufzuteilen sei, wenn ein Spiel vorzeitig abgebrochen wird (Problem des abgebrochenen Spiels). Das umwerfende daran ist, dass hier wohl erstmals Mathematik betrieben wird, die sich nicht mit der Betrachtung des Vorhandenen und Gegenwärtigen begnügt, sondern die in die Zukunft hinausgreift: Es geht um Geschehnisse, die noch gar nicht eingetreten sind und die – da das Spiel ja nicht fortgesetzt werden soll – wohl auch nicht eintreten werden.

Machen wir das Problem konkret: Zwei Freunde, Albert und Bertrand, spielen gern und gleich gut Schach. Sie vereinbaren ein Spiel mit mehreren Partien und einem Einsatz von – sagen wir – fünfzig Euro für jeden. Gewonnen hat derjenige, der zuerst sechs der Schachpartien gewonnen hat. Die Runden ziehen sich in die Länge. Als Albert vier Runden und Bertrand drei Runden gewonnen hat, lenkt sie die gerade beginnende Fußballweltmeisterschaft vom Spiel ab. Sie fragen sich, wie sie bei Spielabbruch den Einsatz gerecht untereinander aufteilen sollen. Einfach halbe-halbe machen, das sieht auch Bertrand ein, ist ungerecht. Albert ist näher am Sieg als Bertrand: Er hätte nur noch zwei Spiele gewinnen müssen, und sein Freund immerhin noch drei. Aber wie lassen sich die Gewinnaussichten quantifizieren und in eine gerechte Aufteilung umsetzen?

Das ist im Wesentlichen die Frage, um die es Pascal und Fermat ging und für die beide ihre Lösungen austauschten. Ihre Lösungsansätze waren sehr verschieden, und sie führten zu denselben Ergebnissen: „La vérité soit la même à Toulouse qu’à Paris“. Und mit ihren Lösungsmethoden haben sie nichts Geringeres geschaffen als die moderne Wahrscheinlichkeitsrechnung. Getroffen haben sich die beiden nie.

Meinungsverschiedenheiten über Eleganz und Schönheit

Bevor ich die Lösungen skizziere, will ich sagen, worüber ich in dem Buch gestolpert bin. Devlin schreibt auf Seite 71, dass er auf eine detaillierte Beschreibung von Pascals Ansatz verzichte, „weil Fermats Lösung einfach weitaus eleganter ist“.

Oh ja, dem Mathematiker genügt es, wenn er einen allgemein gangbaren Lösungsweg vorfindet und wenn er für ein kleines und überschaubares Beispiel auch zu einem Ergebnis kommt. Auch eine schöne Summenformel mit Exponentialausdrücken und Binomialkoeffizienten findet er entzückend. Und in dieser Hinsicht ist Fermats Ansatz wohl mustergültig.

Leider geben die Briefe keine detaillierte Beschreibung der Lösungsverfahren: Pascals erster Brief ist verloren gegangen und auch Fermats Methode ist nirgends im Detail beschrieben. In beiden Fällen sind wir auf die Reflexionen Pascals angewiesen, die er hauptsächlich in seinem Brief vom 24. August 1654 anstellt.

Ich will zunächst beschreiben, welchen Lösungsweg Fermat wohl beschritten hat. (Es geht ums Grundsätzliche. Sollte Fermat es anders gemacht haben, dann nur unwesentlich.) Dabei bewege ich mich der besseren Verständlichkeit halber in unserem heutigen Begriffsgebäude. Man bedenke, dass sogar der Begriff „Wahrscheinlichkeit“ („probabilité“) in den damaligen Werken nicht in der heute gängigen Bedeutung vorkommt.

Nehmen wir einmal an, dass Albert noch zwei (a = 2) und Bertrand noch drei (b = 3) gewonnene Runden zum Sieg fehlen.

Eine Runde, die an Albert geht, bezeichnen wir mit A und eine für Bertrand mit B. Eine Folge bis zum Spielende könnte dann so aussehen: BABB. In dem Fall hat B das Spiel gewonnen. Nun listen wir alle möglichen Spielverläufe in lexikalischer Folge auf und schreiben dahinter die Wahrscheinlichkeit, mit der diese Folge vorkommt. (Voraussetzungsgemäß gewinnt jeder der Freunde eine Runde mit der Wahrscheinlichkeit 1/2).

Beispiel für Fermats Methode

Dieser Lösungsweg lässt sich verallgemeinern und es ergibt sich die oben bereits angekündigte schöne Formel für die Wahrscheinlichkeit eines Sieges für Albert. Diese Wahrscheinlichkeit sei mit e(a, b) bezeichnet. In unserem Beispiel haben wir den konkreten Wert e(2, 3)=11/16 errechnet. (Ich verzichte auf die Wiedergabe der allgemeinen Formel. Sie ist für das Folgende unwesentlich.)

Die Schönheit liegt im Auge des Betrachters, so heißt es. Und der Betrachter (Keith Devlin) ist in diesem Falle ein Mathematiker.

Mir jedenfalls, und ich sehe die Sache auch mit den Augen des Informatikers und Ingenieurs, hat Pascals Lösung, die Ausgangspunkt des Briefwechsels war, besser gefallen. Sie werden sehen, dass Pascals Methode die Werte e(a, b) mit geringerem Rechenaufwand liefert als Fermats Vorgehen, jedenfalls dann, wenn man sich für mehrere dieser Werte interessiert. (Dass für Pascal auch die praktische Anwendung der Mathematik hohen Rang hatte, sieht man an seiner bahnbrechenden Erfindung auf dem Gebiet der mechanischen Rechenmaschinen, an der Pascaline. Wer diese verstehen will, sollte bei Gelegenheit einmal mit dem Modell, das im Heinz Nixdorf MuseumsForum in Paderborn steht, experimentieren.)

Pascal bietet uns ein leicht zu verstehendes und praktisches Rechenverfahren an. Dessen Prinzip ist für die heutige Informatik grundlegend. Auch mit Pascals Ansatz lässt sich die oben erwähnte „schöne Formel“ gewinnen. Aber dazu sind mathematische Methoden notwendig, die Pascal noch nicht zur Verfügung standen.

Pascals allgemeine Methode

Mögen Albert noch a und Bertrand noch b gewonnene Runden bis zum Sieg fehlen. Das Ursprungsproblem lautet, die Wahrscheinlichkeit e(a, b) für einen Sieg Alberts zu bestimmen. Die Idee Pascals ist nun, die Werte a und b tatsächlich als variabel anzusehen. Er bettet das Problem sozusagen in eine allgemeinere Problemstellung ein und fragt nach einer Beziehung zwischen den zunächst noch unbekannten Werten e(a, b) für die verschiedenen a und b. Genau so war er ja bereits mit den Binomialkoeffizienten verfahren und ist auf das nach ihm benannte Dreieck gekommen.

Beim Spielstand (a, b) gewinnt Albert, wie stets, die nächste Runde mit der Wahrscheinlichkeit 1/2. Die Wahrscheinlichkeit, dass Albert die Runde und auch noch das gesamte Spiel gewinnt, ist demnach gleich e(a-1, b)/2, Die Wahrscheinlichkeit, dass Albert verliert und dennoch das gesamte Spiel gewinnt, ist gleich e(a, b-1)/2. Die Wahrscheinlichkeit, dass er beim Spielstand (a, b) das gesamte Spiel gewinnt, ist also gleich

e(a, b) = e(a-1, b)/2 + e(a, b-1)/2.

Damit haben wir die gesuchte Beziehung zwischen den Lösungsansätzen. Jetzt können wir die Lösungswerte berechnen, indem wir uns, ausgehend von den leicht zu ermittelnden Werten, Schritt für Schritt zu allen uns interessierenden Werten durchhangeln.

Offenbar gilt e(a, 0) = 0 für alle a: Bertrand hat bereits gesiegt. Außerdem ist e(0, b) = 1: Albert ist der Sieger. Über die Beziehung zwischen den Lösungsansätzen können wir nacheinander eine Tabelle für e(a, b) auffüllen:

Beispiel für Pascals Methode

Neben anderen haben wir wieder den Wert e(2, 3)=11/16 gefunden.

Pascals Ansatz erlaubt problemlos vielfältige Verallgemeinerungen. Also: Ich finde ihn wirklich schön.

Probieren Sie die Sache doch einmal aus: Nehmen wir einmal an, die zwei Freunde unterscheiden sich in der Spielstärke: Von je fünf Runden entscheidet im Mittel Albert drei für sich, während im Schnitt zwei an Bertrand gehen. Sie vereinbaren, dass derjenige von ihnen gewonnen hat, der sechs Runden für sich entschieden hat. In welchem Verhältnis sollten die Einsatzanteile der Freunde stehen, so dass beide eine Gewinnerwartung haben, die ihrem jeweiligen Einsatzanteil entspricht?

Antworten auf einige der noch offenen Fragen bietet das Excel-Arbeitsblatt AbgebrochenesSpiel.xls.

Anmerkung zu meinen Quellen: Neben Devlins Buch habe ich für diesen Artikel noch Aufzeichnungen von Paul-Louis Hennequin von der Universität Blaise Pascal in Clermont-Ferrand aus dem Jahre 2005 zu Rate gezogen: „Calculer des probabilités avec Blaise Pascal“. Die entscheidende Passage des Briefes Pascals an Fermat vom 29. Juli 1654 habe ich in der Schrift „Die Entwicklung des Wahrscheinlichkeitsbegriffs von 1654 bis 1718“ von Daniel Brönnimann, 24. September 2001, gefunden. Darin beschreibt Pascal seine Methode ganz einfach und klar. (Beide Schriften sind im Internet verfügbar.) Peter L. Bernstein schreibt in seinem Buch „Against the Gods“ (1996): „Fermat turned to pure algebra. Pascal was more innovative: he used a geometric format to illuminate the underlying algebraic structure“ (S. 63 f.).

Veröffentlicht unter Denksport, Prognosen, Wahrscheinlichkeitsrechnung, Wirtschaft | Verschlagwortet mit , , , | Ein Kommentar

Bauchgefühle: Je dümmer, desto klüger?

Zwei Empfehlungen und eine Warnung

Von zwei meiner Lieblingsbücher will ich berichten. Das erste – schon etwas angejahrt – ist „Das Einmaleins der Skepsis“ von Gerd Gigerenzer (2002). Es ist eine süffig formulierte und doch mathematisch überzeugende Darstellung dessen, wie unsere Intuition und alltäglichen Faustregeln (Heuristiken) uns zuweilen fehlleiten, und was wir mit etwas Logik und Mathematik dagegen tun können.

Das andere Buch ist neueren Datums (2010). Christian Hesse hat mit „Warum Mathematik glücklich macht“ 150 wunderbare mathematische Miniaturen geliefert, die auch dem mathematisch nicht übermäßig bewanderten Leser Lust auf Mathematik machen können. Der Titel ist wirklich nicht übertrieben.

Aber – hoppla! – eigentlich sind es ja 151 Miniaturen. Jedoch eine davon, die 17., sie trägt den Titel „Aus der Serie Regeln für die Faust“, ist mit erhöhter Vorsicht zu genießen. Hier finden wir nämlich einen Hinweis auf ein weiteres Buch von Gerd Gigerenzer: „Bauchentscheidungen“ aus dem Jahr 2007.

Hesse schreibt: „Die Psychologen Gigerenzer und Goldstein legten amerikanischen Studierenden an der Universität von Chicago folgende Frage vor: ‚Welche Stadt hat mehr Einwohner, San Diego oder San Antonio?’ Insgesamt 62% der amerikanischen Studenten gaben die richtige Antwort: San Diego. Das Experiment wurde anschließend in Deutschland wiederholt. Man würde vermuten, dass die Deutschen mit dieser Frage mehr Schwierigkeiten haben als die Amerikaner… Dennoch beantworteten alle befragten Deutschen – ja, 100% – die Frage richtig, obwohl sie weniger wussten. Ignoranz als Wettbewerbsvorteil? Paradox? Ja, und doch auch wieder nicht! Die Deutschen wendeten teils unbewusst die Rekognitionsheuristik an: Wenn du zwischen zwei Alternativen wählen kannst, von denen dir eine bekannt vorkommt und die andere nicht, dann entscheide dich für die bekannte.“

Wir reiben uns die Augen: Sind das nicht die Heuristiken, vor deren unkritischen Gebrauch Gigerenzer in seinem „Einmaleins“ gewarnt hat? Die Widersprüche zwischen den beiden Gigerenzer-Büchern sind derart offensichtlich, dass sich eine tiefere Analyse der Angelegenheit eigentlich erübrigt. Eine einfache Erklärung ist schnell gefunden: Hier will jemand nicht nur den Markt der Skeptiker bedienen, sondern auch den der Skepsis-Skeptiker. Der Markt der positiven Denkungsart ist allemal größer als der für kritisches und analytisches Denken. Und zum Kauf wird man schließlich ja nicht gezwungen.

Aber ein bisschen schmerzt es schon: Wir sehen, wie ein begnadeter Kommunikator auch noch die abwegigsten „Theorien“ unter das Volk bringen kann. Selbst die Zeitschrift Stern hatte den „Bauchentscheidungen“ seinerzeit einen großen Beitrag gewidmet (Stern 18/2007, S. 58-68). Darin unterstreicht Gigerenzer, dass unser Gehirn mit vielen Denkabkürzungen arbeite, die es ihm ermöglichten, „Ignoranz in Wissen zu verwandeln“.

Anekdotische Evidenz im Widerstreit

Ich greife ein Beispiel aus den Originalaufsätzen heraus, die in dem Sammelband „Simple Heuristics that make us smart“ (Gigerenzer, Todd and the ABC research Group, 1999) erschienen sind. Unter dem Titel „The Less-Is-More Effect“ wird die folgende Lage geschildert: Drei Brüder aus einem fremden Land, ich nenne sie A, B und C, bekommen eine Liste der 50 größten deutschen Städte vorgelegt. A weiß soviel wie nichts über Deutschland und kennt keine der Städte. B hat von der Hälfte der Städte schon einmal gehört und C sind alle diese Städte bekannt.

Nun werden den Dreien jeweils zwei Städte genannt, und sie sollen sagen, welche der Städte die größere der beiden ist, welche also mehr Einwohner hat als die andere. Sind beide Städte unbekannt, raten die Brüder und landen Treffer mit 50-prozentiger Wahrscheinlichkeit. Ist nur eine der Städte bekannt, wählen sie nach der Rekognitionsheuristik die ihnen bekannte. Und wenn beide bekannt sind, aktivieren sie ihr Wissen über diese Städte und entscheiden dementsprechend. Die Rekognitionsheuristik möge in 80% aller Fälle richtig liegen, und im Fall, dass beide Städte bekannt sind, verhilft das Wissen über diese Städte zu einer Trefferwahrscheinlichkeit von 60%.

Illustration des Weniger-ist-mehr-Effekts

Das obere Bild zeigt die Trefferwahrscheinlichkeit in Abhängigkeit von der Zahl der bekannten Städte. Eingezeichnet sind die sich daraus ergebenden Trefferquoten der drei Brüder. Diese Darstellung findet man im Artikel von Gigerenzer „The Recognition Heuristic“.

Klare Schlussfolgerung: Zuviel Wissen bringt nix. Der Bruder B, der nur wenig weiß und sich ansonsten auf die Rekognitionsheuristik verlässt, ist am besten dran.

Aber – hoppla! – wer sagt denn, dass die Trefferwahrscheinlichkeit bei Wissen nur 60% beträgt? Könnten es nicht auch 70% sein? Oder – noch plausibler – 80% wie bei der Rekognitionsheuristik? Und siehe da, schon haben wir ein anderes Bild (das untere). Wissen schlägt Unwissen!

Der ganze Jammer der anekdotischen Evidenz liegt nun vor uns: Hat man einen schönen Beleg für seine Lieblingstheorie, kommt ein anderer mit einem Gegenbeispiel daher, und macht das wunderbare Gebäude wieder kaputt.

Die Rekognitionheuristik hat also ihre Grenzen. Wenn wir etwas über die Anwendbarkeit der Heuristik wissen wollen, brauchen wir eine umfassende Kenntnis der Problemlage, insbesondere müssen uns die Trefferwahrscheinlichkeiten für die verschiedenen Wissensstufen zumindest näherungsweise bekannt sein. Der (gar nicht so verwunderte) Leser erkennt: Wenn ich erst mühsam und unter Nutzung umfassender Informationen errechnen muss, ob ich mich auf meine (dann gar nicht mehr vorhandene) Dummheit verlassen kann, bringt die ganze Heuristik nichts.

Bauchgefühle in der Praxis

Natürlich gibt es Fälle, in denen man auf schmaler Wissensbasis einen Treffer landet („Ein blindes Huhn findet auch einmal ein Korn“). Und manchmal bleibt uns auch gar nicht die Zeit für wohlüberlegte Entscheidungen. Dann sind wir auf unser Bauchgefühl angewiesen. In Alltagssituation funktionieren unsere Heuristiken ja auch ziemlich gut. Sonst hätten wir nicht bis heute überlebt.

Durch die Auswahl passender und die „Theorie“ bestätigender Beispiele erwecken Gigerenzer und seine Mitstreiter jedoch den Eindruck, dass Unwissenheit grundsätzlich clever ist, auch wenn die Situation nicht ganz alltäglich und die Ressourcen für wohlüberlegtes Handeln groß genug sind. Ein paar Beispiele sollen die Grenzen der Heuristiken deutlich machen und zeigen, dass in sehr vielen Fällen sorgfältiges Abwägen und die kritische Analyse mehr Erfolg versprechen.

Am besten, Sie testen die Verlässlichkeit Ihres Bauchgefühls selbst einmal anhand einer kleinen Aufgabe. Sagen Sie „aus dem Bauch heraus“, welche Stadt näher am Nordpol liegt: Berlin oder London? Wenn Sie sich über die Antwort im Klaren sind, schauen Sie auf einer Weltkarte nach. Wundern Sie sich?

Und hier eine zweite Sache: Im Doppelmord-Prozess gegen O. J. Simpson ging es auch um die Frage, inwieweit die Gewalttätigkeit des Angeklagten die Mordanklage stützt. Die Ankläger führten Simpsons Hang zur Gewalt gegenüber seiner Frau als wichtigen Hinweis an, der einen Mord an seiner Frau als wahrscheinlich erscheinen lasse. Der Verteidiger Alan Dershowitz hielt dem entgegen, dass nur wenige dieser Gewalttäter auch zu Mördern an ihren Frauen würden.

Ich lege einmal Zahlen in den damals genannten Größenordnungen zu Grunde: Es möge bekannt sein, dass unter 10 000 Männern, die ihre Frau schlagen, im Mittel einer auch zum Mörder an ihr wird. Die Wahrscheinlichkeit, dass ein solcher Gewalttäter auch Mörder wird, ist demnach gleich 1/10 000. Das Bauchgefühl sagt uns: Gewalttätigkeit ist kein starker Hinweis auf die Schuld des Angeklagten.

Aber denken wir besser einmal nach, denn hier geht es ja um Leben oder Tod. Eigentlich geht es gar nicht um die Frage, mit welcher Wahrscheinlichkeit ein „Schläger“ seine Frau schließlich ermordet. Was den Richter interessieren sollte, ist, mit welcher Wahrscheinlichkeit bei einem Mord der gewalttätige Ehemann als Täter in Frage kommt.

Die Antwort ist nicht ohne etwas Rechnung und Analyse zu haben. In Grundzügen geht die Rechnung so: In einer Gesamtheit von 100 000 Paaren mit gewalttätigem Ehemann werden im Laufe eines Jahres etwa 10 der Frauen durch ihren Ehemann ermordet. Aber Statistiken zeigen, dass die Zahl der Frauen, die einem Mord zum Opfer fallen, ohne dass der Ehemann der Täter ist, etwa ebenso groß ist. Durch Gewalt in der Ehe ist die Wahrscheinlichkeit, dass die Ehefrau einem Mord zum Opfer fällt, deutlich erhöht, bei den angenommenen Zahlen auf das Doppelte.

Die Wahrscheinlichkeit dafür, dass der Ehemann tatsächlich der Täter ist, liegt bei 50% und nicht etwa bei 1:10 000. Die Gewalttätigkeit des Ehemanns ist also sehr wohl ein starker Hinweis auf die Täterschaft, anders als zunächst „aus dem Bauch heraus“ vermutet.

Im Artikel „Glaube und Wahrheit“ (Der Spiegel 22/2011, S. 56-67) geht es um mehrere Gerichtsverfahren der jüngsten Vergangenheit, insbesondere um den Kachelmann-Prozess. Ein Gutachter und Psychologe wird zitiert, der meint, dass das schlimmste Hindernis auf dem Weg zur Wahrheit der Bauch sei: „Man muss sein Bauchgefühl immer über den Haufen werfen.“ An die Stelle müsse die wissenschaftliche Analyse treten.

Zum Schluss noch etwas aus der Politik: Der frühere US-Präsident George W. Bush ist bekanntlich jemand, der sich vornehmlich auf sein Bauchgefühl verlässt. Er mag dafür andere Namen haben: Intuition, Eingebung, Gott. Nach eigenem Bekunden brauchte er für seine politischen Entscheidungen keinen Rat, auch nicht von seinem Vater, denn er hatte dafür ja „a higher father“, wie er selbst sagte. Leider.

Veröffentlicht unter Heuristik, Wissenschaft und Pseudowissenschaft | Verschlagwortet mit , , , , | Ein Kommentar

„Schlank in 14 Tagen“ mit Skepsis betrachtet

Versprechungen

Den Bauch wegzubekommen, sei nicht einfach, sagt der Fitness-Manager. Aber er wolle, dass wir gesund bleiben. Um den Speck weg und den Bauch wieder flacher zu bekommen, biete er ein „Bauch-Fett-Weg-Programm“ nach dem Simply-Belt-Konzept an.

Diese Nachricht habe ich in der aktuellen Beilage „Wellness & Gesundheit“ meiner Tageszeitung gefunden; dort wird auch verraten, wie die Sache funktioniert: „Der Gürtel wird auf dem T-Shirt getragen – was die Anwendung noch hygienischer macht. Das Prinzip des Bauchgurts beruht auf einem Drei-Kammern-Luftsystem, bei dem der Druck von außen zur Mitte des Bauchbereiches im Wechsel in die Luftdruckkammern gepumpt wird. Damit ist nicht nur eine passive Wechselwirkung gegeben, sondern zusätzlich erfährt der Körper – wie bei der traditionellen Lymphdrainage – eine effektive, zum Kernpunkt des Körpers führende Massage… Dadurch wird die Durchblutung gefördert; die Fettsäuren können über das Blut dorthin transportiert werden, wo sie verbrannt werden – im Muskel.“

Gewiss, viele Leute empfinden sich als zu dick und zu unförmig. Eigentlich wissen sie auch, was dagegen zu tun ist: Mäßig essen und sich regelmäßig bewegen.

Bequemlichkeit und Nachlässigkeit lassen Soll und Ist, Plan und Ausführung auseinanderdriften. Wir stecken in einem Problem und leiden darunter. Und aus dieser Situation lässt sich Gewinn schlagen. Das machen dann die anderen. Sie versprechen uns, dass wir mühelos schlank werden können. Und sie sagen auch, wie.

Die einen raten uns, Mittelchen einzunehmen, beispielsweise Fatburner und Sattmacher, oder sich mit Anti-Cellulite-Creme einzuschmieren. Andere preisen ihre Diät-Ratschläge in Buchform oder auf DVD an; und wieder andere raten dazu, das von ihnen ersonnene trickreiche Gerät, den Simply-Belt beispielsweise, zu benutzen. Uns liegt an einem schlankeren Körper, die Anbieter haben vor allem unseren Geldbeutel im Visier. Skepsis ist also durchaus angebracht.

Suchmaschinentreffer auf die Anfrage "Schlank in ..."

Spaßeshalber habe ich die Google-Treffer auf die Anfragen „Schlank in x Tagen/Wochen“ erfasst (s. Grafik). Die großen Trefferzahlen gehen auf Werbeaktionen für einige wenige Buchtitel und DVDs zurück. Aber neben solchen Rennern existiert noch eine sehr große Anzahl weiterer Artikel, die auf dem Markt der Schlankheitsangebote miteinander konkurrieren.

Prüfen im Vorfeld der Wissenschaft

Die Werbesprüche für derartige Angebote suggerieren wissenschaftliche Fundierung („Fettsäuren können über das Blut dorthin transportiert werden, wo sie verbrannt werden“) und sie arbeiten mit plausiblen Analogien („erfährt der Körper – wie bei der traditionellen Lymphdrainage – eine effektive, zum Kernpunkt des Körpers führende Massage“).

Das klingt überzeugend. Aber: Was ist dran an all den Behauptungen? Was ist Tatsache, was Wunschdenken und was reine Verführungskunst? Wie kann ich vermeiden, Geld für nutzloses Zeug auszugeben?

Zunächst einmal zur Aussagekraft von Analogien: Sie werden zwar gern zur Begründung irgendwelcher okkulter Effekte herangezogen. Aber Analogien sind nur in der Phase der Ideenfindung interessant; für Beweise taugen sie prinzipiell nicht. Nach dieser Klärung sind wir zwar das eine oder andere Argument los. Aber ob das Angebot etwas taugt oder nicht, wissen wir damit immer noch nicht. Wir müssen tiefer in die Sache eindringen.

Bleiben wir beim eingangs dargestellten Beispiel. Ich will wissen, was am Simply-Belt-Konzept dran ist und halte mich an die ersten zwei Regeln gesunder Skepsis:

1. Nicht glauben, wenn man nachsehen und prüfen kann.

2. Die Beweispflicht liegt bei dem, der Außerordentliches behauptet.

Also frage ich im Fitness-Studio nach Belegen. Ich erhalte den Hinweis auf eine Studie über ein vergleichbares Produkt, genannt Slim Belly. Das Institut für medizinische und sportwissenschaftliche Beratung (IMSB Austria) hat die „ABC-one Studie 2010 – Regionale Fettverbrennung“ durchgeführt. Unter anderem wird darin ermittelt, welchen Effekt der Gürtel hat: Eine Gruppe trainiert mit, die Kontrollgruppe ohne Gürtel, bei ansonsten gleichen Bedingungen. Das ganze Experiment erstreckt sich – einschließlich Messungen – über 14 Tage.

Wie glaubwürdig ist die Quelle?

Tests auf Glaubwürdigkeit betreffen zunächst die Institution selbst, denn die Studie kann durch Verstoß gegen die Regeln sauberer Versuchsanordnung und -durchführung irreführende Ergebnisse liefern. Sie kann sogar auf bloße Täuschung angelegt sein.

3. Der Skeptiker fragt: Ist die Studie von einer angesehenen und unabhängigen Institution durchgeführt worden? Wer hat sie in Auftrag gegeben? Wer hat sie bezahlt?

Was die Reputation des Prüfinstituts angeht, habe ich im Internet nichts Nachteiliges finden können. Initiatoren der Studie sind die Erfinder des Slim-Belly-Gürtels von der Firma ABC-one. Sie begründen die Studie so: „Ziel der Studie war es … die Wirkung der Geräte Slim Belly® und Slim Back&Legs® auf die regionale Fettverbrennung zu testen und die Effizienz der beiden Produkte zu beurteilen. Und das unter streng wissenschaftlichen Rahmenbedingungen.“

Offensichtlich ist die Studie Element eines Werbekonzepts. Die offene Sprache der Publikation stimmt mich positiv, aber angesichts der Interessenlage ist weiterhin Skepsis angebracht. Wir müssen noch eine Schicht tiefer gehen und versuchen, Informationen über die Qualität der Studie zu gewinnen. Als Quelle ist zunächst nur die Studie selbst greifbar.

4. Der Skeptiker fragt: Sind Planung und Durchführung der Studie ausreichend dokumentiert? Werden die wissenschaftlichen Standards eingehalten?

Zu den wissenschaftlichen Standards gehört die umfassende Dokumentation sämtlicher Versuche zum selben Gegenstand. Macht man nämlich eine ganze Reihe von gleichartigen Versuchen, so ergeben sich rein zufällig verschiedene Resultate. Und in dieser Ergebnisvielfalt lässt sich dann sicherlich auch etwas finden, das den gewünschten Effekt besonders deutlich zeigt. Diese Ergebnisse werden dann veröffentlicht. Ein solches Fishing for Significance muss ausgeschlossen sein. Die Studie sagt nichts darüber und auch seitens der Herstellerfirma wird Fishing nicht ausdrücklich ausgeschlossen.

Zur sauberen Versuchsplanung und -durchführung gehört auch, dass die Teilgruppen (Produkt-Anwender und Kontrollgruppe) durch reine Zufallsauswahl gebildet werden. Davon ist aber in der Studie nicht die Rede. Per E-Mail habe ich beim Prüfinstitut um Auskunft zu diesem Punkt gebeten und von Dr. Alena Kos (durchführende Ärztin und Anthropologin) am 4.5.11 diese Antwort erhalten: „Die Auswahl und die Zuteilung der jeweiligen Personen in die Gruppen mit Slim Belly/Slim Back&Legs und Kontrollgruppe haben wir nicht selber bestimmt. Dieses wurde von den Organisatoren der Studie [die Herstellerfirma ABC-one] entschieden.“

Dafür, dass bei dieser Studie die wissenschaftlichen Standards womöglich nicht eingehalten worden sind, ist also die Herstellerfirma verantwortlich. Die Tätigkeit des Prüfinstituts beschränkte sich offenbar auf die Anthropometrie und die statistische Auswertung.

Auf die möglichen Probleme bezüglich Fishing und Auswahlverfahren komme ich noch zurück.

Was sagen die Daten wirklich aus?

Zum guten Schluss können wir noch die mitgeteilten Daten und Schlussfolgerungen unter die Lupe nehmen.

5. Der Skeptiker fragt: Ist die Studie inhaltlich glaubwürdig? Enthält sie Widersprüche? Wie groß und wie deutlich sind die behaupteten Effekte?

Unter anderem wird in der Studie behauptet, „dass durch die Anwendung mit dem ‚Slim Belly’ die Fettreduktion im Hüftbereich 8-fach höher war als ohne Gerät“. Das klingt beeindruckend. Aber was steckt dahinter?

Die Hautfaltendicke nahm bei den Versuchspersonen, die einen Gürtel trugen, im Mittel um 40 mm ab, mit einer Standardabweichung von 28 mm. Bei den Versuchspersonen ohne Gürtel betrug die mittlere Abnahme nur 5 mm bei einer Standardabweichung von 20 mm. Ich stelle die verschiedenen Werte und die Wahrscheinlichkeit ihres Auftretens einmal als ideale Normalverteilungen dar, nur um vor Augen zu führen, dass es sich hier um Aussagen über zufällig auftretende Stichprobenwerte handelt.

Veranschaulichung der zufälligen Schwankungen

Der Quotient der Mittelwerte ergibt tatsächlich den Faktor 8. Wie unsinnig diese Zahlenangabe ist, wird klar, wenn man bedenkt, dass hier Messergebnisse für 32 Personen die den Gürtel trugen und die 34 Personen der Kontrollgruppe in statistische Kennzahlen gepresst worden sind. Wie hätte der Quotient ausgesehen, wenn die Kontrollgruppe im Mittel überhaupt keine Reduktion oder gar eine geringe Zunahme zu verzeichnen gehabt hätte?

Die Studie enthält einen kleinen Hinweis darauf, dass es bei der Gruppenaufteilung möglicherweise nicht mit rechten Dingen zugegangen ist. Die Personen der Kontrollgruppe waren im Mittel um fast drei Zentimeter größer als die der Slim-Belly-Gruppe (Kontrollgruppe 166,5 cm, Slim-Belly-Gruppe 163,8 cm) bei nahezu gleichem Gewicht (Kontrollgruppe 83,3 kg, Slim-Belly-Gruppe 83,5 kg). Bei der etwas „schlankeren“ Kontrollgruppe könnte die Chance abzunehmen tatsächlich von vornherein etwas geringer sein.

Die Ergebnisse der Studie liegen teilweise knapp unter und teilweise knapp über dem 5%-Signifikanzniveau. Einen nach diesem Maßstab signifikanten (deutlichen) Effekt findet man schon rein zufällig in 5% aller Fälle, also in jedem zwanzigsten Versuch, auch dann, wenn es den Effekt im Grunde gar nicht gibt. Bei einem derartig schwachen Signifikanzkriterium ist eine Dokumentation der insgesamt durchgeführten Versuche eigentlich unerlässlich. Und eine solche Dokumentation fehlt hier.

Die Vergleichsmessungen vorher/nachher fanden innerhalb der vierzehn Tage des Versuchs statt. Gern erfahren hätte man, wie die Werte mehrere Wochen nach dieser Veranstaltung sind. Aber diese Frage führt dann doch etwas zu weit. Unseren Arzt fragen wir ja auch nicht nach den langfristigen Folgen seiner Behandlung. Sollten wir es vielleicht doch tun?

Einführung in das skeptische Denken und Argumentieren

Ich werde Ihnen nicht sagen, was ich von den Abspeckgürteln und anderen Schlankheitsmitteln halte. Ihre Meinung sollten Sie sich selber bilden. Wenn Sie Ihre Fähigkeiten zum skeptischen Denken noch weiter entwickeln wollen, empfehle ich Ihnen die Lektüre dieser Bücher:

Christoph Bördlein: Das sockenfressende Monster in der Waschmaschine. Eine Einführung ins skeptische Denken. Aschaffenburg 2002

Hans-Peter Beck-Bornholdt, Hans-Hermann Dubben: Der Hund, der Eier legt. Erkennen von Fehlinformation durch Querdenken. Reinbek bei Hamburg 2001

Hubert Schleichert: Wie man mit Fundamentalisten diskutiert, ohne den Verstand zu verlieren – oder Anleitung zum subversiven Denken. München 1997

Veröffentlicht unter Skeptizismus, Statistik, Tests | Verschlagwortet mit , , , | 3 Kommentare

Proben mit Stich: Wie „farbtreu“ sind Umfrageergebnisse?

Undefinierte Grundgesamtheit und verzerrte Stichproben

Leserbeteiligung fördert die Auflage. Und am einfachsten gelingt das mit TED-Umfragen. TED steht für Teledialog und wurde erstmals in Fernsehshows zur Einbindung der Zuschauer genutzt. Inzwischen grassiert dieser Umfragebazillus. Neulich wurde ich von meiner Tageszeitung aufgefordert, meine Meinung darüber abzugeben, ob Autos mit Zündsperren für Alkoholsünder (Alkolocks) ausgestattet werden sollen oder nicht. Der Abstimmungsakt erfordert nur, je nach Antwort eine entsprechende Telefonnummer zu wählen.

Inzwischen kenne ich das Ergebnis dieser Telefonumfrage: 65,9 % sind für die Zündsperren, 34,1 % sind dagegen (Fuldaer Zeitung vom 23.4.2011).

Hoppla! Von wem ist hier überhaupt die Rede? Von den Osthessen, von den Fuldaern, von den Lesern der Zeitung? Nein: hier ist nur die Rede von denen, die an der Telefonumfrage teilgenommen haben. Und wer diese Leute sind, kann niemand sagen, auch die Redaktion nicht. Ich weiß jetzt nur, dass von denen, die angerufen haben, 65,9 % für die Zündsperren sind und der Rest dagegen. Die Teilnehmer an der Umfrage rekrutieren sich selbst: Das Interesse an einer bestimmten Antwort erzeugt den Drang zur Teilnahme. Und ich weiß nicht, ob eher der Zündsperren-Befürworter oder aber dessen Gegner genügend Blutdruck entwickelt, den man braucht, um zum Telefonhörer zu greifen. Es bleibt die ernüchternde Erkenntnis, dass die Zeitung eine vollkommen wertlose Nachricht geboten hat.

Ergebnis einer Online-Umfrage

Auch Web-Seitenanbieter versuchen mit ähnlich gearteten Umfragen ihr Angebot interessanter zu machen. Auf einer Atheisten-Seite wird um Abstimmung gebeten zur Frage: „Glauben Sie an (den christlichen) Gott?“ Diese Abstimmung läuft schon seit einigen Jahren und hat inzwischen 21704 Teilnehmer gefunden. Ich habe das Ergebnis in der nebenstehenden Grafik komprimiert dargestellt (Stand: 21.4.2011).

Hier haben wir dasselbe Problem wie bei den Alkolocks: Der unkritische Leser sieht in dieser Grafik ein Abbild der Glaubensneigung der Bevölkerung – was immer er unter „Bevölkerung“ verstehen mag. Der Nachdenkliche schränkt den Kreis auf die Besucher der Atheisten-Seite ein. Aber auch das ist eine noch viel zu kühne Verallgemeinerung: Die Statistik sagt nur etwas über die Teilnehmer an der Abstimmung aus. Und über diesen Personenkreis wissen wir so gut wie nichts.

An der Abstimmung können normale Besucher der Seite teilgenommen haben. Aber es kann auch sein, dass irgendwelche religiösen oder atheistischen Zirkel eine Abstimmungsaktion organisiert haben. Wer weiß?

Aber eins ist doch interessant: Die Gleichgültigen sind zusammen mit den Wachsweichen klar in der Minderheit. Um sich zur Teilnahme aufraffen zu können, braucht man schon etwas Enthusiasmus. Der ist bei den Gläubigen offenbar vorhanden, und die wahren Atheisten stehen ihnen kaum nach. Das Ergebnis der Abstimmung läuft auf eine Tautologie hinaus: Gläubige glauben, Ungläubige nicht. Das ist aber auch schon alles.

Die hier beschriebenen Umfragen müssen scheitern, weil sie gegen grundlegende Voraussetzungen des statistischen Schließens verstoßen. Die erste Voraussetzung besagt, dass die Grundgesamtheit – also die Population, über die etwas ausgesagt werden soll – klar definiert sein muss. Und die zweite Forderung ist, dass das Ziehen einer Stichprobe aus dieser Grundgesamtheit nach dem Zufallsprinzip zu erfolgen hat. Die Stichprobe soll ja für die Grundgesamtheit repräsentativ sein. Selbstrekrutierte Stichproben erfüllen diese Forderungen ganz gewiss nicht. Sie sind fast notgedrungen verzerrt.

Auch seriös angelegte Umfragen mit gut definierter Grundgesamtheit und gut geplanter Stichprobenbildung können das Problem der verzerrten Stichprobe nicht ganz vermeiden. Ein Hauptgrund sind die Fälle von Antwortverweigerung (Non-response). In den Nachrichten aus dem Statistischen Bundesamt (METHODEN – VERFAHREN – ENTWICKLUNGEN, Ausgabe 2/2004) wird berichtet, dass bei Auswahlverfahren für Telefonstichproben mit einer Antwortverweigerungen von „über 50% bei Erstbefragungen und rund 10% bei Folgebefragungen“ gerechnet werden muss. Die Antwortverweigerung bildet ein großes Einfallstor für Verzerrungen, das sich kaum schließen lässt.

Da wir gerade bei Glaubensfragen sind: Auch der Religionsmonitor der Bertelsmann-Stiftung muss sich mit dem Problem der Antwortverweigerung herumschlagen. Und bei solchen weltanschaulichen Fragen könnte das besonders hart werden.

Ein Beispiel aus der Konsumforschung

Am 1. September 1999 berichtete die Fuldaer Zeitung über ein Gutachten zur Konsumforschung: „Interessant … ist …, dass über die Hälfte der Passanten täglich oder mehrmals pro Woche Fuldas Innenstadt aufsuchen. 25,8 Prozent kommen einmal pro Woche oder mindestens 14-täglich. Demnach kann davon ausgegangen werden, dass die Innenstadt ein umfangreiches Angebot für die Kunden bereithält.“

Offenbar ist beabsichtigt, die Tatsache, dass immerhin 50 Prozent der angetroffenen Passanten täglich und nur 25 Prozent wöchentlich kommen, als Zeichen der Attraktivität Fuldas hinzustellen. Wie lässt sich das begründen?

Zuerst ist nach der Grundgesamtheit zu fragen, die es zu beurteilen gilt. Aber darüber sagt das Gutachten nichts aus: Befragt wird nur, wer da ist. Jemand, der sehr selten oder gar nicht nach Fulda kommt, wird durch die Stichprobe nicht vertreten.

Also verzichten wir darauf, die Grundgesamtheit zu präzisieren und fragen nur, in welchem Verhältnis die Anzahl der Vielbesucher (täglich) zur Anzahl der Wenigbesucher (wöchentlich) steht. In der Stichprobe beträgt dieses Verhältnis etwa 50/25, also 2:1. Aber dieses Verhältnis interessiert uns eigentlich nicht. Wir wollen wissen, wie dieses Verhältnis in der imaginären Grundgesamtheit (Menschen des Landkreises oder der Region) ist.

Jeder befragte Besucher vertritt eine Anzahl von Personen der Grundgesamtheit. Die Wenigbesucher mögen sich auf die sechs Arbeitstage einer Woche gleichmäßig verteilen. Jeder befragte Wenigbesucher vertritt also sechsmal mehr Personen der Grundgesamtheit als jeder Vielbesucher. Wenn man das Verhältnis der Viel- zu den Wenigbesuchern auf die Grundgesamtheit umrechnet, kommt der Faktor sechs ins Spiel: Aus dem Verhältnis 2:1 wird das Verhältnis 2:6 oder 1:3. Also: Die Zahl der Wenigbesucher übertrifft die der Vielbesucher um das Dreifache.

In diesem Fall haben wir — mittels einer gewagten Annahme — aus einer selbstrekrutierten Stichprobe tatsächlich etwas über die Grundgesamtheit erfahren. Das ist zwar nicht viel, aber immerhin.

Ich habe großes Vertrauen in die interpretatorischen Fähigkeiten der Konsumforscher. Auch mit diesen Zahlen hätten sie die von ihnen gewünschte Aussage gewiss problemlos untermauern können.

Erhöht Ausweichen die Kollisionsgefahr?

Sogar angesehene Unfallforscher sind vor den Tücken verzerrter Stichproben nicht gefeit. Ein zentraler Abschnitt des berühmten Buches „Normale Katastrophen“ von Charles Perrow (1987) enthält diesen Text: „Die meisten Schiffskollisionen, von denen ich geeignete Unfallberichte ausfindig machen konnte, ereigneten sich zwischen Schiffen, die sich zunächst nicht auf Kollisionskurs befanden, sondern erst zusammenstießen, nachdem mindestens einer der Kapitäne das andere Schiff entdeckt und daraufhin seinen Kurs geändert hatte… Was um alles in der Welt bringt die Kapitäne riesiger Schiffe dazu, Kursänderungen in letzter Minute anzuordnen, die dann überhaupt erst eine Kollision verursachen?“

Perrow folgert aus den Daten, dass Ausweichen die Kollisionsgefahr erhöht. Dabei zieht er nur die Fälle in Betracht, in denen es schief gelaufen ist. Die Lage lässt sich aber nur dann richtig beurteilen, wenn der Blick über die verzerrte Stichprobe hinausgeht — hin zu einer passend definierten Grundgesamtheit. Was nämlich nicht in seiner Rechnung erscheint, sind die Beinahekollisionen, bei denen die Ausweichmanöver erfolgreich waren oder ohne Nachteil unterblieben sind.

Versuchen Sie doch einmal, durch Blickfelderweiterung zu einer besseren Interpretation der Daten zu kommen. Meinen Versuch finden Sie im Aufsatz „Denkfallen — Klug irren will gelernt sein“.

Veröffentlicht unter Statistik, Umfragen, Verzerrte Stichprobe | Verschlagwortet mit , , , , , | 3 Kommentare

Wundersame Geldvermehrung

Der „Sündenfall“: Zentralbanken kaufen Staatsanleihen

Der Tagesspiegel meldete am 11.05.2010 unter dem Titel „Eine Institution bröckelt“: „Die Europäischen Zentralbank (EZB) kauft erstmals Staatsanleihen… damit finanziert sie indirekt die Schulden, die Griechenland und andere in Bedrängnis geratene Länder aufgenommen haben.“

Zitiert wird der EZB-Rat und Bundesbank-Chef Axel Weber. Weber habe gesagt, dass der Ankauf „erhebliche stabilitätspolitische Risiken“ berge und dass es jetzt darauf ankomme, die Risiken so gering wie möglich zu halten. Die Ankäufe seien eng begrenzt und zielten allein darauf ab, „die Funktionsfähigkeit der Anleihemärkte und des geldpolitischen Transmissionsprozesses wiederherzustellen“.

Der Leser bleibt verunsichert zurück: Einerseits bröckelt eine Institution, aber andererseits ist es nicht so schlimm; die Funktionsfähigkeit der Anleihemärkte kann ja wieder hergestellt werden. Wer wissen will, wie schwerwiegend das Geschehen tatsächlich ist, muss sich ein paar grundlegende Elemente der Volkswirtschaftslehre vor Augen führen, insbesondere das Prinzip der Geldmengenkontrolle.

Hauptaufgabe der Zentralbanken ist die Sicherung der Preisniveaustabilität. Diese Aufgabe erfüllen sie vor allem durch die Festlegung von Mindestreserven für die Geschäftsbanken und durch die Festlegung der Leitzinsen.

Auf dem Geldmarkt hängt die Nachfrage nach Geld vom Zinsniveau einerseits und von der Wertschöpfung der gesamten Wirtschaft andererseits ab. Die Erhöhung von Mindestreserven und Leitzinsen wirkt sich gegenläufig auf die Geldmenge aus: Darlehen und Kredite werden teurer und die Geldmenge sinkt. Und das wiederum wirkt dämpfend auf das Preisniveau.

Bei – gemessen an der Wirtschaftsleistung – zu geringer Geldmenge und darbender Wirtschaft erniedrigt die Zentralbank die Leitzinsen. Das ermöglicht den Geschäftsbanken, Geld  zu niedrigeren Zinssätzen auszugeben – Geld, das die Unternehmen dann für Investitionen zur Verfügung haben. Ein unerwünschter Nebeneffekt der erhöhten Geldmenge ist, dass die Preise tendenziell steigen. Eine Erhöhung der Leitzinsen bewirkt das Gegenteil.

Wir haben es also mit einem Regelkreis zu tun, der durch die negative Rückkopplung über die Leitzinsen und Mindestreserven stabilisiert wird. Wesentlich dabei ist, dass die Zentralbank genau in dem besprochenen Sinnen funktioniert. Der folgende Wirkungsgraph zeigt den Regelkreis der Geldmengenkontrolle.

Regelkreis der Geldmengenkontrolle

Zu den Schuldenmachern gehören die Staaten: Sie können sich auf dem freien Markt Geld besorgen, indem sie Staatsanleihen auflegen. Staaten wie Griechenland, die dringend an Geld kommen müssen, besorgen es sich über Staatsanleihen mit weit über dem Durchschnitt liegenden Zinsangeboten; das wiederum führt zu einer nicht mehr tragbaren Staatsverschuldung.

Wenn nun die Zentralbank zur Abwendung des Staatsbankrotts die Staatsanleihen kauft, bricht sie den Regelkreis der Geldmengenkontrolle auf: Die Zentralbank gibt ihre Souveränität und Steuerungskompetenz teilweise auf und macht sich zum Opfer möglicher Umschuldungsmaßnahmen. Die Steuerungsparameter, also Leitzinsen und Mindestreserven, verlieren an Wirksamkeit. Wegen des überhöhten Zinses, den nun ja die Zentralbank erbringen muss, wird Geld geschaffen, das nicht mehr durch die Wertschöpfung gedeckt ist. Bei Fortsetzung dieses Prozesses droht Inflation.

In dem Tagesspiegel-Artikel kommen Experten zu Wort, die die Verpflichtung der Europäischen Zentralbank (EZB), Anleihen aus angeschlagenen Staaten aufzukaufen, als „Sündenfall“ bezeichnen. Man achte auf die verniedlichenden Anführungszeichen. Das klingt nach Schönfärberei: Tatsächlich schwächt die Zentralbank ihre Funktionsfähigkeit; sie macht sogar das Gegenteil dessen, was ihre Aufgabe ist. Axel Weber hat dieser Befürchtung inzwischen starken Ausdruck gegeben und ist zurückgetreten (Spiegel online, 14.02.2011).

Was sind die Folgen einer Inflation? Erspartes verliert an Wert. Es mag ja richtig sein, dass auf diese Weise diejenigen, die etwas haben, die Sparer, zu solidarischem Handeln mit den Notleidenden herangezogen werden. Allerdings irritiert, dass die Hilfeleistung um mehrere Ecken herum und für die Betroffenen ziemlich schwer erkennbar, im Halbdunkel sozusagen, geschieht.

Außerdem ist es möglich, dass die Auswirkungen des „Sündenfalls“ die Falschen treffen. Der Internationale Währungsfonds IWF meint, dass  die Inhaber solcher hoch verzinsten Staatsanleihen auf einen Teil ihrer Rendite verzichten sollten. (Der Spiegel, 14/2011, S. 60). So ließe sich eine übermäßige Geldschöpfung vermeiden. Allerdings wäre zur Zeit, wegen der bereits gekauften Staatsanleihen, auch die EZB ein Opfer dieser Maßnahme.

Unsere Probleme mit dem Unendlichen

Der oben geschilderte Prozess der Geldvermehrung bringt mich auf Ponzis Schema. Charles Ponzi hat in den Monaten Juni, Juli und August 1920 in Boston ein Schneeballsystem betrieben. Die Bezeichnung geht auf ihn selbst zurück: „I started a small snowball downhill. But it developed into an avalanche by itself.“ (Mitchell Zuckoff: Ponzi’s Scheme. 2005)

Ponzis Angebot: Man erhält auf seine Einlagen 50 % Zinsen in 45 Tagen, 100 % in 90 Tagen. Der mathematisch Geschulte wird bei einem solchen in sich widersprüchlichen Angebot stutzig: Nach doppelter Zeit sollte man deutlich mehr als das Doppelte erwarten dürfen. Aber Gier und Unmäßigkeit sind wohl Feind der gesunden Skepsis. Jedenfalls traf das Angebot auf reges Interesse, das nach den ersten Auszahlungen – getätigt aus den Einlagen der Neukunden – tatsächlich lawinenartig anschwoll. Diejenigen, die nicht rechtzeitig ausstiegen, mussten insgesamt Verluste in zweistelliger Millionenhöhe hinnehmen.

Bernie Madoff hat in New York ein Schneeballsystem sogar über vier Jahrzehnte lang bis Ende 2008 betrieben (Andrew Kirtzman: Betrayal. The life and lies of Bernie Madoff. 2009). Der Schaden belief sich schließlich auf viele Milliarden Dollar. Und das Tolle an diesem Coup: Zu den Betrogenen gehörten Adlige, Neureiche, Bankiers, Hedgefond- Manager, und selbst die Börsenaufsicht SEC (Securities and Exchange Commission) hatte versagt und mehrfach klare Hinweise auf das Betrugssystem missachtet.

Neben der Gier könnte auch eine Denkfalle daran beteiligt sein, dass wir auf Schneeballsysteme hereinfallen. Diese Denkfalle trägt den Namen Complacency und beinhaltet Sicherheitserfahrung („Es ist ja noch nichts passiert“), übersteigertes Selbstvertrauen, Überheblichkeit und Arglosigkeit.

Und dieselbe Denkfalle schnappt möglicherweise zu, wenn wir uns damit trösten, dass im Falle der Staatsanleihen alles wohl nicht so schlimm kommen werde.

Aber da ist noch ein zweiter Aspekt; er betrifft das Konzept des Unendlichen. Dieses mathematische Konzept ist äußerst nützlich, wenn wir beispielsweise Zusammenhänge in der Wirtschaft auf ihre langfristigen Auswirkungen hin untersuchen. Weil sich Systemgrößen in vielen Fällen „auf lange Sicht“ stabilisieren, werden aus komplizierten dynamischen Beziehungen schließlich einfache Gleichungen, die sich leicht untersuchen und interpretieren lassen. Die Lehrbücher der Volkswirtschaftslehre sind voll solcher Gleichungen für stationäre und stabile Fälle.

Aber schon John Maynard Keynes hat uns gewarnt: „In the long run we are all dead.“ Wenn etwas nicht mehr so recht stimmt, wie beim gestörten und aufgebrochenen Regelkreis der Geldmengenkontrolle oder beim Schneeballsystem, kann es zu einer explosionsartigen Dynamik mit verheerenden Folgen kommen. Gleichgewichtsbetrachtungen helfen dann nicht mehr weiter.

Das Umtauschparadoxon

Das Konzept des Unendlichen ist sowohl grandioser Vereinfacher als auch teuflische Falle. Es schadet nicht, sich etwas damit auseinanderzusetzen. Das Umtauschparadoxon bietet dazu Gelegenheit. Ich entnehme die Beschreibung des Paradoxons meiner Sammlung der Denkfallen und Paradoxa.

Zwei Briefumschläge enthalten Geld, einer doppelt so viel wie der andere. Ich darf einen Umschlag auswählen, und das Geld entnehmen. Danach darf ich entscheiden, ob ich das Geld behalten will oder zum anderen Kuvert wechsle. Angenommen, ich ziehe ein Kuvert und finde 100 € darin.  Eine kurze Überlegung zeigt mir, dass ich das Angebot zum Umtausch annehmen sollte: Da ich den Briefumschlag rein zufällig gewählt habe, ist die Wahrscheinlichkeit dafür, dass ich zunächst den kleineren Betrag gezogen habe genauso groß wie die Chance für den größeren Betrag, also jeweils gleich ½. Den 100 €, die ich jetzt habe, stehen im Falle des Umtauschs ½ ∙ 200 € plus ½ ∙ 50 € gegenüber. Das ist eine Gewinnerwartung von 125 €, und das sind 25 € mehr als ohne Umtausch.

Widerspruch: Da es auf den Betrag nicht ankommt, hätte ich mich – ohne den Umschlag zu öffnen – gleich für den anderen Briefumschlag entscheiden können. Aber damit bin ich wieder bei der Ausgangssituation: Ich habe ja einfach nur gewählt und kann dieselbe Überlegung wie oben anstellen. Der Wechsel würde auch jetzt Gewinn versprechen, obwohl ich dann wieder beim ersten Umschlag gelandet wäre.

Veröffentlicht unter Wirtschaft | Verschlagwortet mit , , , | Ein Kommentar

Wie wissenschaftlich ist die Homöopathie?

 

Homöopathie

In der Fuldaer Zeitung vom 13. September 2010 erklärt der Allgemeinmediziner Dr. Klaus Isert, wie Homöopathie funktioniert: „Dem Körper werden Informationen auf dem energetischen Weg geliefert – nichts anderes läuft beim Satellitenempfang ab.“ Dr. Jürgen Freiherr von Rosen (Schlosspark-Klinik Gersfeld) stimmt dem zu: „Die Homöopathie liefert dem Körper Informationen – wenn er aufnahmebereit dafür ist.“ Und die Experten sind sich in einem Punkt einig: „Wasser hat ein Gedächtnis.“

Sollten Sie diese Aussagen nicht verstanden haben, hilft Ihnen vielleicht dieser Kurzkurs in Sachen Homöopathie weiter: Aufgestellt wurde diese Therapieform von Samuel Hahnemann (1755-1843). Die Behandlung beginnt mit einer gründlichen Untersuchung des Patienten. Sie dient der Repertorisierung. Dabei wird das Krankheitsbild ermittelt und mit den Arzneimittelbildern, das sind die Symptome, die die jeweiligen Mittel an Gesunden hervorrufen, verglichen. Ausgewählt wird nach dem Simile-Prinzip dasjenige Mittel, dessen Arzneimittelbild dem Krankheitsbild am ähnlichsten ist (Homöopathie = ähnliches Leiden). Allerdings wird das Mittel nicht pur, sondern stark verdünnt verabreicht. Der Grad der Verdünnung, ausgedrückt in Potenzen, ist meist so extrem, dass in dem Lösungsmittel (Wasser oder Alkohol) keinerlei Spuren der Substanz mehr vorhanden sein können. Der Patient nimmt ausschließlich das Lösungsmittel zu sich. Und um wirksam zu sein, braucht dieses Lösungsmittel eben ein „Gedächtnis“.

Einem Wassermolekül wird im Laufe seiner Existenz eine Menge Information angeboten. Das Wasser braucht also ein ziemlich selektives Gedächtnis, wenn es die angestrebte Informationsübertragung und die damit einhergehende spezifische Wirkung erreichen soll. Nicht anders der Alkohol.

Die Lehre, dass Wasser und Alkohol ein Gedächtnis besitzen, stellt eine Herausforderung für die gängigen Lehrbuchweisheiten und die aktuelle Wissenschaft dar. Auf jeden Fall ist  diese umwälzende Erkenntnis nobelpreiswürdig.

Also: Was ist dran an der Homöopathie? Ist sie wissenschaftlich fundiert?

Wissenschaft

Machen wir uns erst einmal klar, was wir unter Wissenschaft verstehen wollen.

Nach Karl Raimund Popper lassen sich die empirisch-wissenschaftlichen Systeme gegenüber Mathematik und Logik und gegenüber den metaphysischen Systemen durch das Falsifizierbarkeitskriterium abgrenzen (Logik der Forschung, 1934, 1982): „Ein empirisch-wissenschaftliches System muss an der Erfahrung scheitern können.“ Dieses Abgrenzungskriterium ist eine Spielregel des Spiels empirische Wissenschaft und selbst nicht Gegenstand der wissenschaftlichen Erkenntnis.

Demnach zerfallen die Erkenntnissysteme in zwei Sparten: In wissenschaftliche und in metaphysische Erkenntnissysteme. Zu letzteren gehören die Religionen und die Pseudowissenschaften.

Nicht jeder im Rahmen eines wissenschaftlichen Erkenntnissystems formulierte Satz ist auch richtig. Denn Prüfbarkeit heißt, dass die Prüfung auch zur Widerlegung führen kann. Es gibt also einen Schatz an momentan akzeptierten Aussagen und Theorien einerseits und den wesentlich größeren „Abfallhaufen“, der im Laufe der Geschichte widerlegten Theorien andererseits. Das folgende Klassifikationsschema bietet eine Übersicht über die Erkenntnissysteme.

Klassifikation der Erkenntnissysteme

Wenn ein Gebiet – wie beispielsweise die Homöopathie – den Anspruch auf Wissenschaftlichkeit erhebt, können wir diesen Anspruch mit einigen Testfragen auf die Probe stellen.

  1. Fragen zur Generalisierung: Was genau wird behauptet? Handelt es sich um einen hinreichend allgemeinen Anspruch? (Einmalige Vorgänge und Wunder stehen nicht zur Debatte.)
  2. Fragen zur Falsifizierbarkeit: Ist der Anspruch überprüfbar? Ist er grundsätzlich widerlegbar? (Was immun gegen jeden Widerlegungsversuch ist, hat keinen Erkenntniswert.)
  3. Fragen zur Objektivität: Lassen sich Anspruch und Testergebnis verständlich und nachvollziehbar darstellen? Ist die Prüfung von unabhängiger Seite wiederholbar?

Analyse

Hahnemann hat mit der von ihm vermuteten Heilwirkung der Behandlung nach dem Simile-Prinzip und der Technik der Potenzierung eine prüfbare Hypothese formuliert, auch prüfbar nach den gängigen Regeln der klinischen Tests.

Und solche Tests wurden in großer Zahl und mit unterschiedlicher Strenge durchgeführt. Es gibt Metastudien, in denen viele dieser Tests unter Einrechnung ihrer Strenge zusammengefasst werden. Solche sind in dem renommierten Medizinfachblatt The Lancet erschienen. Noch aktuell dürfte die von Shang u.a. (2005) sein.

In dieser Metastudie wird die Wirksamkeit der Homöopathie derjenigen der „normalen“ Medikation (Allopathie) gegenübergestellt. Verlässlich nachgewiesen wird eine Risikoreduktion auf 88% im Falle der Homöopathie und auf 58% im Fall der Allopathie. Die Zusammenfassung schließt mit dem Urteil, dass die Ergebnisse der Studie mit der Auffassung verträglich seien, dass die klinischen Effekte der Homöopathie Placebo-Effekte sind.

Kurz gesagt: Die Homöopathie ist wissenschaftlich begründet, also grundsätzlich prüfbar; aber sie besteht die Prüfung nicht.

Die Vertreter der Homöopathie können dieses Urteil nicht akzeptieren. Sie sehen den Standard für klinische Tests, die placebokontrollierte randomisierte Doppelblindstudie, als nicht geeignet für die Homöpathie an, da diese Tests der Ganzheit des lebenden Menschen und dem individuellen Krankheits- und Heilungsverlauf nicht gerecht würden. Sie favorisieren die Einzelfallstudie. Nur so könne die individuelle Wahl und erforderlichenfalls der Wechsel der Arznei in Abhängigkeit vom Symptomverlauf berücksichtigt werden.

Es fragt sich allerdings, wie in den Einzelfallstudien der Misserfolg festgestellt werden soll, wenn es zum Prinzip gehört, dass erforderlichenfalls „weitere Interventionen anhand der aktuellen Symptomatik“ erfolgen (Friedrich Dellmour). Durch dieses Hintertürchen entzieht sich die Therapie jeglicher Widerlegung. Und damit verliert die Homöopathie den Status der Wissenschaftlichkeit.

Die Karl und Veronica Carstens-Stiftung, deren zentrale Aufgabe die Förderung der Homöopathie ist, hat zum Thema Homöopathie und klinische Forschung eine Stellungnahme abgegeben.  Diese Darstellung bietet ein erstes Bild vom Für und Wider verschiedener Prüfungsansätze in der Homöopathie.

Ich komme eingedenk der Argumente der Befürworter zum Schluss, dass die Homöopathie entweder widerlegte Wissenschaft ist oder aber Pseudowissenschaft. Sie gehört wohl in eines der beiden grauen Kästen des Klassifikationsschemas.

Vielleicht wollen Sie selbst einmal die eine oder andere Diagnosemethode oder Therapieform der Alternativ- und Komplementärmedizin unter die Lupe nehmen und auf Wissenschaftlichkeit untersuchen. Hier ein paar Anregungen:

  • Kirlian-Photographie
  • Aroma-Therapie
  • Bachblüten-Therapie
  • Eigenblut-Therapie
  • Edelsteintherapie
  • Fußreflexzonen-Massage
  • Detox-Ausleitungsfußbad
  • Magnetfeld-Therapie
  • Neurolinguistisches Programmieren (NLP)
  • Positives Denken
  • Reiki
Veröffentlicht unter Skeptizismus, Wissenschaft und Pseudowissenschaft | Verschlagwortet mit , , , | 2 Kommentare

Korrelation und Kausalität: Sex ist gesund

Keine Angst. Jetzt kommt nicht schon wieder die Geschichte von den Störchen und den Geburten. Die ernst gemeinten Zeitungsmeldungen sind viel interessanter. In der TIME vom 21. Februar 2011 habe ich diese entdeckt: Eine britische Studie (ALSPAC) habe zum Thema Kinder und Ernährung ergeben, dass gesund ernährte Dreijährige (viel Früchte, Gemüse, Reis und Teigwaren) im Alter von achteinhalb Jahren einen höheren Intelligenzquotienten hätten als Kinder, deren Ernährung aus viel Fett, Zucker und verarbeiteten Lebensmitteln bestand. Verblüffend sei, dass eine Verbesserung der Ernährung in höherem Alter zwar die Gesundheit insgesamt verbessere, aber dass sie keinen Einfluss auf den IQ habe.

Dem Leser wird hier eingeredet, dass eine gesunde Ernährung einen direkten Einfluss auf den IQ hat. Aber eins ist gewiss: Mit Statistiken dieser Art lassen sich niemals  Ursache-Wirkungsbeziehung nachweisen. Wenn die Statistik einen Zusammenhang zwischen zwei Größen A (Ernährung) und B (Intelligenz) ergibt, dann ist möglicherweise eine Veränderung von A tatsächlich die Ursache einer Veränderung von B. Aber es kann auch umgekehrt sein. Oder aber beide Größen hängen von einer dritten Größe C ab.  Ein guter Rat ist, sich bei solchen Meldungen immer diese drei grundsätzlichen Möglichkeiten vor Augen zu führen:

  1. AB
  2. B → A
  3. CA und CB.

Die Zusammenfassung der oben angesprochenen Studie ist etwas zurückhaltender als der Zeitungsbericht. Hier ist nur von Zusammenhängen (Korrelationen) die Rede.  Aber da wir Menschen von Natur aus überall Ursache-Wirkungsbeziehungen (Kausalitäten) vermuten und suchen, kann der unvorsichtige Leser genauso auf diese Kausalitätsfalle hereinfallen wie die Redakteure der TIME.

Bei dieser Studie könnte man beispielsweise die durch das Elternhaus gegebenen Voraussetzungen (C) als ursächlich sowohl für die Ernährung als auch für den IQ ins Feld führen.

Die kritische Untersuchungsmethode der drei Möglichkeiten hilft, die Kausalitätsucht besser zu beherrschen, auch wenn die Welt tatsächlich viel komplexere Abhängigkeiten zu bieten hat. Hier noch ein Beispiel, an dem Sie diese simple Methode ausprobieren können.

Die Fuldaer Zeitung meldete am 10. Januar 1998: „Männer, die häufiger Sex haben, leben länger als Sexmuffel… Drei Forscher aus Bristol und Belfast untersuchten dazu 918 Männer zwischen 45 und 59 Jahren auf ihren Gesundheitszustand und ihre sexuellen Aktivitäten über zehn Jahre hinweg. Das Ergebnis: Bei den Männern, die die meisten Orgasmen hatten (mindestens zwei pro Woche), war die Sterblichkeitsrate nur halb so hoch wie bei denjenigen der enthaltsamsten Gruppe, die seltener als einmal pro Monat aktiv waren.“ Die Autoren der Studie schreiben in ihrem Bericht, erschienen im traditionsreichen British Medical Journal (BMJ), dass  ihre Ergebnisse im Gegensatz zu der in vielen Kulturen vertretenen Ansicht stehe, dass das Vergnügen des Geschlechtsverkehrs nur auf Kosten der Vitalität und des Wohlbefindens zu haben sei.

Auf ähnliche sonderbare Meldungen in Zeitung, Radio und Fernsehen werden Sie nicht lange warten müssen. Dann sollten Sie an die oben beschriebenen drei Möglichkeiten denken.

Übrigens kann man den Autoren der BMJ-Studie kaum einen Vorwurf machen. Hier haben die Journalisten etwas für bare Münze genommen, was wohl nicht ganz so ernst gemeint war. Die Autoren schreiben nämlich – wohl mit der Zunge in der Backe: „Der in dieser Studie beschriebene Zusammenhang zwischen Orgasmushäufigkeit und Sterblichkeit ist aus epidemiologischer und biologischer Sicht wenigstens genauso überzeugend wie viele der in anderen Studien berichteten Zusammenhänge… Auch könnten Gesundheitsprogramme in Erwägung gezogen werden, vielleicht so wie die anregende Wenigstens-fünfmal-täglich-Kampagne zur Förderung des Obst- und Gemüsekonsums – obwohl man die Zahlenvorgabe etwas anpassen sollte… Die enttäuschenden Ergebnisse von Gesundheitsförderungsprogrammen könnten hier ausbleiben, da es sich um potentiell freudvolle Aktivitäten handelt.“

Veröffentlicht unter Korrelation und Kausalität, Statistik | Verschlagwortet mit , , , | Schreib einen Kommentar

Prognosen und Singularitäten

Den Leuten, die einen Blick in die Zukunft wagen, verdanken wir wunderbare Visionen: Bücher und Filme breiten vor uns Phantasiewelten aus. Darin gibt es Roboter, die den Menschen an Kraft und Intelligenz überlegen sind. Angefangen hat es wohl 1950 mit den Kurzgeschichten „I, Robot“ von Isaac Asimov.

Noch bevor sein erster Computer funktionsfähig war, ahnte Konrad Zuse, „dass es eines Tages Rechenmaschinen geben würde, die den Schachweltmeister besiegen können“ (Der Computer – Mein Lebenswerk. 1984). Heute ist es Geschichte: Im Jahr 1996 gelang es dem Schachcomputer Deep Blue, den amtierenden Schachweltmeister Garri Kasparow zu schlagen.

Und das ist noch lange nicht alles. Die Nachricht dieses Jahres ist der Sieg des Supercomputers Watson in der US-Quizshow „Jeopardy“.

Es sieht danach aus, als würden die Phantasien Wirklichkeit. Zumindest gibt es gestandene Wissenschaftler und Unternehmer, die fest daran glauben. Sie haben sich in der Singularitätsbewegung (Singularity Movement) zusammengefunden und ziehen in letzter Zeit ziemlich viel Aufmerksamkeit auf sich. Die Wochenzeitung TIME widmet ihr in der Ausgabe vom 21. Februar 2011 einen großen Bericht.

Auskunft über das Wesen der Bewegung erhalten wir von Ray Kurzweil, ihrem zurzeit wortmächtigsten und einflussreichsten Vertreter. Zentral in Kurzweils Argumentation ist eine Grafik; darin sind 49 Rechner und Computer des zwanzigsten Jahrhunderts nach ihren Erscheinungsjahren erfasst. Jede der Maschinen wird in der Grafik durch einen Punkt repräsentiert, dessen Lage durch die Anzahl der Instruktionen pro Sekunde festgelegt ist, die man für jeweils 1000 Dollar erhält. Kurzweil vergleicht diese Punktwolke mit dem Gesetz von Moore, das schon seit einigen Jahrzehnten als relativ stabile Aussage über das exponentielle Wachstum der Computerleistung gilt.

Kurzweil weist darauf hin, dass das Gesetz von Moore wohl für die integrierten Schaltungen gelte, aber dass es von der Mechanik über die Relaisschaltungen, die Röhren- und Transistortechnik bis hin zu den integrierten Schaltungen eine Reihe von Technologiewechseln gab und dass das Wachstum über alle diese Phasen hinweg sogar stärker als exponentiell sei.

Kurzweil veranschaulicht den Effekt der wachsenden Wachstumsrate („law of accelerating returns“) in einer Grafik. Durch die Punktwolke der logarithmisch über der Zeit aufgetragenen Rechnerleistungen legt er einen flotten aufwärts gerichteten Bogen. Er verlängert den Bogen weit über die Punktwolke hinaus und dehnt diesen kühnen Nike-Schwung auf das 21. Jahrhundert aus. Die folgende Grafik basiert auf Kurzweils Daten (Homo s@piens von 1999 und www.kurzweilai.net/the-law-of-accelerating-returns).

Darrell Huff (How to lie with statistics, 1954) nennt so etwas „Gee-Whizz Graphs“: grafisch aufgedonnerte Banalitäten.

Wachsendes Wachstum

Das Bild lässt nach Meinung der Singularitätsanhänger klar erkennen, ab wann der Computer den Menschen bezüglich Intelligenz überflügeln und dann an dessen Stelle die kulturelle Evolution vorantreiben werde. Es geschehe in etwa ab dem Zeitpunkt, zu dem die Wachstumskurve die Gerade „Mensch“ schneidet, also ab 2023. Danach werde es ziemlich bald zu einer Singularität kommen – zu einem Bruch in der Geschichte der Menschheit aufgrund des raschen und grundlegenden technischen Wandels.

Derartige punktgenaue Prognosen sind eigentlich eine Angelegenheit der Weltuntergangspropheten. Diesmal soll der Knall nach oben losgehen.

Kurzweils Daten habe ich nicht im Detail überprüft. Aber ich will doch kurz auf ein paar Dinge eingehen, die mir im Vorübergehen aufgefallen sind. Danach komme ich auf die Wachstumskurve zurück.

  1. Warum soll die Bitzählerei irgendetwas über die Intelligenz aussagen? Man weiß doch noch gar nicht, was Intelligenz überhaupt ist und wie man sie messen soll. Andererseits war bereits Zuses Z3 dem Menschen bezüglich Rechengeschwindigkeit und Genauigkeit weit überlegen. Und wer wissen will, wie weit die Wissenschaft der künstlichen Intelligenz nach Jahrzehnten größter Anstrengungen heute ist, der sollte sich diesen Artikel einmal maschinell ins Englische und dann wieder zurück ins Deutsche übersetzen lassen.
  2. Was die Kosten angeht, wird Zuses Z3 in eine Reihe mit dem IBM-PC gebracht. Aber der PC ist ein Massenprodukt und die Z3 war nie käuflich zu erwerben.
  3. Die Intelligenz des ENIAC wird höher eingestuft als die der Z3. Aber der ENIAC war, anders als die Z3, gar nicht frei programmierbar.

Nun zurück zur Wachstumskurve. Ich verrate Ihnen jetzt, wie Sie eigenhändig exponentielles Wachstum aus dem Nichts erzeugen können. Sie kennen sicherlich die Zahlenrätsel, bei denen man eine Folge von Zahlen geeignet fortsetzen soll. Die Aufgabe besteht darin, ein Bildungsgesetz für die Folge zu erkennen. Nehmen wir einmal die Folge 1, 3, 7, … Sie werden schnell erkannt haben, dass es sich um Zweierpotenzen minus eins handelt. Sie setzen diese Folge folgendermaßen fort: 1, 3, 7, 15, 31, 63, 127, 255, 511, 1023, …

Aber hoppla, es geht auch anders. Sie wissen, dass sich zu drei vorgegebenen Punkten immer ein Polynom zweiten Grades finden lässt, das diese Punkte genau trifft. Also konstruieren Sie sich ein solches Polynom. (Die unabhängige Variable durchläuft dabei die Platznummern der Zahlenfolge.) Sie erhalten jetzt die Folge 1, 3, 7, 13, 21, 31, 43, 57, 73, 91, …

Jetzt brauchen Sie nur noch die beiden Zahlenfolgen voneinander abzuziehen und können sich über dieses Resultat freuen: 0, 0, 0, 2, 10, 32, 84, 198, 438, 932, … Sie haben mit einer einfachen Funktion aus drei vorgebenen Nullen tatsächlich ein exponentielles Wachstum erzeugt. Und das können Sie noch weiter treiben. Sind Ihnen vier Nullen oder gar fünf oder sechs oder … gegeben: Stets finden Sie eine einfache Funktion, die nach diesen Anfangswerten exponentiell ins Unendliche strebt.

Ich hoffe, dieses Zahlenexperiment hat Ihr Vertrauen in kühne Prognosen etwas erschüttert.

Veröffentlicht unter Prognosen, Wissenschaft und Pseudowissenschaft | Verschlagwortet mit , | Schreib einen Kommentar

Evaluitis: Hochschulranking

Mein letzter Artikel sollte zeigen, wie schwer es ist, aus einer Statistik, die mehrere Institutionen betrifft und die in mehrere Bewertungskategorien zerfällt, eine stichhaltige Rangordnung der Institutionen zu gewinnen. Wenn das schon bei untadeligen statistischen Grundlagen wie der Kriminalstatistik gilt, wie viel ungewisser ist dann ein Ranking, wenn auch noch die Datenbasis wackelig ist.

Ein Beispiel für alltäglichen Statistikplunder ist das Hochschulranking, das vom Centrum für Hochschulentwicklung (CHE) der Bertelsmann-Stiftung in gewissen Abständen durchgeführt wird und das auflagenwirksam in den Zeitschriften des Bertelsmann-Verlags referiert wird.

Ich berichte. Wir hatten vor nicht zu langer Zeit den Fachbereich Elektrotechnik an der Fachhochschule Fulda ins Leben gerufen. Da erschien das CHE-Hochschulranking unter anderem mit dem Schwerpunkt Elektrotechnik. Wir kamen dabei sehr gut weg (Fuldaer Zeitung vom 27.1.2001). Wir waren Spitze, zumindest in Hessen. Einige Kollegen meinten, das an die große Glocke hängen zu sollen.

Massenweise wurden die einschlägigen Zeitschriften geordert, um die gute Nachricht möglichst flächendeckend unter das Volk zu bringen. Die Warnung, dass uns das noch schwer auf die Füße fallen könne, blieb im Freudentaumel ungehört.

Wir hatten unter anderem bei der technischen Ausstattung gut abgeschnitten und auch die Studenten fühlten sich gut betreut. Besonders ins Gewicht fiel die Tatsache, dass alle unsere Absolventen in der Regelstudienzeit von acht Semestern abgeschlossen hatten. Das machte unseren Fachbereich zu einem Leuchtturm in der Bildungslandschaft.

Nun ist es allerdings kein Wunder, wenn in einem frisch aufgebauten Fachbereich alle Computer in Ordnung sind. Und auch die  Betreuung funktioniert sehr gut, wenn die neu berufenen Professoren sich vor allem auf die ersten Studentenjahrgänge konzentrieren können.  Aber entscheidend ist, dass den Absolventen damals gar nichts anderes übrig blieb, als in der Regelstudienzeit fertig zu werden. Zur Zeit der Umfrage gab es den Fachbereich gerade einmal vier Jahre und die ersten Absolventen hatten nur die acht Semester des Regelstudiums zur Verfügung. Diejenigen, die den Abschluss damals nicht schafften, kamen in der Statistik nicht vor. Sie „verdarben“ dafür das Ergebnis der Folgejahre.

Auch in den Folgejahren und bis heute wird der Fachbereich Elektrotechnik der Hochschule Fulda überwiegend positiv bewertet. Doch er hat sich dem Durchschnitt etwas angenähert. Was beim Publikum hängen bleibt, ist – ungerechterweise – dieser anfängliche „Absturz“ im Ranking (Fuldaer Zeitung vom 15.4.2002).

Besonder schwer hat dieses Ranking den Fachbereich Wirtschaft in Fulda erwischt. Aber der ist wohl selber Schuld. Jahr für Jahr hatten die Professoren des Fachbereichs über die schlechte materielle und personelle Ausstattung gejammert. Kein Wunder war es dann, dass die Studenten ihrem eigenen Laden keine guten Noten gaben. Es folgte ein ziemlich großer Krach innerhalb der Hochschule, der dann unnötigerweise auch noch der Presse durchgereicht wurde. Grund für das Ganze waren nicht etwa schlechte Leistungen des Lehrpersonals sondern eine total verunglückte Öffentlichkeitsarbeit, zu der nun einmal auch das Hochschulranking gehört.

Soweit die Dinge, die mir ins Auge gefallen sind. Wenn man den Berichten aus anderen Hochschulen und den Veröffentlichungen in den zuständigen Verbandszeitschriften Glauben schenkt, ziehen sich die Datenerfassungsmängel durch das gesamte CHE-Hochschulranking.

Fazit: Die Hochschulrankings erzeugen Pseudowissen und Scheintransparenz. Im Grunde sind sie nicht besser als das Lesen im Kaffeesatz.

Zum Schluss noch etwas zum Grübeln.

Konsumforschung: Am 1. September 1999 berichtet die Fuldaer Zeitung über ein Konsum­for­schungsgutachten. Es wurde herausgefunden, dass etwa 50 Prozent der in Fulda befragten Passanten täglich und nur 25 Prozent wöchentlich in die Stadt kommen. Das wurde als ein gutes Zeichen für die Attraktivität Fuldas gewertet. Ich phantasiere nun ein bisschen: In einer anderen Stadt möge die Befragung ergeben haben, dass 40 Prozent der befragten Passanten täglich und 30 Prozent nur wöchentlich kommen. Wäre das ein Zeichen dafür, dass die „Konkurrenzstadt“ weniger attraktiv als Fulda ist? (Denkfallen: Klug irren will gelernt sein)

Veröffentlicht unter Bildungswesen, Prognosen, Schule und Hochschule, Statistik, Umfragen | Verschlagwortet mit , , | Schreib einen Kommentar

Evaluitis: Von der Statistik zum Ranking

Ohne Zweifel haben polizeiliche Kriminalstatistiken (PKS) ihren Nutzen. Fragwürdig wird die Sache erst, wenn Politik und Öffentlichkeitsarbeit ins Spiel kommen: Dann wird ausgewählt, verdichtet und grafisch herausgeputzt, bis die gewünschte Nachricht passend untermauert ist. Und das geht ganz ohne Fälschung.

Aus der polizeilichen Kriminalstatistik 2009

Der Manipulant weiß, dass sich das Publikum durch Rangfolgen leicht beeindrucken lässt. Das umfangreiche Zahlenwerk der PKS lässt sich beispielsweise zu einer Tabelle zusammenkochen. Wir erhalten eines der beliebten Rankings, hier einmal eine Sortierung der Bundesländer nach polizeilichem Aufklärungserfolg (BKA).

Solche Rankings befeuern die politische Diskussion. Sie genießen eine Wertschätzung, die ihnen genau genommen nicht zukommt. Es handelt sich meist um ziemlich sinnleere Zahlenspielereien. Ein Beispiel sind die heute so geschätzten Hochschulrankings. Aber darüber später, in einem eigenen Artikel. Hier will ich nur zeigen, wie man sich ein persönliches Ranking zusammenbasteln kann. Und dieses Ranking wird auch nicht sinnloser sein als das von interessierter Seite veröffentlichte.

Wir bleiben hier einmal bei den Kriminalstatistiken. Was bei den Kriminalitätsstatistiken funktioniert, geht auch mit beliebigen anderen Statistiken, soweit sie mehrere – womöglich gegeneinander konkurrierende – Institutionen betreffen und wenn die Bewertung in mehrere Kategorien zerfällt.

Aus Osthessen kommt diese Stellungnahme zur Kriminalstatistik 2010: „Bei einem deutlichen Straftatenrückgang von 4.4 Prozent … konnte das Polizeipräsidium Osthessen seine Rekordaufklärungsquote des Vorjahres von 63,4 Prozent noch einmal um 0,2 Prozentpunkte auf 63,6 Prozent steigern. Dies ist die beste Aufklärungsquote seit Bestehen des Polizeipräsidiums Osthessen, betont Polizeipräsident Alfons Georg Hoff anlässlich der Vorstellung der Polizeilichen Kriminalstatistik (PKS) 2010.“

Das Polizeipräsidium Nordhessen kommentiert ihre Kriminalstatistik 2010 folgendermaßen: „Neben dem kontinuierlichen Rückgang der erfassten Straftaten sinkt auch Jahr für Jahr die sogenannte Häufigkeitszahl… Gleichzeitig stieg gegenüber dem Vorjahr die Aufklärungsquote nochmals um 0,3 Prozentpunkte auf jetzt 58,2 Prozent.“ (Eckhard Sauer, Polizeipräsident)

Die Aufklärungsquoten des Jahres 2010 lassen sich der Kriminalstatistik entnehmen.

Aus der hessischen Kriminalstatistik 2010

Bei kreativer Auslegung der Statistik könnte die nordhessische Polizei im direkten Vergleich mit den osthessischen Kollegen besser aussehen. Denn: In die Aufklärungsquote gehen alle Straftaten unterschiedslos ein. Aber ist es wirklich angemessen, einen einfachen Diebstahl genauso zu werten wie einen Mord?

Hätten die Nordhessen beispielsweise jeden Mord oder Tötungsversuch 1000-fach, die sexuellen Straftaten und die Rohheitsdelikte je 100-fach und alle anderen einfach gezählt, käme für sie eine Aufklärungsquote von etwa 87 Prozent heraus, und die läge leicht über der entsprechenden Aufklärungsquote der Osthessen.

Das Beispiel mag konstruiert erscheinen. Aber es illustriert die alltägliche Praxis im Rankinggeschäft. Denn die Rangfolgen hängen ganz entscheidend von der Auswahl und Gewichtung der Einflussgrößen und Kategorien ab. Ein Musterbeispiel dafür ist die fragwürdige Auswahl und Gewichtung von Daten im Zukunftsatlas des Prognos-Instituts, der die deutschen Regionen in eine Rangordnung bezüglich ihrer Zukunftsfähigkeit bringt.

Dass die Schwierigkeiten mit Reihenfolgeproblemen grundsätzlicher Natur sind, hat der Marquis de Condorcet bereits 1758 publik gemacht (Wählerparadoxon, Condorcet-Effekt). Ian Stewart bringt in seinem Buch „Professor Stewarts mathematisches Kuriositätenkabinett“ von 2010 eine dazu passende Denksportaufgabe. Ich sags mal so: Sie werden von Ihrem Freund zu einem Würfelspiel eingeladen. Er lässt Ihnen den Vortritt und bietet Ihnen an, einen von drei Würfeln auszuwählen. Er will sich dann einen von den übrigen nehmen. Die Auswahl ist nicht trivial, denn die Augenzahlen sind etwas sonderbar: Einer der Würfel hat zwei Dreien, zwei Vieren und zwei Achten, der zweite hat zwei Einsen, zwei Fünfen und zwei Neunen, und der dritte zwei Zweien, zwei Sechsen und zwei Siebenen. Welcher der Würfel bietet Ihnen die besten Chancen, eine höhere Punktzahl zu erwürfeln als Ihr Freund? Klugerweise nehmen Sie an, dass Ihr Freund aus den verbleibenden Würfeln den für ihn günstigsten auswählt.

Veröffentlicht unter Statistik | Verschlagwortet mit , , | Schreib einen Kommentar