Gesundheitswesen schafft Krankheitsbedarf

Nach einem Schiunfall mit starker Belastung der Halswirbelsäule kam es zu Taubheitsgefühlen in der Hand. Das Urteil des in unserem Städtchen inzwischen sehr geachteten Neurochirurgen lautete: So schnell wie möglich an der Wirbelsäule operieren, möglichst innerhalb der nächsten zwei Wochen. Der Neurochirurg der Universitätsklinik einer benachbarten Großstadt kam zu einem anderen Urteil. Er fand nichts Beängstigendes. Sein Rat an den Patienten: Leben Sie weiter wie bisher.

Es entstand der Eindruck, dass die vom hiesigen Chirurgen diagnostizierte Schwere der Krankheit nur virtuell bestand und vor allem ökonomische Ursachen hatte: Die Gerätschaften der Neurochirurgie sind teuer und sie sollten möglichst nicht ungenutzt herumstehen.

Neue Krankheiten: Burnout und Liebeskummer

Das Beispiel ist Ausdruck eines bekannten und weithin diskutierten Phänomens unseres Gesundheitswesens. Es gibt gute Bücher und Artikel darüber in großer Zahl. Da muss ich mich nicht auch noch hineinhängen, dachte ich. Da las ich einen kleinen Artikel in der Fuldaer Zeitung zum Thema „Neue, versteckte Volkskrankheit“ (27 .7.2011). Gemeint war der Burnout. Und letzte Woche erschien die Zeitschrift Stern 43/2011 mit der Titelgeschichte „Liebeskummer – Das unterschätzte Leiden“.

Nach der Lektüre konnte ich nicht mehr an mich halten.

Also: Zum Leben gehören Glücksgefühle – und deren unangenehme Kehrseite eben auch. Wir sind zuweilen erschöpft oder fühlen uns ausgebrannt. So sagt uns der Körper, dass wir es etwas langsamer angehen sollen. Aber es ist keine Krankheit, die sich da meldet, sondern ein im Grunde lebenserhaltendes Warnsignal. Und auch Liebeskummer ist zwar unangenehm, aber nicht wirklich lebensbedrohlich.

Nun ist es Mode geworden, unangenehme Gefühle, die eigentlich zum Leben dazugehören, zu Krankheiten zu erklären. Daran lässt sich dann trefflich Geld verdienen. Sollte es noch jemanden geben, der noch nicht weiß, dass er eigentlich schwer krank ist und behandelt werden muss, dann gehört ihm das gesagt, und zwar möglichst drastisch. „Eine Trennung ist wie eine Amputation“ oder – noch eins draufgelegt – Liebeskummer „ähnelt der Reaktion auf eine Krebsdiagnose“. Das sind Formulierungen aus der erwähnten Stern-Titelgeschichte. So lässt sich lukrative Panik erzeugen.

Krankheiten werden erfunden. Und das hat offenbar Methode. In seinem Buch „How Doctors Think“ (2007, S. 207 ff.) schreibt der Arzt Jerome Groopman von der Erfindung einer „männlichen Menopause“ durch die pharmazeutische Industrie und über die Empfehlung an die Ärzte, bei Leistungsabfall und Müdigkeit den älteren männlichen Patienten ein Testosteron-Ersatzmittel zu verschreiben. Einige Arzneimittelhersteller meinten wohl, so Groopman, den natürlichen Alterungsprozess in eine behandlungswürdige Störung umdefinieren zu sollen.

Aber es geht nicht nur um neue Krankheitsbilder sondern auch um Übertreibungen bei der Beschreibung und Behandlung bekannter Leiden. Dazu Groopman (S. 223): Manchmal scheine es so, als würden hohe Kostenerstattungen und die Freigiebigkeit der Apparatehersteller (damit meint er die finanziellen Aufmerksamkeiten gegenüber Ärzten) die Zahl unnötiger Operationen in die Höhe treiben. Die Operationen an der Wirbelsäule seien ein herausragendes Beispiel.

„Wundert es da, dass Orthopäden an die eigene Bandscheibe zwar Wärme und die Hände einer Krankengymnastin heranlassen würden, das Messer des Kollegen jedoch scheuen?“ fragt Jörg Blech in seinem Buch „Heillose Medizin. Fragwürdige Therapien und wie Sie sich davor schützen können“ (2005, S. 160). Und den Artikel „Vorsicht, Medizin!“ im Spiegel 33/2011 schließt er mit der Bemerkung ab: „Ärzte lassen sich im Schnitt seltener operieren als der Rest der Bevölkerung“.

Die Kausalitätsfalle

Wir suchen für alles, was uns betrifft, insbesondere für alles Unangenehme, eine Ursache. Dieser Drang ist nützlich: Mit dem Aufzeigen von Ursache-Wirkungs-Beziehungen erklären wir uns die Welt und so finden wir Ansatzpunkte zur Verbesserung unserer Lage. Kein Wunder, dass dieses Kausalitätsdenken zu unserer genetischen Ausstattung gehört. Es ist ein angeborener Lehrmeister, wie Konrad Lorenz es in seinem Buch „Die Rückseite des Spiegels“ ausdrückte.

Aber das Kausalitätsdenken macht uns auch anfällig für Fehlschlüsse und Manipulation. Denn: Haben wir eine mögliche Ursache gefunden, hört die Suche nach Ursachen gewöhnlich auf. In der Kognitionspsychologie heißt dieses Verhalten lineares (oder auch eindimensionales) Ursache-Wirkungsdenken.

Und die Meinungskneter werden uns die passende Ursache schon einreden, beispielsweise wenn sie suggerieren, dass die Hektik, die Reizüberflutung, die Anforderung der ständigen Erreichbarkeit und der Terror der modernen Kommunikationsmittel den Stress hervorrufen, der schließlich zum Burnout führt.

Es ist wohl so, dass die schlechten Lebensbedingungen eine Rolle spielen und den Krankenstand erhöhen können. Demzufolge erhöhen sich die Ausgaben für das Gesundheitswesen und das medizinische Angebot wächst. Die Gesundheitsangebote wirken auf den Krankenstand mindernd zurück – mit negativem Vorzeichen also. Denn dafür sind sie ja da: zum Heilen.

Aber es gibt noch einen Weg der Rückwirkung; der ist weniger erfreulich und er destabilisiert das System. Dieser Rückkopplungspfad wird gern übersehen, denn eigentlich haben wir die Ursache für den wachsenden Krankenstand bereits gefunden; und mehr als eine Ursache brauchen wir nicht.

Schauen wir uns diesen Rückkopplungspfad (im Wirkungsgraphen rot gezeichnet) dennoch etwas genauer an.

Im Spiegel-Artikel „Jetzt mal langsam!“ (30/2011) kommt ein Personalvorstand der Firma Merck zu Wort: „Die Zahl der psychischen Erkrankungen in seinem Werk nimmt kontinuierlich zu.“ Und woran merkt er das? An den zunehmenden Behandlungen derselben: „Im Jahr 2007 registrierten seine Werkärzte in den deutschen Stützpunkten noch 127 Beschäftigte, die wegen psychosomatischer Störungen in Behandlung waren. Binnen drei Jahren hat sich die Zahl mehr als verdoppelt.“

Der Spiegel fährt fort: „Insgesamt geben deutsche Unternehmen für die Gesundheitsvorsorge ihrer Mitarbeiter rund 4,7 Milliarden Euro aus – Tendenz steigend. So verwundert es kaum, dass rund ums Thema Burnout auch eine Art Wohlfühl-Industrie entstanden ist, mit Reha-Kliniken und Ratgeberliteratur, Coaching-Agenturen und Führungsseminaren.“

Womit dann wieder hinreichend Potential für die Werbung um Patienten und die Propagierung neuer Krankheitsbilder geschaffen wäre. Der Wellness-Zirkus definiert und sucht sich seine Burnout-Opfer.

Die Rückkopplung mit positivem Vorzeichen ist hergestellt: Das Gesundheitswesen erzeugt Krankheitsbedarf.

Das unvermeidliche Resultat: Der Psychomarkt wächst. Seit zwanzig Jahren hat sich die Zahl der in Krankenäusern behandelten Menschen mit psychischen Leiden mehr als verdoppelt (Der Spiegel, 30/2011). Die Frage drängt sich auf, ob der psychische Druck wirklich wächst und dadurch mehr Menschen krank werden, oder ob nur mehr Menschen behandelt werden.

Veröffentlicht unter Korrelation und Kausalität, Nicht kategorisiert, Statistik | Verschlagwortet mit , , | Schreib einen Kommentar

Ist die Vererbung erworbener Eigenschaften möglich?

“Spectacular, spectacular/No words in the vernacular/Can describe this great event/You’ll be dumb with wonderment.” So beginnt ein Song des Musicals Moulin Rouge. Gemessen am Varieté ist Wissenschaft eine unterkühlte Angelegenheit. Aber auch Wissenschaft braucht Publikum, denn das zahlt sowieso. Es soll und will begeistert sein. Dafür gibt es dann den Wissenschaftsjournalismus, der ein wenig Varieté in trockene Materie bringt.

Daran ist nichts auszusetzen. Aber es kommt zu Übertreibungen: Mancher vermeintliche Knaller entpuppt sich beim näheren Hinsehen als Larifari. Aber wer kann das schon: näher hinsehen? Wer besitzt die Fachkenntnis, die vertretbaren Zuspitzungen von den sachlich nicht gerechtfertigten zu unterscheiden? Wir alle sind Laien auf beliebig vielen Feldern und daher grundsätzlich verführbar.

Aber auch der nur allgemein geschulte Menschenverstand findet Wege, die Spreu vom Weizen zu trennen. Und um einen solchen Weg geht es hier. Ich greife eine Schlagzeile des Magazins Bild der Wissenschaft heraus: „Die Auferstehung des Monsieur Lamarck. Organismen können erworbene Eigenschaften vererben“ (3/2011, S. 36 ff.). Und der Text des Artikels lässt keine Zweifel zu: Hier geht es nicht um niedere Lebewesen, sondern um höhere Tiere und den Menschen. Im Spiegel-Artikel „Das Gedächtnis des Körpers“ (DER SPIEGEL 32/2010, S. 110-121) liest sich das, vorsichtig in Frageform verpackt, so: „Und wäre das nicht der sensationelle Beweis für eine bis dahin kaum denkbare Art der Vererbung – Gene lernen aus Erfahrung?“

Wenn da etwas dran ist, dann ist das tatsächlich spektakulär, ein wahrer Knaller. Denn es ist seit über einhundert Jahren eingebrannte Erkenntnis der Biologen: „Da die Nachkommen aus den Keimzellen hervorgehen, haben Veränderungen in den somatischen, den Körperzellen des Tieres keinen Einfluss auf das Erbgut der Nachkommen. Genveränderungen, Mutationen, werden nur dann vererbt, wenn sie in den Keimbahnen auftreten. Es gibt also keine Vererbung von erworbenen Eigenschaften.“ (Christiane Nüsslein-Volhard in „Das Werden des Lebens“, S. 38)

Evolution beruht demnach auf Versuch und Fehlerbeseitigung; und den Antrieb dazu liefert allein der Zufall. Wir können Erlerntes nicht an unsere Kinder auf biologischem Wege, also anstrengungslos, vererben. Es geht nur kulturell und mehr oder weniger schmerzhaft durch Erziehen und Lernen. Das ist die bislang anerkannte Lehre.

Was ist unter einer „Vererbung erworbener Eigenschaften“ zu verstehen?

Im Bild-der-Wissenschaft-Artikel geht es um eine Wirkungskette, wie in der folgenden Grafik dargestellt.

Wir brauchen nicht an den Bausteinen dieser Grafik zu zweifeln: Offenbar können wir lernen, also Eigenschaft wie das Rechnen und Schreiben erwerben. Auch wurde in den Labors die epigenetische Modifikation des Erbguts nachgewiesen: Aufgrund des stofflichen Umfelds der Gene werden bestimmte Schalter umgelegt, die das Interpretieren gewisser in den Genen enthaltenen Informationen unterdrücken oder fördern. Da das stoffliche Umfeld der Gene, also zunächst einmal der Zellinhalt, auch von äußeren Einflüssen abhängt, ist es zumindest plausibel, dass die epigenetischen Veränderungen auch von außerhalb angestoßen werden können. Auch dass sich epigenetische Merkmale vererben können, scheint heute ausgemacht zu sein. Und dass sich diese vererbten genetischen Merkmale im Lebewesen wieder irgendwie bemerkbar machen können, ist wohl auch nicht weiter strittig.

Die Behauptung im Artikel sieht nun so aus: Es gibt Beispiele dafür, dass die ganze Wirkungskette durchlaufen wird und dass schließlich die erworbene Eigenschaft X und die Ausprägung Z im Nachkommen gleich sind: Z=X. Genau so muss man wohl die Aussage von der Vererbung erworbener Eigenschaften verstehen: Die Eigenschaft X wird von einem Individuum gelernt und an Nachkommen vererbt.

Kurzschlüsse

Aber was finden wir in dem Artikel: Die Beispiele betreffen immer nur einige Abschnitte der Wirkungskette. Nie wird die ganze Wirkungskette durchlaufen. Nicht vorhandene Verbindungsglieder werden sozusagen kurzgeschlossen. Und damit fehlt die zwingende Kraft der Argumentation. Die ersten sechs Beispiele sind aus dem Bild-der-Wissenschaft-Artikel und die letzten beiden sind aus dem ebenfalls bereits angesprochenen Spiegel-Artikel. Zunächst also die Beispiele aus Bild der Wissenschaft.

1. „Durch eine bleibende Umprogrammierung bestimmter Gehirnzellen kann ein frühkindliches Trauma einen Menschen zum Beispiel später im Leben anfällig für Depressionen machen.“

2. „Oder eine Überernährung im Mutterleib kann Stoffwechselzellen so verändern, dass Menschen im Alter eher zu Ty-2-Diabetes neigen.“

3. Es wurde entdeckt, „dass manche Patienten mit Prader-Willi-Syndrom – einer schweren Entwicklungsstörung – eine natürliche epigenetische Veränderung der Großmutter väterlicherseits übernommen haben, die normalerweise von den Keimzellen des Vaters überschrieben wird“.

4. „Hatten [die Väter und Großväter] vor und während der Pubertät ausreichend, aber wenig zu essen, wurden die Söhne und Enkel älter. Konnten die Väter und Großväter hingegen schlemmen, gaben sie ein gewisse Krankheitsanfälligkeit an ihre Nachfahren weiter.“

5. Entdeckt wurde mit einer großen Umfrage, „dass es das Übergewichtsrisiko von Kindern erhöht, wenn die Väter schon im Alter von zehn Jahren geraucht haben“.

6. „In dieses Bild passen Untersuchungsergebnisse von Frauen, deren Mütter während des niederländischen Hungerwinters Ende des Zweiten Weltkrieges mit ihnen schwanger waren. Der extreme Nahrungsmangel veränderte vermutlich das epigenetische Programm der gerade heranreifenden Eizellen. Denn die Kinder und sogar die Enkel dieser Frauen sind eher klein und haben ein erhöhtes Risiko für bestimmte Krankheiten.“

Nun kommen die Beispiele aus dem Spiegel-Artikel.

7. „In Experimenten an Laborratten wiesen die Montrealer [Moshe Szyf und Michael Meaney] in der Folge tatsächlich nach, dass traumatische Erlebnisse das Erbgut chemisch markieren können. Dazu untersuchten sie das Gen für einen Rezeptor, der im Gehirn Stresshormone abbaut und einem hilft, Stress positiv zu verarbeiten und gelassen auf Belastungen zu reagieren. In den Hirnzellen der umhegten Rattenjungen war dieses segensreiche Gen angeschaltet. Die Tiere waren deshalb gelassen. Bei den vernachlässigten Ratten dagegen war es anders. Das besagte Gen war verstärkt methyliert – und damit ausgeschaltet!“

8. „Die stimulierende Umwelt wirkte wie eine Medizin auf die geschrumpften Gehirne. Die Tiere schnitten im Lerntest anschießend so gut ab wie gesunde Artgenossen und konnten Gedächtnisinhalte wieder normal abrufen. Den übriggebliebenen Nervenzellen war es offenbar gelungen, den Ausfall der abgestorbenen Neuronen auszugleichen. Die Kompensation war verbunden mit epigenetischen Veränderungen der Nervenzellen des Hippocampus und der Hirnrinde.“

Kommentare zu den Beispielen

In den Beispielen 1 und 2 spielt Vererbung keine Rolle. Es geht ausschließlich um die Prägung eines Individuums.

In den Beispielen 3-6 geht es gar nicht ums Lernen, sondern darum, dass eine Störung Y mit der epigenetischen Ausprägung Z eingefangen und weitergegeben wird: Der erste Schritt der Wirkungskette fehlt. Anstelle eines Lerngegenstands steht irgendeine Ursache.

Beispiel 7 ist geradezu ein Gegenbeispiel für die Vererbung von Erlerntem. In stressfreier Umgebung besteht doch überhaupt kein Anreiz, die Stressresistenz zu stärken. Und vererbt wird die Stressresistenz offenbar auch nicht, denn davon ist in dem Artikel nicht die Rede.

Im Beispiel 8 wird gezeigt, dass die ersten beiden Schritte der Wirkungskette durchlaufen werden: Erwerb von Fähigkeiten X und die damit einhergehende epigenetische Modifikation der Erbsubstanz Y. Aber danach ist Schluss: Die Modifikation betrifft somatische Zellen, die sich außerhalb der Keimbahn befinden. Eine Vererbung der Modifikation Y findet nicht statt.

Fazit

Erlerntes mag zuweilen erblich sein. Die hier zitierten Artikel zeigen das jedoch nicht. Vom spektakulären Aufmacher bleibt bei skeptischer Betrachtung nichts übrig.

Veröffentlicht unter Biologie, Logik, Naturwissenschaften | Verschlagwortet mit , | 23 Kommentare

Ein X für ein U

Eine Bachelor/Master-Erfolgsmeldung

Wir haben Grund zur Freude. Wenigstens die Nachrichten über die Studienreform – die Einführung der Bachelor/Master-Studiengänge – hellen unseren ansonsten durch Katastrophenmeldungen über Staatsverschuldungen und weitere Misslichkeiten eingetrübten Alltag etwas auf. So schreibt Jan-Martin Wiarda in seinem Beitrag „Vor dem Sturm“ (DIE ZEIT, Nr. 32, 4. August 2011, S. 67): „Um zu begreifen, wie weitreichend die Effekte der Reform sind, genügen ein paar Zahlen: Laut jüngsten Erhebungen des Statistischen Bundesamtes verstreichen vom Studienstart bis zum Masterabschluss im Schnitt 10,5 Semester – anderthalb Semester beziehungsweise ein Achtel weniger Zeit als beim Erwerb das alten Diploms.“

Die Zahl von 10,5 Semester vom Studienstart bis zum Masterabschluss hat der Autor offenbar aus der Tabelle 3.3.3 der „Statistische Daten zur Einführung von Bachelor- und Masterstudiengängen Wintersemester 2010/2011 – Statistiken zur Hochschulpolitik 2/2010“, herausgegeben von der Hochschulrektorenkonferenz (HRK), Bonn, November 2010 (www.hrk.de, www.hrk-nexus.de). Die Zahl besagt, dass im Berichtsjahr 2008 alle Master-Absolventen die Regelstudienzeit von zehn Semestern nur um ein halbes Semester überschritten haben. Die Ingenieurwissenschaftler stechen aus der Masse der Studenten durch besonders unbändiges Studieren hervor: Sie kamen mit einer mittlerem Gesamtstudiendauer von 9,8 Semestern aus und blieben damit sogar noch unter der Regelstudienzeit. Demgegenüber musste derjenige, der nicht im gestuften System studiert, mit einer um wenigstens zwei Semester längeren Studiendauer rechnen.

Das ist doch Grund zu jubeln. Oder?

Wir halten inne und vergegenwärtigen uns, dass die Einführung der neuen Studiengänge gerade erst geschehen ist. Im vergangenen Jahrzehnt wurde im Laufe des Bologna-Prozesses das alte System mit seinen Diplomen und Magistern Schritt für Schritt durch das neue ersetzt. Dementsprechend hat die Zahl der durch die Reform betroffenen Studienanfänger Jahr für Jahr zugenommen.

Wer heute mit dem Masterstudium fertig wird, gehört mit großer Wahrscheinlichkeit zu den „frühen Vögeln“ des (Master-)Studienanfängerjahrgangs von vor zwei Jahren. Diese „frühen Vögel“ haben allesamt eine optimale Studiendauer von zwei Jahren. Dazu gesellen sich die Nachzügler des Jahres zuvor. Diese Nachzügler verschlechtern den Durchschnitt der Studiendauer etwas, aber nicht allzu sehr, denn sie rekrutieren sich aus einem deutlich kleineren Jahrgang als die „frühen Vögel“. Noch ältere Jahrgänge, die zur Verschlechterung des Durchschnittswerts beitragen können, sind noch stärker unterrepräsentiert. Eine niedrige mittlere Studiendauer der heutigen Masterabsolventen ist so zumindest zum Teil erklärbar.

Modellrechnung und Analyse

Ist es wirklich die mittlere Studiendauer der Absolventen, die uns interessiert? Nein! Die mittlere Studiendauer muss sich – wenn sie halbwegs aussagekräftig sein soll – auf die Kohorte derjenigen Studenten beziehen, die zur selben Zeit das Fachstudium angefangen haben, und nicht etwa auf diejenigen, die zur selben Zeit ihre Prüfung ablegen. Letzteres wird berichtet und für ersteres ausgegeben. Uns wird ein X für ein U vorgemacht.

Natürlich ist es nicht leicht, die Daten für die Kohorte zu bekommen: Man muss warten, bis auch der letzte fertig ist oder aufgegeben hat. Und das kann dauern und erfordert die mühsame Verfolgung von Einzelschicksalen. Also lässt man es sein.

In Zeiten des gleichmäßigen Betriebs, also dann, wenn die Zahl der Studienanfänger über die Jahre konstant und die Studienbedingungen gleich bleiben (der Ingenieur spricht vom eingeschwungenen Zustand), verschwindet der Unterschied zwischen der mittleren Studiendauer der aktuellen Absolventen und derjenigen einer Kohorte. Andererseits führen Übergangsphasen wie zurzeit zur Diskrepanz zwischen den Zahlen: In der Einführungsphase wird die kohortenbezogene mittlere Studiendauer durch die mittlere Studiendauer eines Absolventenjahrgangs systematisch unterschätzt.

Als Regelstudienzeit des Masterstudiums setzen wir für unsere Modellrechnung vier Semester an, also zwei Jahre. Außerdem nehmen wir an, dass die Hälfte einer Kohorte in der Regelstudienzeit fertig wird. Von den restlichen fünfzig Prozent möge erneut die Hälfte nach einem weiteren Jahr fertig werden. Und so weiter. Bei diesem einfachen Modell kommt für eine Kohorte eine mittlere Studiendauer heraus, die ein Jahr über der Regelstudienzeit liegt: das Studium dauert im Mittel also sechs Semester. Eine Überziehung der Regelstudiendauer um durchschnittlich ein Jahr entspricht in etwa den Erfahrungswerten im alten System (also vor Einführung der gestuften Studiengänge).

Ergebnis der Modellrechnung

Das Modell habe ich einmal auf die jährlichen Studienanfängerzahlen (erstes Fachsemester) seit Einführung des Masters angewendet. Die Grafik zeigt das Ergebnis. Wichtig sind bei diesem Modell nur die relativen Jahrgangsbreiten. Eine bestimmte prozentuale Verringerung dieser Anfängerzahlen um die Studienabbrecher ändert nichts am Ergebnis.

Im ersten regulären Abschlussjahr sind die Studiendauern optimal: zwei Jahre – also Regelstudienzeit – für alle. In den Anfangsjahren erhöhen sich die (prognostizierten) Studienanfängerzahlen nicht dramatisch. Dadurch gewinnen die Nachzügler an Gewicht und die mittlere Studiendauer der Absolventen steigt an. Aber sie bleibt deutlich unter dem Gleichgewichtswert von drei Jahren. In den Jahren ab 2007 erhöhen sich die Studienanfängerzahlen sprunghaft. Daraus folgt nun, dass die mittlere Studiendauer der Absolventen ab 2009 wieder absinkt.

Wir vergleichen die Prognose des Modells mit den Daten der HRK-Veröffentlichung. Dort steht, dass die Absolventen des Jahres 2009 allein für das Masterstudium eine mittlere Studiendauer von 4,6 Semestern benötigten. Da es neben den viersemestrigen auch dreisemestrige Masterstudiengänge gibt, kann man also von einer Überschreitung der Regelstudienzeit durch diese Absolventen um etwa ein Semester ausgehen. Das stimmt  mit dem durch das einfache Modell prognostizierten Wert recht gut überein.

Wir können also auch für die gestuften Studiengänge mit ähnlichen Studienverläufen und Studiendauern rechnen wie bei den alten Studiengängen, auf lange Sicht gesehen also mit einer Studienzeitverlängerung um ein Jahr bzw. zwei Semester je Studiengang.

Da die Studienzeitverlängerung aber einmal für das Bachelor-Studium anfällt und danach auch noch für das Masterstudium, führt das gestufte Studium tendenziell zu einer Studienzeitverlängerung gegenüber dem alten System. Dabei ist noch nicht einmal eingerechnet, dass das Bachelor/Master-System aufgrund der divergenten Zielsetzung des Bachelor-Abschlusses – Berufsqualifizierung einerseits und Vorbereitung auf die Wissenschaftslaufbahn andererseits – ineffizienter ist als ein durchgängiges Studium.

Weitere Widersprüche

Ich komme auf die Erfolgsmeldung am Anfang des Artikels zurück. Die Zahlen sind zu gut, um wahr zu sein.

Wir setzen die genannte Zahl in Beziehung zu weiteren Daten der HRK-Veröffentlichung: Die Fachstudienzeiten für Bachelor und Master zusammengenommen addieren sich auf 11,2 Semester für alle Studierenden der gestuften Studiengänge und auf 11,7 Semester bei den Ingenieurstudiengängen. Selbst wenn die Masterstudenten im Schnitt das Bachelorstudium etwas schneller beenden als die anderen, ergeben sich kaum weniger als 11 Semester für die mittlere Studiendauer der Absolventen und nicht 10,5.

Meine Anfrage an die HRK, was bei der Ermittlung der mittleren Studiendauer für das gesamte Bachelor-Master-Studium eigentlich gezählt worden ist, wurde nicht beantwortet. Stattdessen wurde ich auf das Statistische Bundesamt als Quelle der Datensammlung verwiesen. Von dort habe ich bislang keine Antwort auf meine Anfrage erhalten. Sollte sie noch eintreffen, werde ich im Diskussionsforum darüber berichten.

Stellvertreterstatistiken

Die Bachelor/Master-Erfolgsmeldung ist ein Musterbeispiel für Stellvertreterstatistiken. Darrell Huff spricht im berühmten Büchlein „How to Lie with Statistics“ von „Semiattached figures“. Dem Datenmanipulanten gibt er den Rat: Wenn du nicht beweisen kannst, was du beweisen willst, dann demonstriere etwas anderes und behaupte, es sei dasselbe. Hier ein paar Beispiele aus meiner Sammlung:

Wenn du nicht zeigen kannst, wie oft die Bewohner der Region in die Stadt kommen, dann zeige, dass die, die da sind, oft kommen und behaupte, dass das auch für die Bewohner der Region gilt. (Dieses Beispiel aus der Konsumforschung kennen Sie bereits aus einem meiner früheren Artikel.)

Wenn du nicht feststellen kannst, ob unter den heutigen Menschen der Burnout grassiert, dann berichte stattdessen über die stark zunehmenden Aktivitäten zur Bekämpfung des Burnouts und behaupte, dass diese Zunahme für wachsenden Stress in Alltag und Beruf spricht (DER SPIEGEL, 30/2011, S. 58 ff.).

Wenn du nicht erkennen kannst, welche Fachbereiche an den Hochschulen gute Forschung machen und welche nicht, dann zähle die eingeworbenen Drittmittel und behaupte, dass ein hohes Maß an Drittmitteln für gute Forschung steht.

Wenn du nicht weißt, wie gut die Professoren an deiner Hochschule in der Forschung sind, dann miss die Längen ihrer Publikationslisten und nimm diese Zahlen zum Maßstab für die Bedeutung der Forscher.

Und so weiter. Die Zeitungen und Wissenschaftsjournale sind voll von dem Zeug.

Ich erinnere mich an ein Erlebnis aus meiner Zeit in der Industrie: Der Forschungsmanager rief zur Steigerung der Reputation seines Instituts seine Mitarbeiter dazu auf, ihre Forschungsergebnisse möglichst mehrfach zu veröffentlichen. Sie mögen nur darauf achten, dass die Bilder immer etwas anders aussehen, so dass die Mehrfachverwertung nicht so auffällt.

 

Veröffentlicht unter Bildungswesen, Schule und Hochschule, Statistik, Stellvertreterstatistik | Verschlagwortet mit , , | Ein Kommentar

Size matters

Spektakuläres aus der Wissenschaft

„Koreanische Wissenschaftler haben eine neue Anwendung für die Kunst des Handlesens entdeckt – angesichts der Finger ihrer männlichen Probanden vermochten die Forscher um Kim Tae Beom vom Gachon University Gil Hospital deren Penislänge einzuschätzen. Je kleiner der Quotient aus den Längen von Zeige- und Ringfinger der rechten Hand, desto stattlicher der Penis, berichten die Wissenschaftler…“ So steht es im Nachrichtenmagazin „Der Spiegel“ unter dem reißerischen Titel „Finger verrät Penislänge“, Ausgabe 27/2011, Seite 120.

Da haben wir wieder einmal eine jener vermeintlich spektakulären wissenschaftlichen Entdeckungen, die von den Medien so gerne an die große Glocke gehängt werden. Für Partygespräche mag so etwas gut sein. Aber was steckt dahinter? Ist es für den Hausgebrauch – im Swingerclub beispielsweise – von irgendwelchem Nutzen? Sehen wir doch einmal genauer nach.

Was wurde tatsächlich herausgefunden?

Der Spiegel gibt die qualitativen Aussagen des Originalartikels „Second to fourth digit ratio: a predictor of adult penile length“ korrekt wieder. Aber solche qualitativen Aussagen sind im Grunde belanglos.

Grundsätzlich liefern statistische Studien quantitative Ergebnisse, die etwas darüber aussagen, wie groß und wie deutlich der gefundene Effekt ist. Wenn wir verstehen wollen, was bei der Studie, über die hier berichtet wird, wirklich herauskam, müssen wir uns demnach mit Zahlen beschäftigen. Etwas Mathematik ist zum Verständnis unerlässlich. (Die Mathematik, von der hier die Rede ist, sollte zumindest zukünftig zur mathematischen Allgemeinbildung zählen.)

Es geht um den statistischen Zusammenhang zweier Größen. Aus der Stichprobe der 144 Männer wurden für die untersuchten Größen Schätzwerte für Mittelwert (Erwartungswert) und Standardabweichung ermittelt. Die folgende Tabelle zeigt diese Werte.

In der Studie ermittelte statistische Kenngrößen

Den Zusammenhang zwischen den beiden Größen beschreibt der Korrelationskoeffizient. Die Studie ergab den Wert r = −0.216.

Ein kleines Experiment

Was sagen uns diese Zahlen über Größe und Deutlichkeit des Zusammenhangs? Um das zu klären, schiebe ich ein kleines Rechenexperiment ein, das sich mit einem ganz normalen Tabellenkalkulationsprogramm (beispielsweise Excel) durchführen lässt: Regression.xls.

Die Deutlichkeit des Zusammenhangs lässt sich daran ermessen, inwieweit sich das gefundene Ergebnis von einem reinen Zufallsfund abhebt. Wir gehen also erst einmal von der Hypothese aus, dass es keinen Zusammenhang zwischen den beiden untersuchten Größen gibt (Nullhypothese). Für unser kleines Experiment nehmen wir an, dass die Größen einer Normalverteilung unterliegen. Durch Mittelwert und Standardabweichung sind die den Größen zugeordneten Zufallsvariablen eindeutig bestimmt.

Ich erzeuge eine Stichprobe aus 144 Wertepaaren der uns interessierenden Größen mit dem Zufallsgenerator und trage diese in eine xy-Grafik ein — auf der x-Achse die Werte der Einflussgröße (Quotient der Fingerlängen, Digit ratio) und auf der y-Achse die jeweils zugehörigen Werte der Zielgröße (Penislänge, Penile length).

Die Regressionsgerade (linearer Trend) hat eine Steigung, die proportional zum ermittelten Korrelationskoeffizienten ist. Wohlgemerkt: Die Wertepaare sind jeweils voneinander statistisch unabhängig und der Korrelationskoeffizient ist nach den Regeln der Wahrscheinlichkeitsrechnung gleich null. Wegen der endlichen Stichprobengröße ergeben sich Zufallswerte, die meist ein wenig von null abweichen (vorgetäuschte Korrelation).

Nach ein paar Experimenten (etwa zehn bis zwanzig Neuberechnungen des Arbeitsblattes) erscheint eine Grafik, die derjenigen der Originalveröffentlichung verblüffend ähnlich sieht. Der Korrelationskoeffizient beträgt in dem von mir gefundenen Fall sogar -0.26. Das folgende Bild zeigt links mein Ergebnis und rechts das der Studie.

Ergebnisse des Computerexperiments (links) und der Studie (rechts)

Offenbar lässt sich nicht ausschließen, dass es sich bei dem Ergebnis der Studie um einen reinen Zufallsfund handelt.

Die Autoren haben ihr Ergebnis als signifikant (nur ein anderes Wort für deutlich) eingestuft, sehen es also nicht als Zufallsfund an. Dabei legen sie, wie in solchen Studien üblich, ein Signifikanzniveau von 5% zugrunde. Das heißt: Unter zwanzig Zufallsergebnissen findet sich im Mittel eins, das in diesem Sinne signifikant ist. Oder so: Der Zufall produziert mit 5-prozentiger Wahrscheinlichkeit „signifikante“ Ergebnisse.

Als Faustregel kann gelten: Wenn das Quadrat des Korrelationskoeffizienten, das sogenannte Bestimmtheitsmaß, den Kehrwert des um eins verminderten Stichprobenumfangs um wenigstens den Faktor vier übersteigt, dann ist der Zusammenhang signifikant auf dem 5%-Niveau. Bei der hier vorliegenden Stichprobengröße von 144 und dem Korrelationskoeffizienten r = −0.216 ist die Bedingung erfüllt.

Die Faustregel sagt uns darüber hinaus, dass mit sehr großen Stichproben auch ziemlich kleine Korrelationen deutlich erkennbar sind. Ich komme noch darauf zurück.

Interpretation der Grafiken und der Zahlen

Selbst wenn Zweifel bleiben: Wir nehmen das gefundene Ergebnis als einen deutlichen Hinweis auf den Zusammenhang. Das fällt auch deshalb leicht, weil dem Bericht über die Studie zu entnehmen ist, dass es kein Fishing for Significance gegeben hat: Es wurden also nicht viele verschiedene Einflussgrößen (Länge der Nase, Schuhgröße, Größenverhältnisse aller möglichen Finger- und Zehenpaarungen, usw.) untersucht und aus der Menge der Befunde dann der mit dem deutlichsten Zusammenhang ausgewählt. Bei einem solchen Vorgehen wäre es nämlich nahezu unausweichlich, einen zufällig vorgetäuschten „signifikanten“ Zusammenhang zu finden.

Aber wie steht es um die Größe des Einflusses? Da sieht es tatsächlich ziemlich mager aus: Das Quadrat des Korrelationskoeffizienten, das Bestimmtheitsmaß also, ergibt für die Studie den Wert 4.7%.

Das Bestimmtheitsmaß ist gleich dem Anteil der Varianz der Zielgröße, der durch den linearen Trend erklärt wird. Hier sind das weniger als fünf Prozent. Die Grafiken geben beredtes Zeugnis, wie wenig eine Prognose auf Basis des Größenverhältnisses der Finger mit den tatsächlich stark schwankenden Werten zu tun hat.

Fazit

Ja, es kommt auf die Größe an. Auf die Größe des Zusammenhangs. Die Studie hat einen möglicherweise tatsächlich vorhandenen Effekt gezeigt. Aber er ist winzig und für Vorhersagen unbrauchbar. In der Tat: Size matters.

Veröffentlicht unter Korrelation und Kausalität, Prognosen, Statistik | Verschlagwortet mit , , , , | Schreib einen Kommentar

Erstes Intermezzo

Nachdenken über Sinn und Zweck des Weblogbuchs

Neulich beim Mittagstisch sprachen wir über dieses Weblogbuch und ein Kollege meinte sinngemäß: Wenn man zu jedem Thema etwas sagen wolle, überhebe man sich. Zum Thema „Wundersame Geldvermehrung“ beispielsweise gebe es bereits viele gute Kommentare von Wirtschaftsfachleuten. Ein Informatiker und Ingenieur könne dazu doch kaum etwa beitragen.

Ja, dem stimme ich zu.

Dennoch: Welcher normal gebildete Bürger versteht schon alles, was in den von Experten verfassten Kommentaren steht? Und wer weiß schon, von welchen Interessen der Kommentator geleitet wird? Muss man wirklich das jeweilige Fach studiert haben, um die Dinge halbwegs zu durchschauen und sich ein eigenes Urteil bilden zu können?

Nein und noch mal nein! Wir Bürger mit unserem Alltagsverstand müssen nicht kapitulieren und den Technokraten alle Macht überlassen. Ich halte es mit dem, was Perikles in seiner berühmten Grabrede gesagt hat: „Obgleich nur wenige eine politische Konzeption entwerfen und durchführen können, so sind wir doch alle fähig, sie zu beurteilen.“ (Zitiert nach Karl R. Popper: Die offene Gesellschaft und ihre Feinde.)

Das ist für mich das wichtigste Axiom der Demokratie: Wir können über die Dinge, die uns betreffen, sachgerecht und in unserem wohlverstandenem Interesse urteilen. Gilt dieses Axiom nicht, funktioniert auch die Demokratie nicht.

Es kann in so einem Weblogbuch nicht darum gehen, den Profis ins Handwerk zu pfuschen. Aber eins geht schon: Den gesunden Menschenverstand derart schärfen, dass wir den Experten besser verstehen und den Manipulanten leichter durchschauen können. Durch Betätigung des eigenen Verstandes überwinden wir die Unmündigkeit.

Daran können wir arbeiten. Als Wahlbürger ist es genau genommen sogar unsere Pflicht. Was wir brauchen, ist nicht etwa ausgefeiltes Expertenwissen. Wir müssen nur unsere Allgemeinbildung pflegen. In diesem Weblogbuch geht es speziell um Alltagslogik, Alltagsmathematik und die Kunst, die richtigen Fragen zu stellen.

Veröffentlicht unter Intermezzo | Schreib einen Kommentar

Schöne Mathematik

Ein neuer Zweig der Mathematik entsteht

Kürzlich entdeckte ich ein populärwissenschaftliches Buch über die Anfänge der Wahrscheinlichkeitsrechnung. Es ist vom auch hierzulande beliebten britischen Autor Keith Devlin und trägt den Titel „Pascal, Fermat und die Berechnung des Glücks“ (englische Ausgabe 2008, deutsch 2009). Für Leute, die ihre mathematische Allgemeinbildung pflegen wollen, eignet es sich gut als Urlaubslektüre.

Im Zentrum des Buches steht ein Briefwechsel aus dem Jahre 1654 zwischen Blaise Pascal (ja, der mit dem „Pascalschen Dreieck“) und Pierre de Fermat (Entdecker des großen und des kleinen Fermatschen Satzes). Dieser Briefwechsel gab den Anstoß zur Entwicklung eines neuen Zweiges der Mathematik: der Wahrscheinlichkeitsrechnung. Die Wahrscheinlichkeitsrechnung ist also ein Kind der Neuzeit und sie hat sich zu einem sehr umfangreichen Zweig der Mathematik mit weitreichenden praktischen Anwendungen herausgebildet: Ohne die darauf aufbauende Risikoanalyse ist der moderne Verkehr mit Großflugzeugen, Hochgeschwindigkeitsbahnen und dichtem Straßenverkehr nicht vorstellbar, ebenso wenig das heutige Banken- und Versicherungswesen und auch nicht eine zeitgemäße Qualitätssicherung.

Gegenstand der brieflichen Auseinandersetzung zwischen Pascal (Paris) und Fermat (Toulouse) ist die Frage, wie der Einsatz unter den Beteiligten wohl aufzuteilen sei, wenn ein Spiel vorzeitig abgebrochen wird (Problem des abgebrochenen Spiels). Das umwerfende daran ist, dass hier wohl erstmals Mathematik betrieben wird, die sich nicht mit der Betrachtung des Vorhandenen und Gegenwärtigen begnügt, sondern die in die Zukunft hinausgreift: Es geht um Geschehnisse, die noch gar nicht eingetreten sind und die – da das Spiel ja nicht fortgesetzt werden soll – wohl auch nicht eintreten werden.

Machen wir das Problem konkret: Zwei Freunde, Albert und Bertrand, spielen gern und gleich gut Schach. Sie vereinbaren ein Spiel mit mehreren Partien und einem Einsatz von – sagen wir – fünfzig Euro für jeden. Gewonnen hat derjenige, der zuerst sechs der Schachpartien gewonnen hat. Die Runden ziehen sich in die Länge. Als Albert vier Runden und Bertrand drei Runden gewonnen hat, lenkt sie die gerade beginnende Fußballweltmeisterschaft vom Spiel ab. Sie fragen sich, wie sie bei Spielabbruch den Einsatz gerecht untereinander aufteilen sollen. Einfach halbe-halbe machen, das sieht auch Bertrand ein, ist ungerecht. Albert ist näher am Sieg als Bertrand: Er hätte nur noch zwei Spiele gewinnen müssen, und sein Freund immerhin noch drei. Aber wie lassen sich die Gewinnaussichten quantifizieren und in eine gerechte Aufteilung umsetzen?

Das ist im Wesentlichen die Frage, um die es Pascal und Fermat ging und für die beide ihre Lösungen austauschten. Ihre Lösungsansätze waren sehr verschieden, und sie führten zu denselben Ergebnissen: „La vérité soit la même à Toulouse qu’à Paris“. Und mit ihren Lösungsmethoden haben sie nichts Geringeres geschaffen als die moderne Wahrscheinlichkeitsrechnung. Getroffen haben sich die beiden nie.

Meinungsverschiedenheiten über Eleganz und Schönheit

Bevor ich die Lösungen skizziere, will ich sagen, worüber ich in dem Buch gestolpert bin. Devlin schreibt auf Seite 71, dass er auf eine detaillierte Beschreibung von Pascals Ansatz verzichte, „weil Fermats Lösung einfach weitaus eleganter ist“.

Oh ja, dem Mathematiker genügt es, wenn er einen allgemein gangbaren Lösungsweg vorfindet und wenn er für ein kleines und überschaubares Beispiel auch zu einem Ergebnis kommt. Auch eine schöne Summenformel mit Exponentialausdrücken und Binomialkoeffizienten findet er entzückend. Und in dieser Hinsicht ist Fermats Ansatz wohl mustergültig.

Leider geben die Briefe keine detaillierte Beschreibung der Lösungsverfahren: Pascals erster Brief ist verloren gegangen und auch Fermats Methode ist nirgends im Detail beschrieben. In beiden Fällen sind wir auf die Reflexionen Pascals angewiesen, die er hauptsächlich in seinem Brief vom 24. August 1654 anstellt.

Ich will zunächst beschreiben, welchen Lösungsweg Fermat wohl beschritten hat. (Es geht ums Grundsätzliche. Sollte Fermat es anders gemacht haben, dann nur unwesentlich.) Dabei bewege ich mich der besseren Verständlichkeit halber in unserem heutigen Begriffsgebäude. Man bedenke, dass sogar der Begriff „Wahrscheinlichkeit“ („probabilité“) in den damaligen Werken nicht in der heute gängigen Bedeutung vorkommt.

Nehmen wir einmal an, dass Albert noch zwei (a = 2) und Bertrand noch drei (b = 3) gewonnene Runden zum Sieg fehlen.

Eine Runde, die an Albert geht, bezeichnen wir mit A und eine für Bertrand mit B. Eine Folge bis zum Spielende könnte dann so aussehen: BABB. In dem Fall hat B das Spiel gewonnen. Nun listen wir alle möglichen Spielverläufe in lexikalischer Folge auf und schreiben dahinter die Wahrscheinlichkeit, mit der diese Folge vorkommt. (Voraussetzungsgemäß gewinnt jeder der Freunde eine Runde mit der Wahrscheinlichkeit 1/2).

Beispiel für Fermats Methode

Dieser Lösungsweg lässt sich verallgemeinern und es ergibt sich die oben bereits angekündigte schöne Formel für die Wahrscheinlichkeit eines Sieges für Albert. Diese Wahrscheinlichkeit sei mit e(a, b) bezeichnet. In unserem Beispiel haben wir den konkreten Wert e(2, 3)=11/16 errechnet. (Ich verzichte auf die Wiedergabe der allgemeinen Formel. Sie ist für das Folgende unwesentlich.)

Die Schönheit liegt im Auge des Betrachters, so heißt es. Und der Betrachter (Keith Devlin) ist in diesem Falle ein Mathematiker.

Mir jedenfalls, und ich sehe die Sache auch mit den Augen des Informatikers und Ingenieurs, hat Pascals Lösung, die Ausgangspunkt des Briefwechsels war, besser gefallen. Sie werden sehen, dass Pascals Methode die Werte e(a, b) mit geringerem Rechenaufwand liefert als Fermats Vorgehen, jedenfalls dann, wenn man sich für mehrere dieser Werte interessiert. (Dass für Pascal auch die praktische Anwendung der Mathematik hohen Rang hatte, sieht man an seiner bahnbrechenden Erfindung auf dem Gebiet der mechanischen Rechenmaschinen, an der Pascaline. Wer diese verstehen will, sollte bei Gelegenheit einmal mit dem Modell, das im Heinz Nixdorf MuseumsForum in Paderborn steht, experimentieren.)

Pascal bietet uns ein leicht zu verstehendes und praktisches Rechenverfahren an. Dessen Prinzip ist für die heutige Informatik grundlegend. Auch mit Pascals Ansatz lässt sich die oben erwähnte „schöne Formel“ gewinnen. Aber dazu sind mathematische Methoden notwendig, die Pascal noch nicht zur Verfügung standen.

Pascals allgemeine Methode

Mögen Albert noch a und Bertrand noch b gewonnene Runden bis zum Sieg fehlen. Das Ursprungsproblem lautet, die Wahrscheinlichkeit e(a, b) für einen Sieg Alberts zu bestimmen. Die Idee Pascals ist nun, die Werte a und b tatsächlich als variabel anzusehen. Er bettet das Problem sozusagen in eine allgemeinere Problemstellung ein und fragt nach einer Beziehung zwischen den zunächst noch unbekannten Werten e(a, b) für die verschiedenen a und b. Genau so war er ja bereits mit den Binomialkoeffizienten verfahren und ist auf das nach ihm benannte Dreieck gekommen.

Beim Spielstand (a, b) gewinnt Albert, wie stets, die nächste Runde mit der Wahrscheinlichkeit 1/2. Die Wahrscheinlichkeit, dass Albert die Runde und auch noch das gesamte Spiel gewinnt, ist demnach gleich e(a-1, b)/2, Die Wahrscheinlichkeit, dass Albert verliert und dennoch das gesamte Spiel gewinnt, ist gleich e(a, b-1)/2. Die Wahrscheinlichkeit, dass er beim Spielstand (a, b) das gesamte Spiel gewinnt, ist also gleich

e(a, b) = e(a-1, b)/2 + e(a, b-1)/2.

Damit haben wir die gesuchte Beziehung zwischen den Lösungsansätzen. Jetzt können wir die Lösungswerte berechnen, indem wir uns, ausgehend von den leicht zu ermittelnden Werten, Schritt für Schritt zu allen uns interessierenden Werten durchhangeln.

Offenbar gilt e(a, 0) = 0 für alle a: Bertrand hat bereits gesiegt. Außerdem ist e(0, b) = 1: Albert ist der Sieger. Über die Beziehung zwischen den Lösungsansätzen können wir nacheinander eine Tabelle für e(a, b) auffüllen:

Beispiel für Pascals Methode

Neben anderen haben wir wieder den Wert e(2, 3)=11/16 gefunden.

Pascals Ansatz erlaubt problemlos vielfältige Verallgemeinerungen. Also: Ich finde ihn wirklich schön.

Probieren Sie die Sache doch einmal aus: Nehmen wir einmal an, die zwei Freunde unterscheiden sich in der Spielstärke: Von je fünf Runden entscheidet im Mittel Albert drei für sich, während im Schnitt zwei an Bertrand gehen. Sie vereinbaren, dass derjenige von ihnen gewonnen hat, der sechs Runden für sich entschieden hat. In welchem Verhältnis sollten die Einsatzanteile der Freunde stehen, so dass beide eine Gewinnerwartung haben, die ihrem jeweiligen Einsatzanteil entspricht?

Antworten auf einige der noch offenen Fragen bietet das Excel-Arbeitsblatt AbgebrochenesSpiel.xls.

Anmerkung zu meinen Quellen: Neben Devlins Buch habe ich für diesen Artikel noch Aufzeichnungen von Paul-Louis Hennequin von der Universität Blaise Pascal in Clermont-Ferrand aus dem Jahre 2005 zu Rate gezogen: „Calculer des probabilités avec Blaise Pascal“. Die entscheidende Passage des Briefes Pascals an Fermat vom 29. Juli 1654 habe ich in der Schrift „Die Entwicklung des Wahrscheinlichkeitsbegriffs von 1654 bis 1718“ von Daniel Brönnimann, 24. September 2001, gefunden. Darin beschreibt Pascal seine Methode ganz einfach und klar. (Beide Schriften sind im Internet verfügbar.) Peter L. Bernstein schreibt in seinem Buch „Against the Gods“ (1996): „Fermat turned to pure algebra. Pascal was more innovative: he used a geometric format to illuminate the underlying algebraic structure“ (S. 63 f.).

Veröffentlicht unter Denksport, Prognosen, Wahrscheinlichkeitsrechnung, Wirtschaft | Verschlagwortet mit , , , | Ein Kommentar

Bauchgefühle: Je dümmer, desto klüger?

Zwei Empfehlungen und eine Warnung

Von zwei meiner Lieblingsbücher will ich berichten. Das erste – schon etwas angejahrt – ist „Das Einmaleins der Skepsis“ von Gerd Gigerenzer (2002). Es ist eine süffig formulierte und doch mathematisch überzeugende Darstellung dessen, wie unsere Intuition und alltäglichen Faustregeln (Heuristiken) uns zuweilen fehlleiten, und was wir mit etwas Logik und Mathematik dagegen tun können.

Das andere Buch ist neueren Datums (2010). Christian Hesse hat mit „Warum Mathematik glücklich macht“ 150 wunderbare mathematische Miniaturen geliefert, die auch dem mathematisch nicht übermäßig bewanderten Leser Lust auf Mathematik machen können. Der Titel ist wirklich nicht übertrieben.

Aber – hoppla! – eigentlich sind es ja 151 Miniaturen. Jedoch eine davon, die 17., sie trägt den Titel „Aus der Serie Regeln für die Faust“, ist mit erhöhter Vorsicht zu genießen. Hier finden wir nämlich einen Hinweis auf ein weiteres Buch von Gerd Gigerenzer: „Bauchentscheidungen“ aus dem Jahr 2007.

Hesse schreibt: „Die Psychologen Gigerenzer und Goldstein legten amerikanischen Studierenden an der Universität von Chicago folgende Frage vor: ‚Welche Stadt hat mehr Einwohner, San Diego oder San Antonio?’ Insgesamt 62% der amerikanischen Studenten gaben die richtige Antwort: San Diego. Das Experiment wurde anschließend in Deutschland wiederholt. Man würde vermuten, dass die Deutschen mit dieser Frage mehr Schwierigkeiten haben als die Amerikaner… Dennoch beantworteten alle befragten Deutschen – ja, 100% – die Frage richtig, obwohl sie weniger wussten. Ignoranz als Wettbewerbsvorteil? Paradox? Ja, und doch auch wieder nicht! Die Deutschen wendeten teils unbewusst die Rekognitionsheuristik an: Wenn du zwischen zwei Alternativen wählen kannst, von denen dir eine bekannt vorkommt und die andere nicht, dann entscheide dich für die bekannte.“

Wir reiben uns die Augen: Sind das nicht die Heuristiken, vor deren unkritischen Gebrauch Gigerenzer in seinem „Einmaleins“ gewarnt hat? Die Widersprüche zwischen den beiden Gigerenzer-Büchern sind derart offensichtlich, dass sich eine tiefere Analyse der Angelegenheit eigentlich erübrigt. Eine einfache Erklärung ist schnell gefunden: Hier will jemand nicht nur den Markt der Skeptiker bedienen, sondern auch den der Skepsis-Skeptiker. Der Markt der positiven Denkungsart ist allemal größer als der für kritisches und analytisches Denken. Und zum Kauf wird man schließlich ja nicht gezwungen.

Aber ein bisschen schmerzt es schon: Wir sehen, wie ein begnadeter Kommunikator auch noch die abwegigsten „Theorien“ unter das Volk bringen kann. Selbst die Zeitschrift Stern hatte den „Bauchentscheidungen“ seinerzeit einen großen Beitrag gewidmet (Stern 18/2007, S. 58-68). Darin unterstreicht Gigerenzer, dass unser Gehirn mit vielen Denkabkürzungen arbeite, die es ihm ermöglichten, „Ignoranz in Wissen zu verwandeln“.

Anekdotische Evidenz im Widerstreit

Ich greife ein Beispiel aus den Originalaufsätzen heraus, die in dem Sammelband „Simple Heuristics that make us smart“ (Gigerenzer, Todd and the ABC research Group, 1999) erschienen sind. Unter dem Titel „The Less-Is-More Effect“ wird die folgende Lage geschildert: Drei Brüder aus einem fremden Land, ich nenne sie A, B und C, bekommen eine Liste der 50 größten deutschen Städte vorgelegt. A weiß soviel wie nichts über Deutschland und kennt keine der Städte. B hat von der Hälfte der Städte schon einmal gehört und C sind alle diese Städte bekannt.

Nun werden den Dreien jeweils zwei Städte genannt, und sie sollen sagen, welche der Städte die größere der beiden ist, welche also mehr Einwohner hat als die andere. Sind beide Städte unbekannt, raten die Brüder und landen Treffer mit 50-prozentiger Wahrscheinlichkeit. Ist nur eine der Städte bekannt, wählen sie nach der Rekognitionsheuristik die ihnen bekannte. Und wenn beide bekannt sind, aktivieren sie ihr Wissen über diese Städte und entscheiden dementsprechend. Die Rekognitionsheuristik möge in 80% aller Fälle richtig liegen, und im Fall, dass beide Städte bekannt sind, verhilft das Wissen über diese Städte zu einer Trefferwahrscheinlichkeit von 60%.

Illustration des Weniger-ist-mehr-Effekts

Das obere Bild zeigt die Trefferwahrscheinlichkeit in Abhängigkeit von der Zahl der bekannten Städte. Eingezeichnet sind die sich daraus ergebenden Trefferquoten der drei Brüder. Diese Darstellung findet man im Artikel von Gigerenzer „The Recognition Heuristic“.

Klare Schlussfolgerung: Zuviel Wissen bringt nix. Der Bruder B, der nur wenig weiß und sich ansonsten auf die Rekognitionsheuristik verlässt, ist am besten dran.

Aber – hoppla! – wer sagt denn, dass die Trefferwahrscheinlichkeit bei Wissen nur 60% beträgt? Könnten es nicht auch 70% sein? Oder – noch plausibler – 80% wie bei der Rekognitionsheuristik? Und siehe da, schon haben wir ein anderes Bild (das untere). Wissen schlägt Unwissen!

Der ganze Jammer der anekdotischen Evidenz liegt nun vor uns: Hat man einen schönen Beleg für seine Lieblingstheorie, kommt ein anderer mit einem Gegenbeispiel daher, und macht das wunderbare Gebäude wieder kaputt.

Die Rekognitionheuristik hat also ihre Grenzen. Wenn wir etwas über die Anwendbarkeit der Heuristik wissen wollen, brauchen wir eine umfassende Kenntnis der Problemlage, insbesondere müssen uns die Trefferwahrscheinlichkeiten für die verschiedenen Wissensstufen zumindest näherungsweise bekannt sein. Der (gar nicht so verwunderte) Leser erkennt: Wenn ich erst mühsam und unter Nutzung umfassender Informationen errechnen muss, ob ich mich auf meine (dann gar nicht mehr vorhandene) Dummheit verlassen kann, bringt die ganze Heuristik nichts.

Bauchgefühle in der Praxis

Natürlich gibt es Fälle, in denen man auf schmaler Wissensbasis einen Treffer landet („Ein blindes Huhn findet auch einmal ein Korn“). Und manchmal bleibt uns auch gar nicht die Zeit für wohlüberlegte Entscheidungen. Dann sind wir auf unser Bauchgefühl angewiesen. In Alltagssituation funktionieren unsere Heuristiken ja auch ziemlich gut. Sonst hätten wir nicht bis heute überlebt.

Durch die Auswahl passender und die „Theorie“ bestätigender Beispiele erwecken Gigerenzer und seine Mitstreiter jedoch den Eindruck, dass Unwissenheit grundsätzlich clever ist, auch wenn die Situation nicht ganz alltäglich und die Ressourcen für wohlüberlegtes Handeln groß genug sind. Ein paar Beispiele sollen die Grenzen der Heuristiken deutlich machen und zeigen, dass in sehr vielen Fällen sorgfältiges Abwägen und die kritische Analyse mehr Erfolg versprechen.

Am besten, Sie testen die Verlässlichkeit Ihres Bauchgefühls selbst einmal anhand einer kleinen Aufgabe. Sagen Sie „aus dem Bauch heraus“, welche Stadt näher am Nordpol liegt: Berlin oder London? Wenn Sie sich über die Antwort im Klaren sind, schauen Sie auf einer Weltkarte nach. Wundern Sie sich?

Und hier eine zweite Sache: Im Doppelmord-Prozess gegen O. J. Simpson ging es auch um die Frage, inwieweit die Gewalttätigkeit des Angeklagten die Mordanklage stützt. Die Ankläger führten Simpsons Hang zur Gewalt gegenüber seiner Frau als wichtigen Hinweis an, der einen Mord an seiner Frau als wahrscheinlich erscheinen lasse. Der Verteidiger Alan Dershowitz hielt dem entgegen, dass nur wenige dieser Gewalttäter auch zu Mördern an ihren Frauen würden.

Ich lege einmal Zahlen in den damals genannten Größenordnungen zu Grunde: Es möge bekannt sein, dass unter 10 000 Männern, die ihre Frau schlagen, im Mittel einer auch zum Mörder an ihr wird. Die Wahrscheinlichkeit, dass ein solcher Gewalttäter auch Mörder wird, ist demnach gleich 1/10 000. Das Bauchgefühl sagt uns: Gewalttätigkeit ist kein starker Hinweis auf die Schuld des Angeklagten.

Aber denken wir besser einmal nach, denn hier geht es ja um Leben oder Tod. Eigentlich geht es gar nicht um die Frage, mit welcher Wahrscheinlichkeit ein „Schläger“ seine Frau schließlich ermordet. Was den Richter interessieren sollte, ist, mit welcher Wahrscheinlichkeit bei einem Mord der gewalttätige Ehemann als Täter in Frage kommt.

Die Antwort ist nicht ohne etwas Rechnung und Analyse zu haben. In Grundzügen geht die Rechnung so: In einer Gesamtheit von 100 000 Paaren mit gewalttätigem Ehemann werden im Laufe eines Jahres etwa 10 der Frauen durch ihren Ehemann ermordet. Aber Statistiken zeigen, dass die Zahl der Frauen, die einem Mord zum Opfer fallen, ohne dass der Ehemann der Täter ist, etwa ebenso groß ist. Durch Gewalt in der Ehe ist die Wahrscheinlichkeit, dass die Ehefrau einem Mord zum Opfer fällt, deutlich erhöht, bei den angenommenen Zahlen auf das Doppelte.

Die Wahrscheinlichkeit dafür, dass der Ehemann tatsächlich der Täter ist, liegt bei 50% und nicht etwa bei 1:10 000. Die Gewalttätigkeit des Ehemanns ist also sehr wohl ein starker Hinweis auf die Täterschaft, anders als zunächst „aus dem Bauch heraus“ vermutet.

Im Artikel „Glaube und Wahrheit“ (Der Spiegel 22/2011, S. 56-67) geht es um mehrere Gerichtsverfahren der jüngsten Vergangenheit, insbesondere um den Kachelmann-Prozess. Ein Gutachter und Psychologe wird zitiert, der meint, dass das schlimmste Hindernis auf dem Weg zur Wahrheit der Bauch sei: „Man muss sein Bauchgefühl immer über den Haufen werfen.“ An die Stelle müsse die wissenschaftliche Analyse treten.

Zum Schluss noch etwas aus der Politik: Der frühere US-Präsident George W. Bush ist bekanntlich jemand, der sich vornehmlich auf sein Bauchgefühl verlässt. Er mag dafür andere Namen haben: Intuition, Eingebung, Gott. Nach eigenem Bekunden brauchte er für seine politischen Entscheidungen keinen Rat, auch nicht von seinem Vater, denn er hatte dafür ja „a higher father“, wie er selbst sagte. Leider.

Veröffentlicht unter Heuristik, Wissenschaft und Pseudowissenschaft | Verschlagwortet mit , , , , | Ein Kommentar

„Schlank in 14 Tagen“ mit Skepsis betrachtet

Versprechungen

Den Bauch wegzubekommen, sei nicht einfach, sagt der Fitness-Manager. Aber er wolle, dass wir gesund bleiben. Um den Speck weg und den Bauch wieder flacher zu bekommen, biete er ein „Bauch-Fett-Weg-Programm“ nach dem Simply-Belt-Konzept an.

Diese Nachricht habe ich in der aktuellen Beilage „Wellness & Gesundheit“ meiner Tageszeitung gefunden; dort wird auch verraten, wie die Sache funktioniert: „Der Gürtel wird auf dem T-Shirt getragen – was die Anwendung noch hygienischer macht. Das Prinzip des Bauchgurts beruht auf einem Drei-Kammern-Luftsystem, bei dem der Druck von außen zur Mitte des Bauchbereiches im Wechsel in die Luftdruckkammern gepumpt wird. Damit ist nicht nur eine passive Wechselwirkung gegeben, sondern zusätzlich erfährt der Körper – wie bei der traditionellen Lymphdrainage – eine effektive, zum Kernpunkt des Körpers führende Massage… Dadurch wird die Durchblutung gefördert; die Fettsäuren können über das Blut dorthin transportiert werden, wo sie verbrannt werden – im Muskel.“

Gewiss, viele Leute empfinden sich als zu dick und zu unförmig. Eigentlich wissen sie auch, was dagegen zu tun ist: Mäßig essen und sich regelmäßig bewegen.

Bequemlichkeit und Nachlässigkeit lassen Soll und Ist, Plan und Ausführung auseinanderdriften. Wir stecken in einem Problem und leiden darunter. Und aus dieser Situation lässt sich Gewinn schlagen. Das machen dann die anderen. Sie versprechen uns, dass wir mühelos schlank werden können. Und sie sagen auch, wie.

Die einen raten uns, Mittelchen einzunehmen, beispielsweise Fatburner und Sattmacher, oder sich mit Anti-Cellulite-Creme einzuschmieren. Andere preisen ihre Diät-Ratschläge in Buchform oder auf DVD an; und wieder andere raten dazu, das von ihnen ersonnene trickreiche Gerät, den Simply-Belt beispielsweise, zu benutzen. Uns liegt an einem schlankeren Körper, die Anbieter haben vor allem unseren Geldbeutel im Visier. Skepsis ist also durchaus angebracht.

Suchmaschinentreffer auf die Anfrage "Schlank in ..."

Spaßeshalber habe ich die Google-Treffer auf die Anfragen „Schlank in x Tagen/Wochen“ erfasst (s. Grafik). Die großen Trefferzahlen gehen auf Werbeaktionen für einige wenige Buchtitel und DVDs zurück. Aber neben solchen Rennern existiert noch eine sehr große Anzahl weiterer Artikel, die auf dem Markt der Schlankheitsangebote miteinander konkurrieren.

Prüfen im Vorfeld der Wissenschaft

Die Werbesprüche für derartige Angebote suggerieren wissenschaftliche Fundierung („Fettsäuren können über das Blut dorthin transportiert werden, wo sie verbrannt werden“) und sie arbeiten mit plausiblen Analogien („erfährt der Körper – wie bei der traditionellen Lymphdrainage – eine effektive, zum Kernpunkt des Körpers führende Massage“).

Das klingt überzeugend. Aber: Was ist dran an all den Behauptungen? Was ist Tatsache, was Wunschdenken und was reine Verführungskunst? Wie kann ich vermeiden, Geld für nutzloses Zeug auszugeben?

Zunächst einmal zur Aussagekraft von Analogien: Sie werden zwar gern zur Begründung irgendwelcher okkulter Effekte herangezogen. Aber Analogien sind nur in der Phase der Ideenfindung interessant; für Beweise taugen sie prinzipiell nicht. Nach dieser Klärung sind wir zwar das eine oder andere Argument los. Aber ob das Angebot etwas taugt oder nicht, wissen wir damit immer noch nicht. Wir müssen tiefer in die Sache eindringen.

Bleiben wir beim eingangs dargestellten Beispiel. Ich will wissen, was am Simply-Belt-Konzept dran ist und halte mich an die ersten zwei Regeln gesunder Skepsis:

1. Nicht glauben, wenn man nachsehen und prüfen kann.

2. Die Beweispflicht liegt bei dem, der Außerordentliches behauptet.

Also frage ich im Fitness-Studio nach Belegen. Ich erhalte den Hinweis auf eine Studie über ein vergleichbares Produkt, genannt Slim Belly. Das Institut für medizinische und sportwissenschaftliche Beratung (IMSB Austria) hat die „ABC-one Studie 2010 – Regionale Fettverbrennung“ durchgeführt. Unter anderem wird darin ermittelt, welchen Effekt der Gürtel hat: Eine Gruppe trainiert mit, die Kontrollgruppe ohne Gürtel, bei ansonsten gleichen Bedingungen. Das ganze Experiment erstreckt sich – einschließlich Messungen – über 14 Tage.

Wie glaubwürdig ist die Quelle?

Tests auf Glaubwürdigkeit betreffen zunächst die Institution selbst, denn die Studie kann durch Verstoß gegen die Regeln sauberer Versuchsanordnung und -durchführung irreführende Ergebnisse liefern. Sie kann sogar auf bloße Täuschung angelegt sein.

3. Der Skeptiker fragt: Ist die Studie von einer angesehenen und unabhängigen Institution durchgeführt worden? Wer hat sie in Auftrag gegeben? Wer hat sie bezahlt?

Was die Reputation des Prüfinstituts angeht, habe ich im Internet nichts Nachteiliges finden können. Initiatoren der Studie sind die Erfinder des Slim-Belly-Gürtels von der Firma ABC-one. Sie begründen die Studie so: „Ziel der Studie war es … die Wirkung der Geräte Slim Belly® und Slim Back&Legs® auf die regionale Fettverbrennung zu testen und die Effizienz der beiden Produkte zu beurteilen. Und das unter streng wissenschaftlichen Rahmenbedingungen.“

Offensichtlich ist die Studie Element eines Werbekonzepts. Die offene Sprache der Publikation stimmt mich positiv, aber angesichts der Interessenlage ist weiterhin Skepsis angebracht. Wir müssen noch eine Schicht tiefer gehen und versuchen, Informationen über die Qualität der Studie zu gewinnen. Als Quelle ist zunächst nur die Studie selbst greifbar.

4. Der Skeptiker fragt: Sind Planung und Durchführung der Studie ausreichend dokumentiert? Werden die wissenschaftlichen Standards eingehalten?

Zu den wissenschaftlichen Standards gehört die umfassende Dokumentation sämtlicher Versuche zum selben Gegenstand. Macht man nämlich eine ganze Reihe von gleichartigen Versuchen, so ergeben sich rein zufällig verschiedene Resultate. Und in dieser Ergebnisvielfalt lässt sich dann sicherlich auch etwas finden, das den gewünschten Effekt besonders deutlich zeigt. Diese Ergebnisse werden dann veröffentlicht. Ein solches Fishing for Significance muss ausgeschlossen sein. Die Studie sagt nichts darüber und auch seitens der Herstellerfirma wird Fishing nicht ausdrücklich ausgeschlossen.

Zur sauberen Versuchsplanung und -durchführung gehört auch, dass die Teilgruppen (Produkt-Anwender und Kontrollgruppe) durch reine Zufallsauswahl gebildet werden. Davon ist aber in der Studie nicht die Rede. Per E-Mail habe ich beim Prüfinstitut um Auskunft zu diesem Punkt gebeten und von Dr. Alena Kos (durchführende Ärztin und Anthropologin) am 4.5.11 diese Antwort erhalten: „Die Auswahl und die Zuteilung der jeweiligen Personen in die Gruppen mit Slim Belly/Slim Back&Legs und Kontrollgruppe haben wir nicht selber bestimmt. Dieses wurde von den Organisatoren der Studie [die Herstellerfirma ABC-one] entschieden.“

Dafür, dass bei dieser Studie die wissenschaftlichen Standards womöglich nicht eingehalten worden sind, ist also die Herstellerfirma verantwortlich. Die Tätigkeit des Prüfinstituts beschränkte sich offenbar auf die Anthropometrie und die statistische Auswertung.

Auf die möglichen Probleme bezüglich Fishing und Auswahlverfahren komme ich noch zurück.

Was sagen die Daten wirklich aus?

Zum guten Schluss können wir noch die mitgeteilten Daten und Schlussfolgerungen unter die Lupe nehmen.

5. Der Skeptiker fragt: Ist die Studie inhaltlich glaubwürdig? Enthält sie Widersprüche? Wie groß und wie deutlich sind die behaupteten Effekte?

Unter anderem wird in der Studie behauptet, „dass durch die Anwendung mit dem ‚Slim Belly’ die Fettreduktion im Hüftbereich 8-fach höher war als ohne Gerät“. Das klingt beeindruckend. Aber was steckt dahinter?

Die Hautfaltendicke nahm bei den Versuchspersonen, die einen Gürtel trugen, im Mittel um 40 mm ab, mit einer Standardabweichung von 28 mm. Bei den Versuchspersonen ohne Gürtel betrug die mittlere Abnahme nur 5 mm bei einer Standardabweichung von 20 mm. Ich stelle die verschiedenen Werte und die Wahrscheinlichkeit ihres Auftretens einmal als ideale Normalverteilungen dar, nur um vor Augen zu führen, dass es sich hier um Aussagen über zufällig auftretende Stichprobenwerte handelt.

Veranschaulichung der zufälligen Schwankungen

Der Quotient der Mittelwerte ergibt tatsächlich den Faktor 8. Wie unsinnig diese Zahlenangabe ist, wird klar, wenn man bedenkt, dass hier Messergebnisse für 32 Personen die den Gürtel trugen und die 34 Personen der Kontrollgruppe in statistische Kennzahlen gepresst worden sind. Wie hätte der Quotient ausgesehen, wenn die Kontrollgruppe im Mittel überhaupt keine Reduktion oder gar eine geringe Zunahme zu verzeichnen gehabt hätte?

Die Studie enthält einen kleinen Hinweis darauf, dass es bei der Gruppenaufteilung möglicherweise nicht mit rechten Dingen zugegangen ist. Die Personen der Kontrollgruppe waren im Mittel um fast drei Zentimeter größer als die der Slim-Belly-Gruppe (Kontrollgruppe 166,5 cm, Slim-Belly-Gruppe 163,8 cm) bei nahezu gleichem Gewicht (Kontrollgruppe 83,3 kg, Slim-Belly-Gruppe 83,5 kg). Bei der etwas „schlankeren“ Kontrollgruppe könnte die Chance abzunehmen tatsächlich von vornherein etwas geringer sein.

Die Ergebnisse der Studie liegen teilweise knapp unter und teilweise knapp über dem 5%-Signifikanzniveau. Einen nach diesem Maßstab signifikanten (deutlichen) Effekt findet man schon rein zufällig in 5% aller Fälle, also in jedem zwanzigsten Versuch, auch dann, wenn es den Effekt im Grunde gar nicht gibt. Bei einem derartig schwachen Signifikanzkriterium ist eine Dokumentation der insgesamt durchgeführten Versuche eigentlich unerlässlich. Und eine solche Dokumentation fehlt hier.

Die Vergleichsmessungen vorher/nachher fanden innerhalb der vierzehn Tage des Versuchs statt. Gern erfahren hätte man, wie die Werte mehrere Wochen nach dieser Veranstaltung sind. Aber diese Frage führt dann doch etwas zu weit. Unseren Arzt fragen wir ja auch nicht nach den langfristigen Folgen seiner Behandlung. Sollten wir es vielleicht doch tun?

Einführung in das skeptische Denken und Argumentieren

Ich werde Ihnen nicht sagen, was ich von den Abspeckgürteln und anderen Schlankheitsmitteln halte. Ihre Meinung sollten Sie sich selber bilden. Wenn Sie Ihre Fähigkeiten zum skeptischen Denken noch weiter entwickeln wollen, empfehle ich Ihnen die Lektüre dieser Bücher:

Christoph Bördlein: Das sockenfressende Monster in der Waschmaschine. Eine Einführung ins skeptische Denken. Aschaffenburg 2002

Hans-Peter Beck-Bornholdt, Hans-Hermann Dubben: Der Hund, der Eier legt. Erkennen von Fehlinformation durch Querdenken. Reinbek bei Hamburg 2001

Hubert Schleichert: Wie man mit Fundamentalisten diskutiert, ohne den Verstand zu verlieren – oder Anleitung zum subversiven Denken. München 1997

Veröffentlicht unter Skeptizismus, Statistik, Tests | Verschlagwortet mit , , , | 3 Kommentare

Proben mit Stich: Wie „farbtreu“ sind Umfrageergebnisse?

Undefinierte Grundgesamtheit und verzerrte Stichproben

Leserbeteiligung fördert die Auflage. Und am einfachsten gelingt das mit TED-Umfragen. TED steht für Teledialog und wurde erstmals in Fernsehshows zur Einbindung der Zuschauer genutzt. Inzwischen grassiert dieser Umfragebazillus. Neulich wurde ich von meiner Tageszeitung aufgefordert, meine Meinung darüber abzugeben, ob Autos mit Zündsperren für Alkoholsünder (Alkolocks) ausgestattet werden sollen oder nicht. Der Abstimmungsakt erfordert nur, je nach Antwort eine entsprechende Telefonnummer zu wählen.

Inzwischen kenne ich das Ergebnis dieser Telefonumfrage: 65,9 % sind für die Zündsperren, 34,1 % sind dagegen (Fuldaer Zeitung vom 23.4.2011).

Hoppla! Von wem ist hier überhaupt die Rede? Von den Osthessen, von den Fuldaern, von den Lesern der Zeitung? Nein: hier ist nur die Rede von denen, die an der Telefonumfrage teilgenommen haben. Und wer diese Leute sind, kann niemand sagen, auch die Redaktion nicht. Ich weiß jetzt nur, dass von denen, die angerufen haben, 65,9 % für die Zündsperren sind und der Rest dagegen. Die Teilnehmer an der Umfrage rekrutieren sich selbst: Das Interesse an einer bestimmten Antwort erzeugt den Drang zur Teilnahme. Und ich weiß nicht, ob eher der Zündsperren-Befürworter oder aber dessen Gegner genügend Blutdruck entwickelt, den man braucht, um zum Telefonhörer zu greifen. Es bleibt die ernüchternde Erkenntnis, dass die Zeitung eine vollkommen wertlose Nachricht geboten hat.

Ergebnis einer Online-Umfrage

Auch Web-Seitenanbieter versuchen mit ähnlich gearteten Umfragen ihr Angebot interessanter zu machen. Auf einer Atheisten-Seite wird um Abstimmung gebeten zur Frage: „Glauben Sie an (den christlichen) Gott?“ Diese Abstimmung läuft schon seit einigen Jahren und hat inzwischen 21704 Teilnehmer gefunden. Ich habe das Ergebnis in der nebenstehenden Grafik komprimiert dargestellt (Stand: 21.4.2011).

Hier haben wir dasselbe Problem wie bei den Alkolocks: Der unkritische Leser sieht in dieser Grafik ein Abbild der Glaubensneigung der Bevölkerung – was immer er unter „Bevölkerung“ verstehen mag. Der Nachdenkliche schränkt den Kreis auf die Besucher der Atheisten-Seite ein. Aber auch das ist eine noch viel zu kühne Verallgemeinerung: Die Statistik sagt nur etwas über die Teilnehmer an der Abstimmung aus. Und über diesen Personenkreis wissen wir so gut wie nichts.

An der Abstimmung können normale Besucher der Seite teilgenommen haben. Aber es kann auch sein, dass irgendwelche religiösen oder atheistischen Zirkel eine Abstimmungsaktion organisiert haben. Wer weiß?

Aber eins ist doch interessant: Die Gleichgültigen sind zusammen mit den Wachsweichen klar in der Minderheit. Um sich zur Teilnahme aufraffen zu können, braucht man schon etwas Enthusiasmus. Der ist bei den Gläubigen offenbar vorhanden, und die wahren Atheisten stehen ihnen kaum nach. Das Ergebnis der Abstimmung läuft auf eine Tautologie hinaus: Gläubige glauben, Ungläubige nicht. Das ist aber auch schon alles.

Die hier beschriebenen Umfragen müssen scheitern, weil sie gegen grundlegende Voraussetzungen des statistischen Schließens verstoßen. Die erste Voraussetzung besagt, dass die Grundgesamtheit – also die Population, über die etwas ausgesagt werden soll – klar definiert sein muss. Und die zweite Forderung ist, dass das Ziehen einer Stichprobe aus dieser Grundgesamtheit nach dem Zufallsprinzip zu erfolgen hat. Die Stichprobe soll ja für die Grundgesamtheit repräsentativ sein. Selbstrekrutierte Stichproben erfüllen diese Forderungen ganz gewiss nicht. Sie sind fast notgedrungen verzerrt.

Auch seriös angelegte Umfragen mit gut definierter Grundgesamtheit und gut geplanter Stichprobenbildung können das Problem der verzerrten Stichprobe nicht ganz vermeiden. Ein Hauptgrund sind die Fälle von Antwortverweigerung (Non-response). In den Nachrichten aus dem Statistischen Bundesamt (METHODEN – VERFAHREN – ENTWICKLUNGEN, Ausgabe 2/2004) wird berichtet, dass bei Auswahlverfahren für Telefonstichproben mit einer Antwortverweigerungen von „über 50% bei Erstbefragungen und rund 10% bei Folgebefragungen“ gerechnet werden muss. Die Antwortverweigerung bildet ein großes Einfallstor für Verzerrungen, das sich kaum schließen lässt.

Da wir gerade bei Glaubensfragen sind: Auch der Religionsmonitor der Bertelsmann-Stiftung muss sich mit dem Problem der Antwortverweigerung herumschlagen. Und bei solchen weltanschaulichen Fragen könnte das besonders hart werden.

Ein Beispiel aus der Konsumforschung

Am 1. September 1999 berichtete die Fuldaer Zeitung über ein Gutachten zur Konsumforschung: „Interessant … ist …, dass über die Hälfte der Passanten täglich oder mehrmals pro Woche Fuldas Innenstadt aufsuchen. 25,8 Prozent kommen einmal pro Woche oder mindestens 14-täglich. Demnach kann davon ausgegangen werden, dass die Innenstadt ein umfangreiches Angebot für die Kunden bereithält.“

Offenbar ist beabsichtigt, die Tatsache, dass immerhin 50 Prozent der angetroffenen Passanten täglich und nur 25 Prozent wöchentlich kommen, als Zeichen der Attraktivität Fuldas hinzustellen. Wie lässt sich das begründen?

Zuerst ist nach der Grundgesamtheit zu fragen, die es zu beurteilen gilt. Aber darüber sagt das Gutachten nichts aus: Befragt wird nur, wer da ist. Jemand, der sehr selten oder gar nicht nach Fulda kommt, wird durch die Stichprobe nicht vertreten.

Also verzichten wir darauf, die Grundgesamtheit zu präzisieren und fragen nur, in welchem Verhältnis die Anzahl der Vielbesucher (täglich) zur Anzahl der Wenigbesucher (wöchentlich) steht. In der Stichprobe beträgt dieses Verhältnis etwa 50/25, also 2:1. Aber dieses Verhältnis interessiert uns eigentlich nicht. Wir wollen wissen, wie dieses Verhältnis in der imaginären Grundgesamtheit (Menschen des Landkreises oder der Region) ist.

Jeder befragte Besucher vertritt eine Anzahl von Personen der Grundgesamtheit. Die Wenigbesucher mögen sich auf die sechs Arbeitstage einer Woche gleichmäßig verteilen. Jeder befragte Wenigbesucher vertritt also sechsmal mehr Personen der Grundgesamtheit als jeder Vielbesucher. Wenn man das Verhältnis der Viel- zu den Wenigbesuchern auf die Grundgesamtheit umrechnet, kommt der Faktor sechs ins Spiel: Aus dem Verhältnis 2:1 wird das Verhältnis 2:6 oder 1:3. Also: Die Zahl der Wenigbesucher übertrifft die der Vielbesucher um das Dreifache.

In diesem Fall haben wir — mittels einer gewagten Annahme — aus einer selbstrekrutierten Stichprobe tatsächlich etwas über die Grundgesamtheit erfahren. Das ist zwar nicht viel, aber immerhin.

Ich habe großes Vertrauen in die interpretatorischen Fähigkeiten der Konsumforscher. Auch mit diesen Zahlen hätten sie die von ihnen gewünschte Aussage gewiss problemlos untermauern können.

Erhöht Ausweichen die Kollisionsgefahr?

Sogar angesehene Unfallforscher sind vor den Tücken verzerrter Stichproben nicht gefeit. Ein zentraler Abschnitt des berühmten Buches „Normale Katastrophen“ von Charles Perrow (1987) enthält diesen Text: „Die meisten Schiffskollisionen, von denen ich geeignete Unfallberichte ausfindig machen konnte, ereigneten sich zwischen Schiffen, die sich zunächst nicht auf Kollisionskurs befanden, sondern erst zusammenstießen, nachdem mindestens einer der Kapitäne das andere Schiff entdeckt und daraufhin seinen Kurs geändert hatte… Was um alles in der Welt bringt die Kapitäne riesiger Schiffe dazu, Kursänderungen in letzter Minute anzuordnen, die dann überhaupt erst eine Kollision verursachen?“

Perrow folgert aus den Daten, dass Ausweichen die Kollisionsgefahr erhöht. Dabei zieht er nur die Fälle in Betracht, in denen es schief gelaufen ist. Die Lage lässt sich aber nur dann richtig beurteilen, wenn der Blick über die verzerrte Stichprobe hinausgeht — hin zu einer passend definierten Grundgesamtheit. Was nämlich nicht in seiner Rechnung erscheint, sind die Beinahekollisionen, bei denen die Ausweichmanöver erfolgreich waren oder ohne Nachteil unterblieben sind.

Versuchen Sie doch einmal, durch Blickfelderweiterung zu einer besseren Interpretation der Daten zu kommen. Meinen Versuch finden Sie im Aufsatz „Denkfallen — Klug irren will gelernt sein“.

Veröffentlicht unter Statistik, Umfragen, Verzerrte Stichprobe | Verschlagwortet mit , , , , , | 3 Kommentare

Wundersame Geldvermehrung

Der „Sündenfall“: Zentralbanken kaufen Staatsanleihen

Der Tagesspiegel meldete am 11.05.2010 unter dem Titel „Eine Institution bröckelt“: „Die Europäischen Zentralbank (EZB) kauft erstmals Staatsanleihen… damit finanziert sie indirekt die Schulden, die Griechenland und andere in Bedrängnis geratene Länder aufgenommen haben.“

Zitiert wird der EZB-Rat und Bundesbank-Chef Axel Weber. Weber habe gesagt, dass der Ankauf „erhebliche stabilitätspolitische Risiken“ berge und dass es jetzt darauf ankomme, die Risiken so gering wie möglich zu halten. Die Ankäufe seien eng begrenzt und zielten allein darauf ab, „die Funktionsfähigkeit der Anleihemärkte und des geldpolitischen Transmissionsprozesses wiederherzustellen“.

Der Leser bleibt verunsichert zurück: Einerseits bröckelt eine Institution, aber andererseits ist es nicht so schlimm; die Funktionsfähigkeit der Anleihemärkte kann ja wieder hergestellt werden. Wer wissen will, wie schwerwiegend das Geschehen tatsächlich ist, muss sich ein paar grundlegende Elemente der Volkswirtschaftslehre vor Augen führen, insbesondere das Prinzip der Geldmengenkontrolle.

Hauptaufgabe der Zentralbanken ist die Sicherung der Preisniveaustabilität. Diese Aufgabe erfüllen sie vor allem durch die Festlegung von Mindestreserven für die Geschäftsbanken und durch die Festlegung der Leitzinsen.

Auf dem Geldmarkt hängt die Nachfrage nach Geld vom Zinsniveau einerseits und von der Wertschöpfung der gesamten Wirtschaft andererseits ab. Die Erhöhung von Mindestreserven und Leitzinsen wirkt sich gegenläufig auf die Geldmenge aus: Darlehen und Kredite werden teurer und die Geldmenge sinkt. Und das wiederum wirkt dämpfend auf das Preisniveau.

Bei – gemessen an der Wirtschaftsleistung – zu geringer Geldmenge und darbender Wirtschaft erniedrigt die Zentralbank die Leitzinsen. Das ermöglicht den Geschäftsbanken, Geld  zu niedrigeren Zinssätzen auszugeben – Geld, das die Unternehmen dann für Investitionen zur Verfügung haben. Ein unerwünschter Nebeneffekt der erhöhten Geldmenge ist, dass die Preise tendenziell steigen. Eine Erhöhung der Leitzinsen bewirkt das Gegenteil.

Wir haben es also mit einem Regelkreis zu tun, der durch die negative Rückkopplung über die Leitzinsen und Mindestreserven stabilisiert wird. Wesentlich dabei ist, dass die Zentralbank genau in dem besprochenen Sinnen funktioniert. Der folgende Wirkungsgraph zeigt den Regelkreis der Geldmengenkontrolle.

Regelkreis der Geldmengenkontrolle

Zu den Schuldenmachern gehören die Staaten: Sie können sich auf dem freien Markt Geld besorgen, indem sie Staatsanleihen auflegen. Staaten wie Griechenland, die dringend an Geld kommen müssen, besorgen es sich über Staatsanleihen mit weit über dem Durchschnitt liegenden Zinsangeboten; das wiederum führt zu einer nicht mehr tragbaren Staatsverschuldung.

Wenn nun die Zentralbank zur Abwendung des Staatsbankrotts die Staatsanleihen kauft, bricht sie den Regelkreis der Geldmengenkontrolle auf: Die Zentralbank gibt ihre Souveränität und Steuerungskompetenz teilweise auf und macht sich zum Opfer möglicher Umschuldungsmaßnahmen. Die Steuerungsparameter, also Leitzinsen und Mindestreserven, verlieren an Wirksamkeit. Wegen des überhöhten Zinses, den nun ja die Zentralbank erbringen muss, wird Geld geschaffen, das nicht mehr durch die Wertschöpfung gedeckt ist. Bei Fortsetzung dieses Prozesses droht Inflation.

In dem Tagesspiegel-Artikel kommen Experten zu Wort, die die Verpflichtung der Europäischen Zentralbank (EZB), Anleihen aus angeschlagenen Staaten aufzukaufen, als „Sündenfall“ bezeichnen. Man achte auf die verniedlichenden Anführungszeichen. Das klingt nach Schönfärberei: Tatsächlich schwächt die Zentralbank ihre Funktionsfähigkeit; sie macht sogar das Gegenteil dessen, was ihre Aufgabe ist. Axel Weber hat dieser Befürchtung inzwischen starken Ausdruck gegeben und ist zurückgetreten (Spiegel online, 14.02.2011).

Was sind die Folgen einer Inflation? Erspartes verliert an Wert. Es mag ja richtig sein, dass auf diese Weise diejenigen, die etwas haben, die Sparer, zu solidarischem Handeln mit den Notleidenden herangezogen werden. Allerdings irritiert, dass die Hilfeleistung um mehrere Ecken herum und für die Betroffenen ziemlich schwer erkennbar, im Halbdunkel sozusagen, geschieht.

Außerdem ist es möglich, dass die Auswirkungen des „Sündenfalls“ die Falschen treffen. Der Internationale Währungsfonds IWF meint, dass  die Inhaber solcher hoch verzinsten Staatsanleihen auf einen Teil ihrer Rendite verzichten sollten. (Der Spiegel, 14/2011, S. 60). So ließe sich eine übermäßige Geldschöpfung vermeiden. Allerdings wäre zur Zeit, wegen der bereits gekauften Staatsanleihen, auch die EZB ein Opfer dieser Maßnahme.

Unsere Probleme mit dem Unendlichen

Der oben geschilderte Prozess der Geldvermehrung bringt mich auf Ponzis Schema. Charles Ponzi hat in den Monaten Juni, Juli und August 1920 in Boston ein Schneeballsystem betrieben. Die Bezeichnung geht auf ihn selbst zurück: „I started a small snowball downhill. But it developed into an avalanche by itself.“ (Mitchell Zuckoff: Ponzi’s Scheme. 2005)

Ponzis Angebot: Man erhält auf seine Einlagen 50 % Zinsen in 45 Tagen, 100 % in 90 Tagen. Der mathematisch Geschulte wird bei einem solchen in sich widersprüchlichen Angebot stutzig: Nach doppelter Zeit sollte man deutlich mehr als das Doppelte erwarten dürfen. Aber Gier und Unmäßigkeit sind wohl Feind der gesunden Skepsis. Jedenfalls traf das Angebot auf reges Interesse, das nach den ersten Auszahlungen – getätigt aus den Einlagen der Neukunden – tatsächlich lawinenartig anschwoll. Diejenigen, die nicht rechtzeitig ausstiegen, mussten insgesamt Verluste in zweistelliger Millionenhöhe hinnehmen.

Bernie Madoff hat in New York ein Schneeballsystem sogar über vier Jahrzehnte lang bis Ende 2008 betrieben (Andrew Kirtzman: Betrayal. The life and lies of Bernie Madoff. 2009). Der Schaden belief sich schließlich auf viele Milliarden Dollar. Und das Tolle an diesem Coup: Zu den Betrogenen gehörten Adlige, Neureiche, Bankiers, Hedgefond- Manager, und selbst die Börsenaufsicht SEC (Securities and Exchange Commission) hatte versagt und mehrfach klare Hinweise auf das Betrugssystem missachtet.

Neben der Gier könnte auch eine Denkfalle daran beteiligt sein, dass wir auf Schneeballsysteme hereinfallen. Diese Denkfalle trägt den Namen Complacency und beinhaltet Sicherheitserfahrung („Es ist ja noch nichts passiert“), übersteigertes Selbstvertrauen, Überheblichkeit und Arglosigkeit.

Und dieselbe Denkfalle schnappt möglicherweise zu, wenn wir uns damit trösten, dass im Falle der Staatsanleihen alles wohl nicht so schlimm kommen werde.

Aber da ist noch ein zweiter Aspekt; er betrifft das Konzept des Unendlichen. Dieses mathematische Konzept ist äußerst nützlich, wenn wir beispielsweise Zusammenhänge in der Wirtschaft auf ihre langfristigen Auswirkungen hin untersuchen. Weil sich Systemgrößen in vielen Fällen „auf lange Sicht“ stabilisieren, werden aus komplizierten dynamischen Beziehungen schließlich einfache Gleichungen, die sich leicht untersuchen und interpretieren lassen. Die Lehrbücher der Volkswirtschaftslehre sind voll solcher Gleichungen für stationäre und stabile Fälle.

Aber schon John Maynard Keynes hat uns gewarnt: „In the long run we are all dead.“ Wenn etwas nicht mehr so recht stimmt, wie beim gestörten und aufgebrochenen Regelkreis der Geldmengenkontrolle oder beim Schneeballsystem, kann es zu einer explosionsartigen Dynamik mit verheerenden Folgen kommen. Gleichgewichtsbetrachtungen helfen dann nicht mehr weiter.

Das Umtauschparadoxon

Das Konzept des Unendlichen ist sowohl grandioser Vereinfacher als auch teuflische Falle. Es schadet nicht, sich etwas damit auseinanderzusetzen. Das Umtauschparadoxon bietet dazu Gelegenheit. Ich entnehme die Beschreibung des Paradoxons meiner Sammlung der Denkfallen und Paradoxa.

Zwei Briefumschläge enthalten Geld, einer doppelt so viel wie der andere. Ich darf einen Umschlag auswählen, und das Geld entnehmen. Danach darf ich entscheiden, ob ich das Geld behalten will oder zum anderen Kuvert wechsle. Angenommen, ich ziehe ein Kuvert und finde 100 € darin.  Eine kurze Überlegung zeigt mir, dass ich das Angebot zum Umtausch annehmen sollte: Da ich den Briefumschlag rein zufällig gewählt habe, ist die Wahrscheinlichkeit dafür, dass ich zunächst den kleineren Betrag gezogen habe genauso groß wie die Chance für den größeren Betrag, also jeweils gleich ½. Den 100 €, die ich jetzt habe, stehen im Falle des Umtauschs ½ ∙ 200 € plus ½ ∙ 50 € gegenüber. Das ist eine Gewinnerwartung von 125 €, und das sind 25 € mehr als ohne Umtausch.

Widerspruch: Da es auf den Betrag nicht ankommt, hätte ich mich – ohne den Umschlag zu öffnen – gleich für den anderen Briefumschlag entscheiden können. Aber damit bin ich wieder bei der Ausgangssituation: Ich habe ja einfach nur gewählt und kann dieselbe Überlegung wie oben anstellen. Der Wechsel würde auch jetzt Gewinn versprechen, obwohl ich dann wieder beim ersten Umschlag gelandet wäre.

Veröffentlicht unter Wirtschaft | Verschlagwortet mit , , , | Ein Kommentar