Hier geht es ein wenig „mathematischer“ zu als in den vorhergehenden Artikeln. Gleichzeitig nähere ich mich wieder mehr den Leitlinien dieses Weblogbuchs, in dem es darum gehen soll, Stolpersteine oder Denkfallen aufzugreifen, die uns im Alltag und in den Medien begegnen. Diesmal hab ich mir den Stolperstein selbst hingelegt und ihn vorübergehend aus dem Auge verloren.
Für die Lehrveranstaltung Problemlösen hatte ich die Denksportaufgabe „Wie viele Taxis?“ ausgegeben. Aus einer Menge von Beobachtungen war eine Schätzung für Anzahl der Taxis in einer Stadt abzuleiten. Der ersten Eingebung folgend, denkt man sich: Je mehr der Informationen ich benutze, desto genauer wird mein Schätzwert wohl werden. Aber Hoppla! Das stimmt nicht.
Die Aufgabe ist ein schönes Beispiel für die von Gerd Gigerenzer wärmstens empfohlene Weniger-ist-mehr-Heuristik. Im Artikel Bauchgefühle: Je dümmer, desto klüger? und danach in Kopf oder Bauch? habe ich die Grenzen dieser Heuristik deutlich gemacht und gezeigt, dass sie mit Bauchgefühlen recht wenig zu tun hat und eher dem „langsamen Denken auf kurzen Wegen“ zugeordnet werden muss.
Das Taxi-Beispiel gibt sehr eingängige Hinweise darauf, wann diese Heuristik hilfreich sein kann. Die Anregung zur Taxi-Aufgabe habe ich vom Büchlein „Mathematisches Sammelsurium“ von Christian Hesse, München 2012.
Wie viele Taxis? Nehmen wir an, Sie sitzen etwas gelangweilt in einem Café und notieren sich die Nummern der vorbeifahrenden Taxis: 477, 491, 342, 596, 68, 251, 258, 917, 775, 954, 160, 875, 618, 74, 457, 100, 181, 628, 512 und 729. Sie fragen sich nun, wie viele Taxis es in der Stadt wohl gibt.
Um überhaupt zu einer mathematisch lösbaren Aufgabe zu kommen, brauchen wir ein paar Annahmen:
- Die Taxis der Stadt sind von 1 bis zu einer Zahl N lückenlos durchnummeriert.
- Die Auswahl geschieht rein zufällig: Jede der Nummern von 1 bis N erscheint also mit derselben Wahrscheinlichkeit vor dem Fenster des Cafés.
- Jedes mehrfach erscheinende Taxi wird nur einmal erfasst. Für den Statistiker ist das ein Urnenmodell ohne Zurücklegen.
Wir sind also an einer Schätzung des uns unbekannten Wertes N interessiert. Mit a will ich die kleinste der beobachteten Taxinummern bezeichnen und mit b die größte. Die Zahl der insgesamt beobachteten Taxis ist n, hier gleich 20.
Dass die Nummer b = 954 bereits die größte der Nummern und damit gleich der Anzahl der Taxis ist, dass also b = N gilt, ist ziemlich unwahrscheinlich. Zur besseren Abschätzung des Wertes N schlage ich Ihnen die Formel b*(n+1)/n – 1 vor. Das gäbe im vorliegenden Fall den Wert 1001.
Auf diese Formel bin ich durch die Analogie-Heuristik gekommen: Habe ich Ähnliches schon einmal gesehen? Kenne ich ein verwandtes Problem?
In der Tat hat das Taxi-Problem eine gewisse Ähnlichkeit mit dem Problem „Das erste Ass“ aus meiner Problemsammlung Querbeet. Jetzt geht es nur noch darum, den dort beschriebenen Lösungsvorschlag auf das Taxi-Problem zu übertragen. Ich will dies in gebotener Kürze tun. Wem es jetzt zu mühsam ist, dem Gedankengang zu folgen, der kann die folgenden eingerückten Absätze vorerst überschlagen; er muss die Formel halt einfach so hinnehmen.
Wenn man gedanklich sämtliche N Taxis der Stadt nach aufsteigenden Nummern hintereinander anordnet und dann die beobachteten Taxis markiert, dann liegt es nahe, davon auszugehen, dass die Abstände zwischen den markierten Taxis alle in derselben Weise verteilt sind und folglich auch denselben Mittelwert haben. Aber es gibt die Schwierigkeit mit Anfang und Ende der Liste: Wie viele Taxis mit Nummern kleiner als a gibt es und wie viele oberhalb des Maximalwerts b?
Um diese Schwierigkeit zu umgehen, greifen wir zu demselben Trick wie beim Das-erste-Ass-Problem. Allerdings müssen wir unser Gedankenmodell entsprechend vorbereiten. Sicherlich ist es für die Statistik egal, ob man sich im Café die Nummern merkt, oder ob man die vorbei kommenden Taxis irgendwie markiert, indem man beispielsweise einen Zettel auf die Rückbank legt – rein gedanklich. Die Taxis brauchen dazu gar nicht nummeriert zu sein. Wir können – ohne die Statistik wesentlich zu stören – diese Nummerierung sogar nachholen. Wir stellen uns nun vor, dass sämtliche Taxis zum Nummerieren auf einen riesigen Betriebshof gebracht werden. Um mit der Nummerierung irgendwo anfangen zu können, fügen wir ein weiteres Taxi hinzu und geben ihm die Nummer 0.
Nun ordnen wir sämtliche Taxis rein zufällig im Kreis an. Das entspricht dem Mischen eines Spielkartenstapels. Das Zusatztaxi mit der Nummer 0 spielt hier die Rolle eines zufällig gesetzten Ortes, an dem die fortlaufenden Nummerierung beginnt, so wie wir beim Kartenstapel eine Karte eingefügt haben, die den Ort markierte, wo der Stapel beim Abheben geteilt wird. Vom 0-Taxi ausgehend folgen wir dem Kreis, beispielsweise im Uhrzeigersinn, und vergeben fortlaufend die Nummern 1, 2, 3, …, N.
Um zu zeigen, dass die Einfügung eines 0-Taxis an den statistischen Verhältnissen nichts ändert, muss man sich nur klar machen, dass jede zyklische Anordnung der Taxis einschließlich 0-Taxi eine Eins-zu-eins-Entsprechung in der linearen Anordnung der Taxis hat — letztere ohne das Zusatztaxi.
Die Nummern der beobachteten und markierten Taxis erscheinen nun in aufsteigender Folge. Weil alle Taxis unterschiedslos behandelt worden sind, können wir davon ausgehen, dass die Abstände zwischen aufeinanderfolgenden Markierungen derselben Statistik genügen. Der Mittelwert der insgesamt n+1 Abstände zwischen den Taxis einschließlich des 0-Taxis lässt sich folglich durch den Quotienten (N+1)/(n+1) errechnen. Wenn wir nun – ausgehend vom 0-Taxi – nur die folgenden n Abstände betrachten, den Abstand des b-ten Taxis zum darauf folgenden 0-Taxi also außer Acht lassen, erhalten wir mit b/n eine weitere Abschätzung dieses mittleren Abstands. Gleichsetzen dieser beiden Mittelwerte und Auflösen nach N liefert die gesuchte Formel für den Schätzwert.
Die Formel b*(n+1)/n-1 bezeichnen wir als erste Schätzung. Sie scheint ein wenig windig zu sein: Nur der Maximalwert b kommt darin davor. Wir nutzen nur ein Minimum der verfügbaren Information. Deshalb besorgen wir uns eine weitere Schätzung über eine Symmetriebedingung: Es werden im Mittel genauso viele Zahlen unterhalb des Minimalwerts a liegen, nämlich a-1, wie oberhalb des Maximalwerts b, nämlich N–b. Gleichsetzung ergibt die zweite Schätzung für N, nämlich a+b-1 = 1021.
Die zweite Schätzung nutzt schon mehr Information als die erste, nämlich a und b. Wäre es nicht noch besser, alle Taxinummern für die Schätzung heranzuziehen? Wir können beispielsweise den Mittelwert m aller beobachteten Nummern berechnen und diesen mit dem Mittelwert (N+1)/2 der Zahlen von 1 bis N gleichsetzen. So erhalten wir die dritte Schätzung: 2m – 1 = 945. Ein Mangel dieser Schätzung fällt sofort ins Auge: Der Schätzwert für N kann kleiner als b werden, im Widerspruch zu den Tatsachen.
Nun wollen wir noch wissen, was es mit diesen Schätzungen auf sich hat und wie gut sie sind. Dazu realisiere ich eine kleine Simulation mit dem PC. Der Rechner führt viele Male hintereinander das folgende Experiment durch: Erzeugung von 20 paarweise verschiedenen Zufallszahlen aus dem Bereich von 1 bis 1000. Jede Zahl hat dieselbe Chance, ausgewählt zu werden. Jedes Mal werden die Schätzwerte nach den drei Formeln berechnet.
Schließlich werden die Mittelwerte der Schätzungen über sämtliche Versuche sowie deren Standardabweichung (ein Maß für die Streuung) ermittelt. Es zeigt sich, dass alle Schätzer erwartungstreu sind: Für jeden Schätzer ergibt sich ein Mittelwert (Erwartungswert) von 1000, was ja genau die für den Test angenommene Anzahl von Taxis ist. Für den ersten Schätzer ist die Standardabweichung gleich 48, für den zweiten gleich 66 und für den dritten gleich 129.
Fazit. Je mehr Information in die Schätzungen einfließt, desto schlechter wird sie. Hier gilt also nicht „Viel hilft viel“, sondern „Weniger ist mehr“.
Aber Hoppla! Das kann nicht durchweg stimmen. Es kommt darauf an, auf welche Information man sich stützt und welche man ignoriert. Und für diese Entscheidung sind dann doch wieder Rationalität und umfassende Kenntnis der Problemlage gefragt. In diesem Sinne hilft viel dann tatsächlich viel. Wie man mit der Weniger-ist-mehr-Heuristik daneben liegen kann, zeigt uns eine vierte Schätzung auf der Basis der kleinsten beobachteten Nummer: a*(n+1)-1 = 1427. Auch diese Schätzung ist erwartungstreu. Von daher lässt sich nichts gegen die Formel sagen. Aber die Streuung der Schätzwerte ist exorbitant. Die Standardabweichung ist gleich 944. Die Schätzung taugt nichts.
Die folgende Tabelle zeigt die Ergebnisse des Simulationsexperiments für die ersten 20 Versuche für alle vier der von mir vorgestellten Schätzformeln.
Mine.