Zutreffende Prognosen zeigen zuverlässige Verfahren

Florida hat gezählt, sodass das Endergebnis der US-Präsidentschaftswahlen endlich feststeht. Mit dem Endresultat kann man die Güte der Umfragen, der Aggregatoren und der Umrechnungen von Wähler- auf Elektorenstimmen prüfen.

Präsident Barack Obama bei seiner Wiederwahl Ende Januar 2013 mit 332 von 538 Elektorenstimmen rechnen. Von den gut 120 Mio. WählerInnenstimmen hat er 50,5 Prozent bekommen; sein Widersacher, Mitt Romney, kam auf 47,9 Prozent, während 1,6 Prozent der Stimmen auf die übrigen Bewerber entfielen.

Nate Silver, den Star unter den Analytikern der US-Wahlen, hat für seine Evaluierung nur die Firmen berücksichtigt, die in den letzten 3 Wochen mindestens 5 Umfragen realisiert haben, sei dies auf nationaler oder auf staatlicher Ebene. Das schränkt Zufallsergebnisse in der Bewertung ein, nicht zuletzt, weil es kurz vor der Wahl eine Tendenz gäbe, die letzte Umfragen eines Instituts dem mainstream unter den Polls anzugleichen, schreibt “Mr. 538”.

Auf Silvers Liste rangiert denn auch IBD/TIPP an der Spitze, realisiert für Investors.com. Die Abweichung vom Endergebnis beträgt hier 0.9 Prozentpunkte; mit einem minimalen Ueberhang für den Herausforderer. 22 weitere Firmen figurieren auf der Liste: 12 arbeiteten mittels LivePhones, 6 mit Internetumfragen und 5 mit RobotPhone; letztere haben keine Befrager mehr, sondern führen die Interviews mit einer Automatenstimme durch.

In den letzten drei Wochen entschienen am meisten Umfragen mit dieser Methode – zum Nachteil der Demoskopie, denn sie waren am ungenauesten und sie hatten am deutlichsten einen Bias Richtung Romney.

Leseanleitung:
Entscheidend ist jeweils die 2. Kolonne, welch die mittlere Abweichung der gemachten Umfragen in absoluten Zahlen angibt, während die dritte zeigt, in welche Richtung diese im Schnitt ausfällt. Wenn Gravis Marketing für seine 16 Umfragen ein 2,7 erhält wich man im Schnitt 2,7 Prozentpunkte vom Endresultat ab, und zwar, wie Kolonne 3 nahelegt, stets zugunsten der Republikaner. Derweil verteilen sich die geringeren Abweichungen von Mellman auf beide Seiten gleich stark.

Beste Umfragen mit Live-Interviews

Firma/Medium Zahl Abweichung Richtung

. IBD/TIPP 11 0.9 R+0,1
. Mellman Group 9 1,6 R/D +/-0,0
. OpinionResearch/CNN 10 1,9 R+0,8
. CVOTERInternation/UPI 13 2,0 R+2,0
. GroveInsight 18 2,0 R+0.1

Schnitt 10 1,7 R+0,6

Beste Online-Umfragen

. GoogleConsumerSurvey 12 1,6 R+1,1
. RANDCorporation 17 1,8 D+1,5
. Ipsos/Reuters 42 1,9 R+1,4
. AngusReid 11 1,9 R+0,8
. YouGov 30 2,6 R+1,1

Schnitt 22 2,0 R+0,6

Beste Umfragen mit Robotinterviews

. SurveyUSA 17 2,2 R+0,5
. WeAskAmerica 9 2,6 D+0,1
. PublicPolicyPolling 71 2,7 R+1,6
. Gravis Marketing 16 2,7 R+2,7
. RassmusenReports 60 4,2 R+3,7

Schnitt 36 2,9 R+1,7

Berücksichtigt man die 5 besten jeder Methode, liegen die Umfragen mit LivePhones vorne; ihre mittlere Abweichung beträgt 1,7 Prozentpunkte. An zweiter Stelle finden sich die Internet-Umfragen, deren durchschnittlicher Fehler bei 2,0 Prozentpunkten liegt. Mit 2,9 Prozentpunkten deutlich schlechter die Umfrageroboter.

Das zweite wichtige Ergebnis betrifft die Richtung der hauptsächlichen Abweichung. 19 der 23 Serien überschätzen Romney, nur 4 Obama. Das straft alle Behauptungen als Lügen, wonach republikanische Wähler schwieriger zu befragen seien, inbesondere bei der traditionellen Methoden mit InterviewerInnen.

Vielmehr fallen drei negativ Firmen auf: Gallup, American ResearchGroup und RassmusenReport. Sie haben Romney zwischen 4 bis 7 Prozent systematisch überschätzt; was ausserhalb des Stichprobenfehlers liegt. Hauptgrund hierfür dürften die unbrauchbare Definition der wahrscheinlichen WählerInnen, denn die entsprechenden Angaben verschärften in der Regel den Bias zugunsten der Republikaner.

Besser als die genauesten Umfrageserien waren die Aggregatoren. Das überrascht nicht wirklich, denn ihr Vorgehen ist darauf ausgerichtet, Fehleinschätzungen aufgrund von Ausreiser zu vermeiden. Meine Uebersicht hierzu lautet:

Endwerte der Umfrageaggregatoren

Effektiv: 51,3 zu 48,7 (Vereinfachung der Verhältniszahlen durch Reduktion der Angaben auf die beiden Hauptkandidaten)

. NateSilver/“538“ 51,3 zu 48,7 (R/D +/- 0,0)
. Sam Wang/ElectionConsoriumProjection 51,2 zu 48,8 (R+0,1)
. ElectionProjection 50,6 zu 49,4 (R+0,7)
. TalkingPointsMemo 50,5 zu 49,5 (R+0,8)
. RealClearPolitics 50,4 zu 49,6 (R+0,9)

Schnitt R+0,5

Die fünf gebräuchlichsten unter ihren haben eine finale Abweichung von maximal 0.9 Prozent; der mittlere Fehler betrug eine halben Prozentpunkt. Genau richtig lag Nate Silvers „538“, während alle anderen einen leichten Republikaner-Bias hatten. Am knappsten fiel der bei Sam Wangs Berechnung für das ElectionProjection der Universität Princeton aus, gefolgt von den Plattformen ElectionProjection und TalkingPointsMemo. Vergleichsweise ungenau war RealClearPolitics – der Aggregator, auf den sich die meisten (hiesigen) Massenmedien stützten. Er überschätzte Romney mit 0,9 Prozentpunkten und legte damit am deutlichsten einen knappen Ausgang nahe. Gänzlich unangebracht war die Attacke auf Nate Silver aus den Rängen der republikanischen Medien, kurz vor der Wahl, weil sie seiner Wahrscheinlichkeitsberechnung keinen Glauben schenken wollten.

(Selber habe ich am meisten auf Pollyvote abgestellt, ein Aggregator, der nicht nur Umfragen, sondern auch weitere Analysetools berücksichtigt; Die Abweichung hier: 0,3 – und zwar gunsten Romneys. Leider kurz vor der Wahl einem Hacker-Angriff zum Opfer gefallen).

Prognosen von Elektorenstimmen

Effektiv: 332 zu 2106

. Drew Linzer/Votamatic: 332 zu 206
. Josh Putnam/Frontloading: 332 zu 206
. Nate Silver/FiveThirtyEight: 313 zu 225
. Sam Wang/ElectionConsortiumPrinceton: 312 zu 236
. ElectionProjection: 303 zu 235
. RealClearPolitics: 303 zu 235

Es bleibt der Kommentar zur Liste der Abweichungen bei Elecotral College. Alles richtig hatten hier Josh Putnam, Professor für Politikwissenschaft am Davidson College, North Carolina, gleich auf mit seinem Kollegen Drew Linzer von der Emory University. Nate Silver hatten ebenfalls keinen Fehler, vergab aber die Stimmen nicht blockweise nach Gliedstaaten, sondern multipliziert sie mit Wahrscheinlichkeiten, weshalb er leicht schlechter abschneidet.

Mit einem Fehler (alle Florida, wo man mit einer republikanischen Mehrheit rechnet) folgen das ElectionConsortium, ElectionProjection und RealClearPolitics. Ein schwerer Missgriff machte hier übrigens Karl Rove, der Romney mit 285 Elektorenstimmen als Sieger sah.

Was bleibt?

Erstens, die Umfragen waren recht zuverlässig; die klassischen Telefonbefragung (mit Handynummern) bleibt die beste Methode.

Zweitens, die Aggregatoren sind genauer als die Umfrageserien, weil sie Ausreisser vermitteln. “538” war dabei besser als “RCP”.

Drittens, die Umrechnung von Wähler- auf Elektorenstimmen klappt umso besser, je mehr man rechnet und keine wishfull-thinking Zuschreibungen vornimmt.

Claude Longchamp