arrow arrow--cut calendar callback check chevron chevron--large cross cross--large download filter kununu linkedin magnifier mail marker menu minus Flieger phone play plus quote share

Twitteranalyse zur US-Wahl 2020

Trump und Twitter – mit diesem Thema könnte man verschiedenste wissenschaftliche Disziplinen jahrelang beschäftigen. Wenn dann auch noch DER Wahlkampf des Jahrzehnts ansteht, ist das ein echtes Paradies für uns Daten-Liebhaber. Im Folgenden werde ich zeigen, wie wir die Datenströme zur US-Wahl auf Twitter analysiert haben, um zu untersuchen, welche Aussagekraft soziale Netzwerke für den Wahlausgang haben. 

Dashboard Tutorial

Hier geht's direkt zum Dashboard

Schau dir unser Dashboard zu den US-Wahlen 2020 mit über 900.000 Tweets, 2 Millionen Hashtags und 344.300 Benutzern an, die wir in den Monaten Oktober und November gesammelt, analysiert und visualisiert haben. 

Wie kommen wir an die Daten?

Twitter bietet eine API an, über die die aktuellen Tweets gestreamt werden können. Mithilfe der C# Bibliothek „Tweetinivi“ und einem API-Schlüssel von der Twitter API können wir die gewünschten Tweets sammeln und speichern. Den Stream haben wir mit gezielten Keywords bzw. Hashtags wie zum Beispiel „#RedWave“ oder „#Democrats“ gefiltert, um nur Tweets zu erhalten, die sich mit der Wahl in der USA befassen. Zusätzlich haben wir die Sprache auf Englisch begrenzt. Die über die API versendeten Daten enthalten zu jeden Tweet eine Vielzahl an Metadaten im JSON-Format. Diese Daten beinhalten Informationen über den Tweet und den Benutzer. Twitter bietet eine Vielfalt an Metadaten an, jedoch wird für diese Analyse nicht jeder Datensatz benötigt. Datensätze wie Profilbilder, Bilder, Links, bestimmte Indizien usw. haben wir mangels Relevanz für die Fragestellung außenvorgelassen. Wir haben die Datensätze ausgewählt, die Du im Datenmodell Abbildung 01 sehen kannst. Aus einem Hashtag oder dem Tweet Text können wir ableiten, ob dieser für Trump oder Biden ist. Diese Datensätze erfüllen bei unserer Analyse einen sinnvollen Zweck. Für dieses Projekt haben wir ein Data Warehouse erstellt, wo die Daten in verschiedene Ebenen geladen und aufbereitet werden. Mithilfe von SSIS haben wir eine ELT-Strecke gebaut, die uns die Daten automatisch aufbereitet und in unseren Datenmodell hochlädt. Die Tabelle Bundesstaaten haben wir zusätzlich eingefügt, um auf einer USA-Karte die Auswertung in den Bundesstaaten zu visualisieren. Die Daten aus dem Datenmodell wurden zur Visualisierung in Power BI verwendet.

Foto von Przemyslaw Kasperski
Przemyslaw Kasperski

Data Engineer

Unsere Analyse

Nicht alle Daten der Twitter API sind korrekt, das liegt aber nicht an Twitter, sondern an den Benutzern. Die Benutzer geben ihre Daten nicht immer zu 100 Prozent richtig an und deshalb gibt es oft unsinnige Daten. Manche Benutzer benennen ihren Standort nicht unbedingt nach einem Standort, sondern einem Hashtag oder einem Text. Es lässt sich jedoch anhand des Textes manchmal ein Bundesstaat feststellen. Aus dem Grund haben wir das Attribut „LocationKategorie“ hinzugefügt, das uns den Standort der Benutzer mit den Bundesstaaten deklariert. Ein Text wie z.B. „halololololo, NY“ oder „Albany“ wird in „LocationKategorie“ New York eingetragen. Dafür haben wir in den SSIS Paketen Listen erstellt, die den Benutzerstandort auf Übereinstimmungen prüfen und anschließend die „LocationKategorie“ mit dem passenden Bundesstaat füllen. Dadurch entstanden die amerikanischen Karten in den Visualisierungen. Am Ende haben wir geschaut, welcher Kandidat beliebter bei den Tweets, Hashtags und Benutzern pro Bundesstaat ist. Mit diesen drei Faktoren entstand unser Ergebnis. Zusätzlich mussten wir manuell eine Tabelle „Bundesstaaten“ entwickeln, die uns die Information gibt, wie viele Wahlmänner ein Bundesstaat hat. Diese Wahlmänner haben wir pro Kandidat summiert und bekamen ein Endergebnis. 

Fazit

In unserem interaktiven Dashboard haben wir unsere Auswertung vom 04.11.2020 der tatsächlichen Auswertung von Google vom 16.11.2020 gegenübergestellt. Nach unserer Twitter Analyse gewinnt Biden mit 273 Wahlleuten, das tatsächliche Ergebnis am 16.11.2020 besagt, dass Biden mit 290 Wahlleuten gewonnen hat. Wir haben also nicht alle Bundesstaaten korrekt getroffen, aber dass das Ergebnis so nah an unserer Analyse ist, und das nur mit Twitter, hat uns überrascht. Es hat uns wieder einmal sehr viel Spaß gemacht, eine Analyse zu einer Wahl zu machen.