Der Titel klingt nach einer betrunken erstellten wissenschaftlichen Abhandlung – und das ist dann auch gar nicht so weit von der Wahrheit entfernt. Mit zwei Einschränkungen: Der Autor ist allerhöchstens beschwipst und vor allem tut er nur so, als würde er wissenschaftlich arbeiten. In Zeiten der Wissenschafts-Verdrossenheit und Laien-Besserwisserei muss man das ausdrücklich betonen: Ich bin kein professioneller Daten-Analyst und meine Methodik ist im besten Fall schlampig.
Aber worum geht’s eigentlich? Seit Jahren beobachten wir auf Cocktailbart.de unsere Zugriffszahlen und wissen: Im Juli und Dezember haben wir die meisten Besucher. Warum? Weil die Leute im Sommer gerne Cocktails trinken – und an Weihnachten/Silvester auch. Was wir so ganz grob ahnen: dass zu besonders sonnigen Zeiten die Zugriffszahlen gerne mal stark ansteigen und in langen Regenphasen alles sprichwörtlich bergab rinnt. Um das final zu überprüfen, haben wir uns jetzt den CodeInterpreter der KI ChatGPT4 geschnappt und ihn zum einen mit den Wetterdaten des deutschen Wetterdienstes gefüttert, zum anderen mit unseren Besucherzahlen. Alles jeweils vom 03.04.2022 bis 10.08.2023, die komplett chaotische Corona-Zeit ist hier also schon (großteilig) raus aus der Rechnung.
Warum sind unsere Daten fehlerbehaftet?
Zum einen mussten wir uns eine Wetterstation beim DWD rauspicken. Weil sich die “durchschnittlichste Wetterstation Deutschlands” nicht herausfinden ließ, haben wir uns anhand diverser Artikel wie diesem hier am Ende für Nürnberg entschieden. Das liegt mittig, da kennen wir uns aus und anscheinend ist die Gegend in Sachen Wetter wenigstens unauffällig. Die viel schwächere Datenlage bieten aber unsere Nutzerdaten. Zum anderen geben nur 50 bis 70% der Nutzer ihre Zustimmung zur Datenerhebung, zum anderen sind unsere Zugriffszahlen von Wochenenden, Feiertagen und diversen internen und externen Faktoren beeinflusst, etwa wenn unser Rezept-Plugin abschmiert und wir deswegen nicht mehr in Googles Rezept-Snippets auftauchen. Was in mindestens zwei Fällen für mehrere Tage passiert ist und jeweils für krasse Besuchereinbrüche gesorgt hat.
Feiertage und Wochenenden kann der Codeinterpreter mit einberechnen, unsere eigenen Fuckups nicht. Wenn auch nur, weil wir zu faul sind, sie für ihn aufzubereiten. Für eine generelle Überprüfung unseres Bauchgefühls “Bei Sonnenschein wird mehr gesoffen”, sollten unsere Daten jedoch unserem Verständnis nach reichen. Also stürzen wir uns in die Analyse, die ihr übrigens hier komplett nachvollziehen könnt, um zu überprüfen, wie wir vorgegangen sind und welche (langweiligen) Parameter und Methoden ChatGPT für die Analysen ansetzt.
Und wie ChatGPT scheinbar einmal komplett den Datensatz zerfetzt hat, weswegen wir die Berechnungen doppelt durchführen und sogar einen neuen Chat aufmachen mussten. Für alle, die jetzt schon anfangen, den KI-Chatverlauf umfangreich zu peer-reviewen: Vielen Dank für eure Mühen, aber ich bin halt voll echt wirklich kein Wissenschaftler. Ihr schießt da mit Eiswürfeln auf Coupettes! (Über Anregungen zur Verbesserung der Methodik für Folgeartikel freue ich mich freilich trotzdem.)
Was hat der Code-Interpreter mit den Daten gemacht?
Im ersten Schritt hat er die Daten des Deutschen Wetterdienstes hergenommen, also diese hier:
- JJJJMMDD: Datum im Format JJJJMMDD (JahrMonatTag)
- Minimum der Temperatur in 5 cm über dem Erdboden: Mindesttemperatur in 5 cm Höhe über dem Erdboden (in Grad Celsius)
- Minimum der Temperatur in 2 m über dem Erdboden: Mindesttemperatur in 2 m Höhe über dem Erdboden (in Grad Celsius)
- Mittel der Temperatur in 2 m über dem Erdboden: Durchschnittstemperatur in 2 m Höhe über dem Erdboden (in Grad Celsius)
- Maximum der Temperatur in 2 m über dem Erdboden: Maximaltemperatur in 2 m Höhe über dem Erdboden (in Grad Celsius)
- Mittel der relativen Feuchte: Durchschnittliche relative Luftfeuchtigkeit (in Prozent)
- Mittel der Windstärke: Durchschnittliche Windstärke
- Maximum der Windgeschwindigkeit: Maximale Windgeschwindigkeit (in km/h)
- Summe der Sonnenscheindauer: Gesamtsonnenscheindauer (in Stunden)
- Mittel des Bedeckungsgrades: Durchschnittlicher Bedeckungsgrad des Himmels (in Achteln)
- Niederschlagshöhe in mm: Niederschlagsmenge (in mm)
und sie dann mit den Daten kombiniert, die er aus demselben Zeitraum von unserer Webseite hatte:
- Tag: Datum des Tages, für den die Zugriffsdaten erfasst wurden.
- Nutzer: Anzahl der Nutzer, die die Webseite an diesem Tag besucht haben.
- Sitzungen: Anzahl der Sitzungen, die an diesem Tag auf der Webseite registriert wurden.
- Durchschnittl. Sitzungsdauer: Durchschnittliche Dauer der Sitzungen an diesem Tag (in Sekunden).
Wobei wir uns bei der weiteren Analyse vor allem auf die Nutzer versteift haben, da sowohl die Sitzungen als auch die Durchschnittliche Sitzungsdauer nochmal etwas unzuverlässiger sind, was die externen Faktoren angeht.
Zu welchem Ergebnis kommt die KI in ihrer Analyse?
Nachdem Kollege ChatGPT die Datensätze zusammengeführt hat, macht er als erstes eine Korrelationsanalyse. Bedeutet: er sucht Zusammenhänge zwischen den Daten, will also wissen, ob bestimmte Wetterverhältnisse sich auf die Nutzerzahlen auswirken. Dies tut er mit Werten zwischen -1 (wirkt sich stark negativ aus) bis +1 (wirkt sich stark positiv aus). Das sieht dann so aus:
- Min. Temperatur in 5 cm über dem Erdboden: 0.137
- Min. Temperatur in 2 m über dem Erdboden: 0.138
- Mittel der Temperatur in 2 m über dem Erdboden:0.127
- Max. Temperatur in 2 m über dem Erdboden: 0.114
- Mittel der relativen Feuchte: −0.029
- Mittel der Windstärke: 0.042
- Max. der Windgeschwindigkeit: 0.073
- Summe der Sonnenscheindauer: −0.007
- Mittel des Bedeckungsgrades: 0.015
- Niederschlagshöhe in mm: 0.035
Im Klartext: Lediglich die Temperatur hat einen eindeutigen, wenn auch nicht besonders großen Einfluss auf das Nutzerverhalten der Cocktailbart-Leser. Wenn’s warm ist, werden einfach ein klein wenig eher die Shaker ausgepackt. Ob es regnet oder die Sonne scheint, ist euch bei 25 Grad im Schatten scheinbar vollkommen egal. Darauf erstmal ein wohlverdientes, digitales High Five. Trotzdem ist der Einfluss aber wohl zu vernachlässigen. Als Vergleich dazu liegt der Einfluss der Wochentage etwa bei 0.504 – nach unserer Bitte, zu bedenken, dass an Wochenenden und vor Feiertagen generell mehr gebechert wird, bestätigt uns die KI extra nochmal in dieser Vermutung. Die weitere Analyse spuckt dann erstmal nur Binsenweisheiten aus:
Beobachtungen:
- Es gibt eine gewisse Saisonalität sowohl in den Zugriffszahlen als auch in den Temperaturdaten. Wie erwartet steigt die Temperatur in den Sommermonaten und fällt in den Wintermonaten.
- Es gibt eine Tendenz für höhere Zugriffszahlen während der wärmeren Monate, was mit der Zeit des Jahres korrespondiert, in der die Temperaturen höher sind. Dies könnte darauf hindeuten, dass Menschen in den wärmeren Monaten eher dazu neigen, Cocktails zu konsumieren und daher die Webseite häufiger besuchen.
- Es gibt jedoch auch Zeiträume, in denen die Zugriffszahlen hoch sind, obwohl die Temperaturen nicht besonders hoch sind. Dies könnte auf andere Faktoren zurückzuführen sein, die unabhängig von der Temperatur sind, wie z.B. Feiertage oder Wochenenden, wie Sie bereits erwähnt haben.
No shit, Sherlock.
Werden je nach Wetter unterschiedliche Cocktails getrunken?
Diese Frage müssten wir mutmaßlich mit einem bedeutend größeren Datensatz beantworten – leider ist’s recht mühsam, die Daten von über 500 Artikeln zusammenzuschieben. Aber wir brauchen ja auch noch was für den Folgeartikel. Für diesen füttern wir den CodeInterpreter mal nur mit den tageweisen Zugriffszahlen für die Startseite und die 10 meistbesuchten Cocktail-Artikel des Zeitraums. Das sind:
- Moscow Mule
- Old Fashioned
- Pornstar Martini
- Amaretto Sour
- Gin Basil Smash
- Mai Tai
- Mexikaner
- Cosmopolitan
- Bahama Mama
- White Russian
Sinnvolle Ergebnisse? Für die meisten davon nicht – alle haben einen Korrelationswert grob zwischen 0 und 0.35 an, also lediglich eine leichte bis moderate Korrelation. Anomalien wie ein Korrelationswert von 0.883 der Temperatur mit der Startseite stellen sich später als Rechenfehler heraus. Dabei hatten wir zunächst sogar gehofft, dass viele Nutzer bei allgemeinem Cocktail-Jieper im Angesicht schönen Wetters auf Cocktailbart.de schauen und sich fragen “Was trinken wir denn heute?”. Doof nur: Auch die Startseiten-Korrelation ist mit 0.116 dann doch sehr niedrig – betrachtet man lediglich die Direktzugriffe, also all jene Nutzer, die ohne Umwege zu uns schauen, liegt der Wert sogar bei nur 0.041.
Heißt: Beinharte Cocktailbart-Fans sind besonders wetterunabhängige Trinker. Hätten wir uns ja denken können.
Oh und ach: Eigentlich hätten wir euch gerne die Diagramme und Scatterplot-Grafiken gezeigt, die uns ChatGPT während der Analyse ausgespuckt hat. Da die KI sich aber nur den eigenen Text, nicht aber die Daten merkt, kann er die nach dem einmaligen Schließen des Fensters leider nicht mehr darstellen. Sorry, beim nächsten Mal passieren wir da besser auf. Dann gibt’s auch was zu gucken.
Die Bilder für diesen Artikel wurden mit Hilfe von KI erstellt.
Zuletzt überarbeitet am
Jetzt für den Newsletter anmelden und nie wieder einen Cocktailbart-Artikel verpassen
Kommentar hinzufügen