Data Science in Action: Vom Abwasser-Monitoring bis zur Überlebens-Heuristik
Ein Deep Dive in ein hybrides Analyse-Dashboard für wissenschaftliche Daten und prädiktive Modellierung.
In der modernen Wissenschaft reicht es nicht mehr aus, Daten in statischen Tabellen zu präsentieren. Die Herausforderung liegt in der Interaktivität: Wie transformieren wir komplexe Zeitreihen und statistische Wahrscheinlichkeiten in ein Tool, das sowohl dem Wissenschaftler als auch dem Tech-Interessierten einen Mehrwert bietet?
Genau hier setzt unser neues Dashboard an. Entwickelt mit Streamlit, Plotly und Pandas, vereint es zwei grundverschiedene Domänen der Datenanalyse.
🧪 Teil 1: Die AMELAG Abwassersurveillance
Der Kern des Dashboards ist die Analyse von Viruslast-Daten aus Abwassersystemen. Hier geht es nicht nur um die Visualisierung von Kurven, sondern um die automatisierte Detektion von Ausbrüchen.
Der wissenschaftliche Ansatz
Um einen „Ausbruch“ mathematisch zu definieren, nutzen wir nicht einfach einen fixen Schwellenwert, sondern berechnen einen Z-Score basierend auf der Konfidenzintervall-Breite. Die Wahrscheinlichkeit eines Ausbruchs wird dann über eine Sigmoid-Funktion normiert.
Technik-Highlight: Die Logik hinter der Detektion
Python Implementation:
# Berechnung der Ausbruchswahrscheinlichkeit via Sigmoid-Funktion
vdf['ci_width'] = vdf['obere_schranke'] - vdf['untere_schranke']
vdf['z_score'] = (vdf['vorhersage'] - baseline) / (vdf['ci_width'].clip(lower=1e-6) / 2)
vdf['outbreak_prob'] = 1 / (1 + np.exp(-(vdf['z_score'] - 1.0)))
Visualisierung als Erkenntnis-Tool
- Saisonale Heatmaps: Ein log-skalierter Blick auf die Viruslast über das Jahr, um zyklische Muster zu erkennen.
- Korrelationsmatrizen: Mit Pearson-Korrelation analysieren wir, ob verschiedene Viren zeitlich synchron auftreten oder sich gegenseitig verdrängen.
🚢 Teil 2: Titanic Survival – Heuristik vs. ML
Als Kontrastprogramm integriert das Dashboard einen Prädiktor für das Überleben auf der Titanic. Während man hier normalerweise zu Random Forests oder XGBoost greift, zeigt dieses Modul die Macht von regelbasierten Heuristiken, wenn die Umgebung (z.B. Abhängigkeiten im System) instabil ist.
„Women and Children First“ in Code
Die Vorhersage basiert auf einer Kette von a-priori Regeln, die historische Überlebensraten widerspiegeln:
Python Implementation:
def predict_survival_heuristic(df):
predictions = []
for _, row in df.iterrows():
if row['Sex'] == 'female':
# Frauen in 3. Klasse überlebten seltener, es sei denn sie waren Kinder
predictions.append(1 if row['Pclass'] < 3 or row['Age'] < 15 else 0)
else:
# Männer hatten fast nur in 1. Klasse als Kinder Überlebenschancen
predictions.append(1 if row['Pclass'] == 1 and row['Age'] < 12 else 0)
return predictions
🎨 Design & UX: Wissenschaft trifft Ästhetik
Ein Tool ist nur so gut wie seine Bedienbarkeit. Um die Brücke zum Branding einer Data Science Spezialisten-Seite zu schlagen, wurde ein maßgeschneidertes CSS-Theme implementiert:
- Typografie: Einsatz der Poppins-Schriftart für maximale Lesbarkeit.
- Farbpalette: Deep Blue (
#2D3661) kombiniert mit einem lebendigen Violett (#9A46EC) für Highlights. - Struktur: Modulare Kacheln (Metrics) und interaktive Plotly-Charts, die auf allen Endgeräten flüssig laufen.
🚀 Fazit
Das Dashboard beweist: Ob es um die Überwachung von Pandemien geht oder um historische Datenanalysen – die Kombination aus robuster statistischer Logik und einem modernen Frontend ist der Schlüssel, um Daten in Wissen zu verwandeln.
Tech Stack Recap:
- 🐍 Python 3.12
- 📈 Streamlit (Framework)
- 📊 Plotly (Interaktive Visualisierung)
- 🐼 Pandas & NumPy (Datenmanipulation)


