Skip to content
Projekte
Plattformbaustein2026

Random-Walk-Gravity-Regression-Fallstudie

Entwickelt und validiert eine Regressionspipeline, die die Gravitationskonstante einer 2D-Random-Walk-Simulation vorhersagt und eine wettbewerbsartige Validierungsdatei exportiert.

Machine LearningRegressionPythonData Analysis

Ueberblick

Diese Data-Analysis-Fallstudie behandelt ueberwachtes Regressionslernen auf simulationsbasierten Daten. Der Workflow liest den Trainingsdatensatz, erstellt Features, vergleicht mehrere Regressionsmodelle, waehlt das beste Modell aus und schreibt Vorhersagen fuer das ungelabelte Validierungsset im geforderten Abgabeformat.

Problem

Das Validierungsset enthaelt Features, aber keine Labels. Das Modell muss daher aus den gelabelten Trainingsdaten den Zusammenhang zwischen Random-Walk-Verhalten und versteckter Gravitationskonstante lernen und gleichzeitig strikte Dateiformat-Anforderungen erfuellen.

Loesung

Ich habe ein reproduzierbares Notebook und ein Helper-Python-Modul erstellt, Train/Test-Validierung genutzt, mindestens vier Regressionsansaetze verglichen, einen HistGradientBoostingRegressor ausgewaehlt und die finale io25m025_validate.txt-Datei mit run_id- und gravity-Vorhersagen erzeugt.

Architektur

Datensatz

Das Trainings-CSV liefert gelabelte Simulationsfeatures; das Validierungs-CSV liefert dieselbe Feature-Struktur ohne Gravity-Labels.

Modellierung

Die Python-Pipeline bereitet Features vor, teilt Trainings- und Testdaten, bewertet mehrere Regressoren und haelt wiederverwendbaren Code in einem Helper-Modul.

Abgabe

Das finale Artefakt ist eine Plain-Text-Validierungsdatei mit exakt gefordertem Header und Vorhersagezeilen, ergaenzt durch Notebook- und HTML-Report-Evidenz.

Sicherheit

Das Projekt nutzt ausschliesslich lokale CSV-Dateien und haelt den Validierungsworkflow deterministisch und pruefbar; externe Services oder Credentials sind nicht erforderlich.

Zuverlaessigkeit

Die Abgabedatei wurde vor dem Packaging auf Zeilenanzahl, Header-Format, doppelte run_ids, fehlende Werte, Validierungsreihenfolge und Vorhersagebereich geprueft.

Wesentliche Merkmale

  • Feature-Aufbereitung und wiederverwendbares Helper-Modul fuer Regressionsexperimente
  • Vergleich mehrerer Regressionsmodelle mit Train/Test-Evaluation
  • Finaler Prediction-Export mit geforderter Student-ID-Namenskonvention
  • Notebook und HTML-Report dokumentieren Pipeline und Modellauswahl
  • Validierungschecks fuer Header, Zeilenanzahl, fehlende Werte, Duplikate und run_id-Ausrichtung

Ergebnisse und Wirkung

  • Bestes Hold-out-Modell erreichte etwa 1.19% normalisierte MAE und R2 von 0.9914
  • Gueltige io25m025_validate.txt-Datei fuer das ungelabelte Validierungsset generiert
  • Code, Notebook, HTML-Report, PDF-Instruktion und Prediction-Datei fuer die Abgabe paketiert

Tech-Stack

Pythonscikit-learnPandasJupyterRegressionFeature Engineering

Artefakte