Python für Data Science

Dies ist ein Tutorium über Data Science mit Python. Das wirft sofort die Frage auf: Was ist Data Science? Der Begriff ist mittlerweile allgegenwärtig, aber es gibt keine einheitliche Definition. Manche halten den Begriff sogar für überflüssig, denn welche Wissenschaft hat nicht mit Daten zu tun? Dennoch scheint mir, dass Data Science mehr als nur ein Hype ist: Wissenschaftliche Daten werden immer umfangreicher und lassen sich mit herkömmlichen mathematischen und statistischen Methoden allein oft nicht mehr adäquat erschließen – zusätzliche Hacking-Fähigkeiten sind gefragt. Es handelt sich jedoch nicht um ein neues Wissensgebiet, das ihr erlernen müsst, sondern um eine Reihe von Fähigkeiten, die ihr in eurem Bereich anwenden könnt. Ob ihr nun astronomische Objekte oder Maschinen analysiert, Börsenkurse prognostiziert oder in anderen Bereichen mit Daten arbeitet, das Ziel dieses Tutorials ist es, euch in die Lage zu versetzen, Aufgaben in eurem Bereich programmatisch zu lösen.

Dieses Tutorial ist nicht als Einführung in Python oder in die Programmierung im Allgemeinen gedacht; dafür gibt es das Python Basics-Tutorial. Stattdessen soll es den Python Data Science Stack – Bibliotheken wie IPython, NumPy, pandas, Matplotlib und verwandte Tools – vorstellen, damit ihr anschließend eure Daten effektiv analysieren und visualisieren könnt.