Daten lesen, speichern und bereitstellen¶
Einen Überblick zu öffentlichen Repositories mit Forschungsdaten erhaltet ihr z.B. in Open-Data.
Neben spezifischen Python-Bibliotheken zum Zugriff auf Dateisysteme und Geodaten stellen wir euch Serialisierungsformate und drei Werkzeuge genauer vor:
Siehe auch
- Scrapy
Framework zum Extrahieren von Daten aus Websites als JSON-, CSV- oder XML-Dateien.
- Pattern
Python-Modul zum Data Mining, Verarbeitung natürlicher Sprache, ML und Netzwerkanalyse
- Web Scraping Reference
Übersicht zu Web Scraping mit Python
Zum Speichern von relationalen Daten, Python-Objekten und Geodaten stellen wir euch PostgreSQL, SQLAlchemy und PostGIS vor.
Als nächstes zeigen wir euch, wie ihr die Daten über ein Application Programming Interface (API) bereitstellt.
Mit DVC stellen wir euch ein Werkzeug vor, das euch Datenprovenienz erlaubt. Damit vollzieht ihr die Herkunft und den Entstehungsweg von Daten nach.
Im Anschluß lernt ihr im nächsten Kapitel noch einige Good Practices und hilfreiche Python-Pakete zum Bereinigen und Validieren von Daten kennen.