Beschrijving
In de training "Intermediate Python voor Data Engineers" leer je hoe je veelvoorkomende Data Engineering-taken in Python uitvoert: van het inladen van veelvoorkomende bestandsformaten tot het ontsluiten van API's en het opslaan en later inladen van Python-objecten (zoals getrainde Machine Learning-modellen). Na afloop kun je Python effectief inzetten om op willekeurige plekken scripts te schrijven voor dataverwerken, bijvoorbeeld in Databricks of Azure Functions.
Na afloop van de cursus kun je Python-scripts schrijven om data te ontsluiten en verwerken uit diverse bronnen. Hierbij ligt de focus op het inladen, opslaan en doorvoeren van complexere bronnen, API's en bestandsformaten.
Doelgroep
De training "Intermediate Python voor Data Engineers" is gericht op Data Engineers, data-analisten en Data Scientists die data effectief willen kunnen verwerken. Qua cloudgebruik richten we ons op Azure, maar de manieren van werken zijn niet Azure-specifiek: ook deelnemers die meer on-premises, in private clouds of op andere public clouds werken (bijv. AWS, GCP of Oracle Cloud) hebben veel aan deze training.
Voor deze training is ervaring met Python een vereiste. We verwachten dat je minimaal de volgende zaken al onder de knie hebt:
- Inlezen van eenvoudige CSV-bestanden.
- Modules in Python inladen en gebruiken.
- Eenvoudige databewerkingen doen met DataFrames, bijvoorbeeld in Pandas, Koalas of PySpark.
Methode
Contacteer ons voor alle informatie over deze cursus.
Inhoud
We werken gedurende twee dagen met veel hands-on opdrachten in Python. Na afloop heb je de volgende leerdoelen bereikt:
- Complexe(re) bestanden kunnen verwerken, zoals geneste JSON-bestanden, XML en Parquet
- Begrijpen hoe filesystems in Windows- en Linux-omgevingen afwijken
- Bestanden kunnen kopiëren en verplaatsen
- Weten wanneer zaken binnen Python of beter binnen een shell-omgeving uitgevoerd moeten worden
- Pickle kunnen gebruiken om Python-objecten zoals getrainde ML-modellen of verwerkte Data Frames op te slaan op een Data Lake of schijf.
- Kunnen lezen en schrijven naar een Azure Data Lake met behulp van de Azure modules
- API's kunnen ontsluiten en slimme manieren weten om dit op grotere schaal te kunnen doen
- Logging toepassen om gedurende de uitvoer van je programmacode op een gestructureerde manier de voortgang te monitoren en aan te sluiten bij bestaande logging-oplossingen.
Certificering
Deelnamecertificaat: deelnemers ontvangen na afloop van de training een certificaat dat ze deze cursus voltooid hebben.