PySpark
Halfdaagse training
Werk je met steeds grotere datasets en wil je leren hoe je deze efficient verwerkt met Python? In deze training maak je kennis met PySpark, de Python-interface voor Apache Spark: een krachtig framework dat speciaal is ontworpen voor het snel en schaalbaar verwerken van grote hoeveelheden data.
Je leert stap voor stap hoe Spark werkt, hoe je data ophaalt, bewerkt en opslaat met behulp van DataFrames. De training bestaat uit een combinatie van duidelijke uitleg en praktische oefeningen, zodat je de theorie direct toepast in de praktijk.
Na afloop kun je zelfstandig aan de slag met PySpark in jouw rol als data engineer of data scientist en leer je hoe Spark onder de motorkap werkt!
Alles over jouw training
Compleet overzicht trainingsinformatie
In onderstaande tabbladen vind je alle informatie over de training. Heb je na het lezen van de informatie nog vragen, neem dan gerust contact met ons op.
Wat je leert tijdens de training
Na deze training heb je kennis van:
- Wat Apache Spark is en wanneer je het nodig hebt
- Hoe Spark werkt
- Hoe je data extracties kunt doen met PySpark
- Hoe je DataFrame transformaties toepast
- Hoe je DataFrames opslaat
De training bestaat uit een combinatie van theorie en interactieve opdrachten.
Programma:
De volgende modules maken deel uit van de training:
- Introductie van Apache Spark
- Wat is Apache Spark?
- Wanneer gebruik je Spark?
- Wat is PySpark?
- Hoe werkt Spark?
- Spark Componenten: Cluser, Driver & Executors
- Data Structures: RDD’s & dataframes
- Transformation & actions
- Data extracties met PySpark
- Parquet, JDBC en Delta lezen
- Opdracht 1: CSV Extractie
- DataFrame Schema’s
- Opdracht 2: Pas een schema toe
- DataFrame transformaties
- Werken met kolommen
- Filters toepassen
- Conditionele logica
- Opdracht 3: Kolommen toevoegen
- Joinen en union
- Aggregaties
- Opdracht 4: Aggregeren
- DataFrames opslaan
- DataFrame opslaan
- Opdracht 5: DataFrames opslaan
Benodigde voorkennis
Er is basiskennis en gebruik van Python benodigd.
Kosten training
De kosten van de training bedragen € 362,50- per persoon per halve dag excl. BTW. Indien de training op bij jou op locatie is, zijn de kosten € 1000,- per halve dag voor maximaal 6 deelnemers. Indien de training op bij jou op locatie is, zijn de kosten € 1050,- per halve dag voor maximaal 6 deelnemers.
Locatie training
De training vindt plaats op aanvraag. De locatie kan in overleg worden bepaald. Dit kan zijn bij ons op locatie (Breda/Rotterdam/Bunnik), online, of bij uw eigen organisatie op locatie
Trainingslocatie Breda
Stadionstraat 36
4815 NG Breda
Trainingslocatie Bunnik
Kosterijland 40
3981 AJ Bunnik
Trainingslocatie Rotterdam
Weena 742A
3014 DA Rotterdam
Incompany training
Volg de training samen met je team of collega’s op een datum en locatie naar keuze! Het programma wordt aangepast aan jullie persoonlijke wensen of zelfs volledig op maat gemaakt. Interesse? Neem contact op voor meer informatie.
Andere Data Science trainingen:
Wil je andere Data Science trainingen volgen, kijk dan eens bij onderstaande trainingen.
Meld je nu aan voor PySpark
Inschrijven training
Wil je deelnemen aan de training, vul het onderstaande formulier in om je aan te melden. Wanneer je dat wil, kan je ook gelijk andere collega’s voor de training inschrijven. Vink hiervoor de optie ‘Ja, ik wil graag meer collega’s inschrijven’ op het inschrijfformulier aan.
Trainingen van topkwaliteit
Bij de Cmotions Academy staat kwaliteit voorop. We besteden veel tijd en aandacht aan ons lesmateriaal en werken uitsluitend met ervaren trainers. Dit is wat je van onze trainingen kan verwachten.
- Ervaren trainers met praktijkkennis
- Online leeromgeving met lesmateriaal
- Deelnemers ontvangen Certificaat van deelname
- Volop aandacht door kleine groepen
- Onze trainingen scoren gemiddeld 8,6
Alles over jouw training
Andere trainingen
- Geen categorieën

