Apache Spark for Data Engineers Masterclass

Niveau
Tijdsduur
Locatie
Op locatie
Startdatum en plaats

Apache Spark for Data Engineers Masterclass

Info Support
Logo van Info Support
Opleiderscore: starstarstarstarstar_border 8,3 Info Support heeft een gemiddelde beoordeling van 8,3 (uit 15 ervaringen)

Tip: meer info over het programma, prijs, en inschrijven? Download de brochure!

Startdata en plaatsen
placeVeenendaal
9 feb. 2026 tot 10 feb. 2026
Toon rooster
event 9 februari 2026, 09:00-16:00, Veenendaal
event 10 februari 2026, 09:00-16:00, Veenendaal
Beschrijving

Meer weten over de onderwerpen die aan bod komen en de vereiste voorkennis? Neem vrijblijvend contact met ons op.

Verdiep je kennis van Apache Spark om je dataworkflow te optimaliseren.

Beschrijving

In deze cursus leer je technieken en best practices voor het optimaliseren van Apache Spark-toepassingen. Je bestudeert de architectonische elementen van Spark en werkt met de Spark UI. Je identificeert en pakt veelvoorkomende prestatieproblemen veroorzaakt door shuffles en skew aan. Daarnaast leer je geavanceerde optimalisatiestrategieën voor join-, union- en merge-operaties, gegevensformaten, cachingmechanismen, garbage collector-instellingen, gegevenspartitionering, bucketing en Delta Lake-optimalisaties. Je verkent ook reguliere onderhoudstaken voor Spark-toepassingen en leert hoe je Spark-sessieconfigur…

Lees de volledige beschrijving

Veelgestelde vragen

Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.

Nog niet gevonden wat je zocht? Bekijk deze onderwerpen: Apache Spark, Apache, Apache Hadoop, Scala en Splunk.

Meer weten over de onderwerpen die aan bod komen en de vereiste voorkennis? Neem vrijblijvend contact met ons op.

Verdiep je kennis van Apache Spark om je dataworkflow te optimaliseren.

Beschrijving

In deze cursus leer je technieken en best practices voor het optimaliseren van Apache Spark-toepassingen. Je bestudeert de architectonische elementen van Spark en werkt met de Spark UI. Je identificeert en pakt veelvoorkomende prestatieproblemen veroorzaakt door shuffles en skew aan. Daarnaast leer je geavanceerde optimalisatiestrategieën voor join-, union- en merge-operaties, gegevensformaten, cachingmechanismen, garbage collector-instellingen, gegevenspartitionering, bucketing en Delta Lake-optimalisaties. Je verkent ook reguliere onderhoudstaken voor Spark-toepassingen en leert hoe je Spark-sessieconfiguraties kunt aanpassen voor optimale prestaties.

Leerdoelen

  • Describe the architecture of a spark application. [Remember]
  • Explain the structure and functionality of the Spark UI. [Understand]
  • Predict common performance issues casued by shuffling and data skew. [Apply]
  • Optimize join, union, and merge operations in Spark. [Analyze]
  • Change the data format for optimal performance. [Apply]
  • Implement caching mechanisms and garbage collector settings for enhanced performance. [Apply]
  • Use data partitioning and bucketing in Spark workloads. [Apply]
  • Apply Delta Lake optimizations for better performance in Spark. [Apply]
  • Describe regular maintenance tasks for Spark applications. [Understand]
  • Customize Spark session configurations for optimal performance. [Apply]

Onderwerpen

  1. Introduction to Spark Architecture and Ecosystem
  2. Understanding the Spark UI
  3. Common Performance Issues in Spark
  4. Optimizing Data Operations in Spark
  5. Data Formats and Performance
  6. Caching and Garbage Collection in Spark
  7. Data Partitioning and Bucketing
  8. Delta Lake Optimizations
  9. Maintenance of Spark Applications
  10. Customizing Spark Session Configurations
Introduction to Spark Architecture and Ecosystem
  • Overview of Spark architecture
  • Key components: Driver, Executors, Cluster Manager
  • The ecosystem: JVM, Kubernetes, Yarn, HDFS, Hive Metastore
Understanding the Spark UI
  • Structure of the Spark UI
  • Functionality of different tabs (Jobs, Stages, Storage, Environment, Executors)
  • Monitoring and diagnosing Spark applications
Common Performance Issues in Spark
  • Shuffles and Data Skew
  • Sorting
  • Narrow and Wide transformations
Optimizing Data Operations in Spark
  • Join operations: broadcast joins, shuffle joins
  • Union and merge operations
Data Formats and Performance
  • Common data formats such as json, csv and parquet
  • Impact of data format on performance
  • Making optimal use of data formats for Spark applications
Caching and Garbage Collection in Spark
  • Caching mechanisms in Spark (cache(), persist())
  • Data persistence
  • Garbage collection settings and their impact on performance
Data Partitioning and Bucketing
  • Partitioning strategies and impact in Spark
  • Bucketing techniques and their benefits
Delta Lake Optimizations
  • Introduction to Delta Lake
  • Performance optimization in Delta Lake
  • Delta Lake housekeeping
Maintenance of Spark Applications
  • Regular maintenance tasks for Spark applications
  • Monitoring and diagnostics tools
Customizing Spark Session Configurations
  • Spark session configurations and their impact on performance
  • Common spark session parameters
  • Customizing configurations for specific workloads
Blijf op de hoogte van nieuwe ervaringen
Er zijn nog geen ervaringen.
Deel je ervaring
Heb je ervaring met deze cursus? Deel je ervaring en help anderen kiezen. Als dank voor de moeite doneert Springest € 1,- aan Stichting Edukans.

Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.

Download gratis en vrijblijvend de informatiebrochure

(optioneel)
(optioneel)
(optioneel)
(optioneel)
(optioneel)
(optioneel)
(optioneel)

Heb je nog vragen?

(optioneel)

Aanmelden voor nieuwsbrief

We slaan je gegevens op om je via e-mail en evt. telefoon verder te helpen.
Meer info vind je in ons privacybeleid.