Data Engineering 360°: Azure • Apache Spark • Python

Niveau
Tijdsduur
Trainers
Dewi de Baat+2
Locatie
Op locatie
Startdatum en plaats
Logo van Novalinq
Opleiderscore: starstarstarstarstar_half 8,7 Novalinq heeft een gemiddelde beoordeling van 8,7 (uit 39 ervaringen)

Tip: meer info over het programma, prijs, en inschrijven? Download de brochure!

Startdata en plaatsen

placeHaarlem
23 mrt. 2022 tot 22 jun. 2022
check_circle Startgarantie
Toon rooster
event 23 maart 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 1 - Data Engineering 360°
event 30 maart 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 2 - Data Engineering 360°
event 6 april 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 3 - Data Engineering 360°
event 13 april 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 4 - Data Engineering 360°
event 20 april 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 5 - Data Engineering 360°
event 11 mei 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 6 - Data Engineering 360°
event 18 mei 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 7 - Data Engineering 360°
event 25 mei 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 8 - Data Engineering 360°
event 1 juni 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 9 - Data Engineering 360°
event 8 juni 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 10 - Data Engineering 360°
event 15 juni 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 11 - Data Engineering 360°
event 22 juni 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 12 - Data Engineering 360°
placeHaarlem
21 sep. 2022 tot 21 dec. 2022
check_circle Startgarantie
Toon rooster
event 21 september 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 1 - Data Engineering 360°
event 28 september 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 2 - Data Engineering 360°
event 5 oktober 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 3 - Data Engineering 360°
event 12 oktober 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 4 - Data Engineering 360°
event 2 november 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 5 - Data Engineering 360°
event 9 november 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 6 - Data Engineering 360°
event 16 november 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 7 - Data Engineering 360°
event 23 november 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 8 - Data Engineering 360°
event 30 november 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 9 - Data Engineering 360°
event 7 december 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 10 - Data Engineering 360°
event 14 december 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 11 - Data Engineering 360°
event 21 december 2022, 09:30-16:30, Haarlem - Figeehal 2, Dag 12 - Data Engineering 360°

Beschrijving

Novalinq. Kickstart je data.

Wij helpen organisaties om data om te zetten in succes. Ontdek hoe wij waarde toevoegen met de overvloed aan digitale informatie.

Leer het zelf doen en toepassen in onze academy of start jouw data project samen met ons development team.

Data Engineering 360°: de opleiding tot Data Engineer

Heb je een aantal jaren werkervaring als programmeur? En wil je graag de overstap maken naar een functie als Data Engineer? Dan is de opleiding Data Engineering 360° bedoeld voor jou!

Waarom een opleiding volgen tot Data Engineer?

De opleiding Data Engineering 360° sluit aan op de groeiende behoefte aan mensen met kennis over het organiseren van data voor analytische doeleinden en het beschikbaar en bruikbaar maken van deze data voor organisaties en bedrijven.

In de afgelopen jaren stond het verzamelen van data centraal. Inmiddels zitten we in een tijd waarin het verzilveren van data van belang is. Het is de rol van de Data Engineer o…

Lees de volledige beschrijving

Veelgestelde vragen

Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.

Nog niet gevonden wat je zocht? Bekijk deze onderwerpen: Apache Spark, Data engineer, Python, Microsoft Azure en Apache.

Novalinq. Kickstart je data.

Wij helpen organisaties om data om te zetten in succes. Ontdek hoe wij waarde toevoegen met de overvloed aan digitale informatie.

Leer het zelf doen en toepassen in onze academy of start jouw data project samen met ons development team.

Data Engineering 360°: de opleiding tot Data Engineer

Heb je een aantal jaren werkervaring als programmeur? En wil je graag de overstap maken naar een functie als Data Engineer? Dan is de opleiding Data Engineering 360° bedoeld voor jou!

Waarom een opleiding volgen tot Data Engineer?

De opleiding Data Engineering 360° sluit aan op de groeiende behoefte aan mensen met kennis over het organiseren van data voor analytische doeleinden en het beschikbaar en bruikbaar maken van deze data voor organisaties en bedrijven.

In de afgelopen jaren stond het verzamelen van data centraal. Inmiddels zitten we in een tijd waarin het verzilveren van data van belang is. Het is de rol van de Data Engineer om de organisatie te helpen data effectief in te zetten om datagedreven beslissingen te kunnen maken.

Een Data Engineer is inmiddels een veelgevraagde functie binnen met name datagedreven organisaties. Er zijn zelfs meer vacatures voor Data Engineers dan voor Data Scientists. De verwachting is dat het gat tussen vraag en aanbod in de toekomst alleen nog maar groter zal worden.

Doordat het vakgebied van data engineering relatief nieuw is, staan data engineers voor bijzondere uitdagingen. Zo bestaat er (nog) geen officiële studie waardoor het voor (toekomstige) Data Engineers belangrijk is relevante ervaring op te doen in de praktijk en zo snel mogelijk hoogwaardige kennis te vergaren. Beide doe je op in deze opleiding.

Wat houdt de opleiding Data Engineering 360° precies in?

Data Engineering 360° is één van de meest uitgebreide opleidingen van Novalinq. Deze opleiding leidt je op tot Data Engineer.  Vanuit een 360°-overzicht leer je in twaalf dagen hoe je data kan koppelen, organiseren en ontsluiten, zodat een organisatie effectief gebruik kan maken van de kracht van die data. Met andere woorden, je leert hoe je een organisatie helpt om data om te zetten in actie. 

Data engineering is het aspect van data science dat zich richt op het praktisch toepassen van dataverzameling en -analyse. Voor al het werk dat Data Scientists doen om vragen te beantwoorden met behulp van grote hoeveelheden informatie, moeten er mechanismen zijn om die informatie te verzamelen en te valideren.

Om dat werk uiteindelijk enige waarde te laten hebben, moeten er ook mechanismen zijn om het toe te passen op de dagelijkse processen. Dat zijn beide ingenieurstaken: het toepassen van wetenschap op praktische, functionerende systemen.

Met welke tools ga je werken? 

Tijdens de opleiding Data Engineering 360° maak je gebruik van Python, SQL en Spark. Deze tools helpen je om de beschikbare data in de juiste vorm bij elkaar te brengen en te organiseren. Vaak moet je hierbij op verschillende platforms werken, omdat de gegevens uit verschillende bronnen komen.

De docenten nemen je mee in Python, waarbij je meer inzicht krijgt in (big)data-management, (big)data-architectuur, (big)data-infrastructuur, datakwaliteit, dataveiligheid, data-opslag en data-modelling. Je krijgt inzicht in de verschillende vormen van een pipeline en leert de code voor deze pipelines aan te passen. Vervolgens leer je data te transformeren in Spark.

Aan het eind van dit programma heb je kennis van:

  • Model- en data gestuurde architectuur
  • De rol van een data engineer
  • Python toepassen voor data verkenning en data processing
  • Een data lake oplossing bedenken en uitwerken
  • Een juiste serving layer te ontwerpen
  • Een batch processing oplossing te ontwerpen
  • Een stream processing oplossing te ontwerpen
  • Data engineering toepassen in onbekende situaties
  • Data security in data engineering

Voor wie is de opleiding Data Engineering 360° geschikt?

Deze opleiding is bedoeld voor professionals die affiniteit hebben met data en al data transformeren in bruikbare informatie binnen een organisatie. De opleiding is ook uitermate geschikt voor mensen die zich willen omscholen, of die zich willen laten specialiseren als Data Engineer. Belangrijk is dat je enige jaren werkervaring hebt als programmeur.

Duur van de opleiding

Het programma Data Engineering 360° duurt twaalf dagen verdeeld over twaalf weken. Eén dag per week zal er klassikaal les worden gegeven door ervaren trainers. Daarnaast krijg je online persoonlijke begeleiding. De groepsgrootte is beperkt tot 8 deelnemers om persoonlijke aandacht te garanderen. 

Je wordt elke week gevraagd om een opdracht te maken. Aan het einde van elke week wordt de voortgang geëvalueerd met een docent via Slack. Van de deelnemers wordt verwacht dat zij tijdens het programma gemiddeld drie uur per week besteden aan thuisstudie.

Werkwijze

De opleiding Data Engineering 360° duurt twaalf dagen. Tijdens de eerste twee lesdagen focussen we voornamelijk op de theorie en basisbegrippen, waarna je aan de slag gaat met praktijkopdrachten en de diverse tools leert kennen.

De theoretische modules zijn interactief. We verwachten dat je actief aan discussies deelneemt. Afwisselend zijn er opdrachten die je op je laptop uitvoert. Tijdens de cursus werken we actief met verschillende programma's.

De praktijkmodules gaan over het toepassen van de geleerde kennis en vaardigheden. Tijdens deze modules verwachten we dat je jouw werk presenteert.  Er zijn zowel individuele opdrachten als groepsopdrachten.

Dag voor dag

Benieuwd hoe de opleiding er dag voor dag uitziet? Lees dan het overzicht hieronder.

DAG 1. Introductie data, modelgedreven data

  • Feiten en dimensies
  • Datakwaliteit
  • Modelgedreven datastructuur (SQL)
  • Database normalisatie
  • Datagedreven datastructuur (NoSQL/Key-Value)
  • OLTP & OLAP
  • Databases & applicaties
  • Multidimensionale modellen (stermodel)
  • Data-analyse
  • Basis ETL en data warehousing

DAG 2. Big data, datagedreven data

  • Definitie Big Data
  • Het BigData-probleem en de oplossing
  • Distributed systems
  • Master node
  • Worker node
  • Big Data engines (MapReduce & Spark)
  • Realtime dataprocessing
  • Hive demo
  • ‍NoSQL databases
  • Data lakes
  • Data reservoirs

DAG 3. Wat doet een Data Engineer?

  • Wat is data engineering?
  • Welke skills heeft een Data Engineer nodig?
  • Hoe werken gedistribueerde data stores?
  • Wat is Hortonworks en hoe werkt het?

DAG 4. Python Basics

  • Installation
  • IDE
  • Markdown
  • Data types
  • Data structures
  • Indexing
  • Reading

DAG 5. Data cleansing

  • Introductie Python Pandas
  • Data frames
  • Indexing
  • Data cleaning

DAG 6. Dataverkenning

  • Connecties met externe databronnen
  • Geavanceerde transformatietechnieken

DAG 7 & 8. Gegevens opnemen en transformeren

  • Transformeer gegevens met behulp van Apache Spark
  • Transformeer gegevens met behulp van SQL
  • Transformeer gegevens met behulp van Apache Hive
  • Gegevens opschonen
  • Gesplitste gegevens
  • Versnipperen JSON
  • Gegevens coderen en decoderen
  • Waarden normaliseren en denormaliseren
  • Gegevens verkennende analyse uitvoeren

DAG 9. Ontwerp oplossingen voor batchverwerking

  • Ontwerp data pipelines
  • Ontwerp incrementele data loads
  • Ontwerp langzaam veranderende afmetingen
  • Configureer de batchgrootte
  • Ontwerpen en maken van tests voor data pipelines
  • Omgaan met dubbele gegevens
  • Omgaan met ontbrekende gegevens
  • Omgaan met laat binnenkomende gegevens
  • Afhandeling van uitzonderingen op het ontwerp

DAG 10. Ontwerp oplossingen voor stroomverwerking

  • Ontwerp een oplossing voor stroomverwerking
  • Gegevens verwerken met behulp van gestructureerde streaming van Spark
  • Tijdreeksgegevens verwerken
  • Optimaliseer pipelines voor analytische of transactionele doeleinden

DAG 11. Ontwerp data security

  • Ontwerp beveiliging voor gegevensbeleid en standaarden
  • Ontwerp data encryption for data at rest and in transit
  • Ontwerp een strategie voor gegevensaudits
  • Ontwerp een strategie voor het maskeren van gegevens
  • Ontwerp voor gegevensprivacy
  • Ontwerp een beleid voor het bewaren van gegevens
  • Ontwerp om gegevens te wissen op basis van zakelijke vereisten

DAG 12. Case presentatie en workshop

In een voordracht van max. 10 minuten presenteer je jouw case aan de groep en docenten. De presentatie zal beoordeeld worden op diepgang en de gekozen business case.

Praktische benodigdheden

Je hebt voor deze training een eigen laptop nodig. Je hoeft vooraf geen software te installeren. Alle programma’s die je tijdens de opleiding gebruikt, zijn open source en gratis te gebruiken. De programma’s installeren we tijdens de opleiding. Zorg ervoor dat je een laptop meeneemt waarvan je de installatierechten hebt. De laptop dient Windows 7 of hoger, of OS X Yosemite of hoger te ondersteunen.

  • Voor deze opleiding is geen specifieke voorkennis vereist.
  • Tijdens de gehele opleiding zal de lunch worden voorzien.
  • Je ontvangt het boek ‘Succes met Big Data’.

Blijf op de hoogte van nieuwe ervaringen

Er zijn nog geen ervaringen.

Deel je ervaring

Heb je ervaring met deze cursus? Deel je ervaring en help anderen kiezen. Als dank voor de moeite doneert Springest € 1,- aan Stichting Edukans.
Dewi de Baat - Docent, data architect & big-data expert
Dewi de Baat
Docent, data architect & big-data expert
8,3
Timo Leemans - Docent & data specialist
Timo Leemans
Docent & data specialist
9
Ido de Baat - Docent, (proces)architect & data scientist
Ido de Baat
Docent, (proces)architect & data scientist
9,2

Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.

Download gratis en vrijblijvend de informatiebrochure

Aanhef
(optioneel)
(optioneel)
(optioneel)
(optioneel)
(optioneel)
(optioneel)
(optioneel)
(optioneel)
We slaan je gegevens op, en delen ze met Novalinq, om je via e-mail en evt. telefoon verder te helpen. Meer info vind je in ons privacybeleid.