Big Data Hadoop and Spark Developer - eLearning

Type product

Big Data Hadoop and Spark Developer - eLearning

Adding Value Consulting (AVC)
Logo van Adding Value Consulting (AVC)
Opleiderscore: starstarstarstarstar 9,6 Adding Value Consulting (AVC) heeft een gemiddelde beoordeling van 9,6 (uit 262 ervaringen)

Tip: meer info over het programma, prijs, en inschrijven? Download de brochure!

Beschrijving

Leer Hadoop en Spark in deze cursus en ontwikkel essentiële Big Data-vaardigheden. Verwerk en analyseer grote datasets met tools als HDFS, MapReduce en Spark voor een datagedreven carrière.

De cursus Big Data Hadoop en Spark-ontwikkelaar is ontworpen om u een grondig inzicht te geven in de basisprincipes van Apache Spark en het Hadoop-framework, zodat u over de vaardigheden beschikt om uit te blinken als Big Data-ontwikkelaar. Via dit programma doe je praktische kennis op van het Hadoop-ecosysteem en de integratie ervan met Spark, waardoor je efficiënt grote datasets kunt verwerken en analyseren. Leer hoe de verschillende componenten van Hadoop, zoals HDFS en MapReduce, naadloos aansluiten o…

Lees de volledige beschrijving

Veelgestelde vragen

Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.

Nog niet gevonden wat je zocht? Bekijk deze onderwerpen: Apache Hadoop, Big Data, Data warehouse, Apache en Data mining.

Leer Hadoop en Spark in deze cursus en ontwikkel essentiële Big Data-vaardigheden. Verwerk en analyseer grote datasets met tools als HDFS, MapReduce en Spark voor een datagedreven carrière.

De cursus Big Data Hadoop en Spark-ontwikkelaar is ontworpen om u een grondig inzicht te geven in de basisprincipes van Apache Spark en het Hadoop-framework, zodat u over de vaardigheden beschikt om uit te blinken als Big Data-ontwikkelaar. Via dit programma doe je praktische kennis op van het Hadoop-ecosysteem en de integratie ervan met Spark, waardoor je efficiënt grote datasets kunt verwerken en analyseren. Leer hoe de verschillende componenten van Hadoop, zoals HDFS en MapReduce, naadloos aansluiten op de big data-verwerkingscyclus, zodat je klaar bent voor succes in de datagestuurde wereld van vandaag.

Doelgroep

Doelgroep

Ideaal voor een breed scala aan professionals en individuen die hun carrière willen uitbreiden op het gebied van big data-analyse, data-engineering en datawetenschap.

  • Analytics-professionals
  • Senior IT-professionals
  • Test- en mainframe-professionals
  • Datamanagementprofessionals
  • Business intelligence-professionals
  • Projectmanagers
  • Afgestudeerden die een carrière in big data-analyse willen beginnen

Vereisten: Het wordt aanbevolen dat u kennis hebt van Core Java en SQL.

Leerdoelen

DOELSTELLINGEN

  • Leer hoe je door het Hadoop-ecosysteem navigeert en begrijp hoe je het gebruik ervan kunt optimaliseren.
  • Importeer gegevens met Sqoop, Flume en Kafka.
  • Partitionering, bucketing en indexering implementeren in Hive
  • Werken met RDD in Apache Spark
  • Realtime streaminggegevens verwerken en DataFrame-bewerkingen uitvoeren in Spark met behulp van SQL-query's
  • Gebruikersgedefinieerde functies (UDF) en gebruikersgedefinieerde attribuutfuncties (UDAF) implementeren in Spark

Cursusinhoud

Cursusinhoud

Inleiding tot big data en Hadoop

- Inleiding tot big data en Hadoop

- Inleiding tot big data

- Big data-analyse

- Wat is big data?

- Vier kenmerken van big data

- Casestudy Royal Bank of Scotland

- Uitdagingen van traditionele systemen

- Gedistribueerde systemen

- Inleiding tot Hadoop

- Onderdelen van het Hadoop-ecosysteem, deel één

- Onderdelen van het Hadoop-ecosysteem, deel twee

- Onderdelen van het Hadoop-ecosysteem, deel drie

- Commerciële Hadoop-distributies

- Demo: rondleiding door Simplilearn Cloudlab

- Belangrijkste leerpunten

- Kenniscontrole

Hadoop-architectuur Gedistribueerde opslag (HDFS) en YARN

- Hadoop-architectuur Gedistribueerde opslag (HDFS) en YARN

- Wat is HDFS

- Noodzaak van HDFS

- Regulier bestandssysteem versus HDFS

- Kenmerken van HDFS

- HDFS-architectuur en componenten

- Implementaties van clusters met hoge beschikbaarheid

- HDFS-component Bestandssysteemnaamruimte

- Datablokverdeling

- Topologie van gegevensreplicatie

- HDFS-opdrachtregel

- Demo: veelgebruikte HDFS-opdrachten

- Oefenproject: HDFS-opdrachtregel

- Inleiding tot Yarn

- Gebruiksscenario's voor Yarn

- Yarn en de architectuur ervan

- Resource Manager

- Hoe Resource Manager werkt

- Application Master

- Hoe Yarn een toepassing uitvoert

- Tools voor Yarn-ontwikkelaars

- Demo: uitleg van cluster deel één

- Demo: doorlopen van cluster deel twee

- Belangrijkste leerpunten Kenniscontrole

- Oefenproject: Hadoop-architectuur, gedistribueerde opslag (HDFS) en Yarn

Gegevensopname in big data-systemen en ETL

- Gegevensopname in big data-systemen en ETL

- Overzicht van gegevensopname deel één

- Overzicht van gegevensopname deel twee

- Apache Sqoop

- Sqoop en het gebruik ervan

- Sqoop-verwerking

- Sqoop-importproces

- Sqoop-connectoren

- Demo: gegevens importeren en exporteren van MySQL naar HDFS

- Oefenproject: Apache Sqoop

- Apache Flume

- Flume-model

- Schaalbaarheid in Flume

- Componenten in de architectuur van Flume

- Flume-componenten configureren

- Demo: Twitter-gegevens importeren

- Apache Kafka Gebruikersactiviteit aggregeren met Kafka

- Kafka-gegevensmodel

- Partities

- Apache Kafka-architectuur

- Demo: Kafka-cluster instellen

- Voorbeeld van API aan de producentzijde

- API aan de consumentzijde

- Voorbeeld van API aan de consumentzijde

- Kafka Connect

- Demo: voorbeeld van een Kafka-gegevenspijplijn maken met behulp van producent en consument

- Belangrijkste punten

- Kenniscontrole

- Praktijkproject: gegevens opnemen in big data-systemen en ETL

Gedistribueerde verwerking MapReduce-framework en Pig

- Gedistribueerde verwerking Mapreduce-framework en Pig

- Gedistribueerde verwerking in Mapreduce

- Voorbeeld van woordtelling

- Fasen van mapuitvoering

- Mapuitvoering in een gedistribueerde omgeving met twee knooppunten

- Mapreduce-taken

- Interactie tussen Hadoop Mapreduce-taken

- De omgeving voor Mapreduce-ontwikkeling instellen

- Set van klassen

- Een nieuw project maken

- Geavanceerde Mapreduce

- Datatypes in Hadoop

- Uitvoerformaten in Mapreduce

- Gebruik van gedistribueerde cache

- Joins in MapReduce

- Gerepliceerde join

- Inleiding tot Pig

- Onderdelen van Pig

- Pig-gegevensmodel

- Interactieve modi van Pig

- Pig-bewerkingen

- Verschillende relaties die door ontwikkelaars worden uitgevoerd

- Demo: analyseren van webloggegevens met Mapreduce

- Demo: analyseren van verkoopgegevens en oplossen van KPI's met Pig Praktijkproject: Apache Pig

- Demo: woordtelling

- Belangrijkste punten

- Kenniscontrole

- Oefenproject: gedistribueerde verwerking - Mapreduce-framework en Pig

Apache Hive

- Apache Hive

- Hive SQL via Hadoop MapReduce

- Hive-architectuur

- Interfaces voor het uitvoeren van Hive-query's

- Beeline uitvoeren vanaf de opdrachtregel

- Hive Metastore

- Hive DDL en DML

- Nieuwe tabel maken

- Gegevenstypen Validatie van gegevens

- Bestandsindelingen

- Gegevensserialisatie

- Hive-tabel en Avro-schema

- Hive-optimalisatie Partitionering Bucketing en sampling

- Niet-gepartitioneerde tabel

- Gegevens invoegen

- Dynamische partitionering in Hive

- Bucketing

- Wat doen buckets?

- Hive Analytics UDF en UDAF

- Andere functies van Hive

- Demo: realtime analyse en gegevensfiltering

- Demo: praktijkvoorbeeld

- Demo: gegevensweergave en importeren met Hive

- Belangrijkste leerpunten

- Kenniscontrole

- Oefenproject: Apache Hive

NoSQL-databases HBase

- NoSQL-databases HBase

- Inleiding tot NoSQL

- Demo: Yarn-afstemming

- Overzicht van Hbase

- Architectuur van Hbase

- Gegevensmodel

- Verbinding maken met HBase

- Oefenproject: HBase Shell

- Belangrijkste leerpunten

- Kenniscontrole

- Oefenproject: NoSQL-databases - HBase

Basisprincipes van functioneel programmeren en Scala

- Basisprincipes van functioneel programmeren en Scala

- Inleiding tot Scala

- Demo: Scala installeren

- Functioneel programmeren

- Programmeren met Scala

- Demo: basisletterlijke waarden en rekenkundige programmering

- Demo: logische operatoren

- Type-inferentie Klassen Objecten en functies in Scala

- Demo: Type-inferentie Functies Anonieme functie en klasse

- Collecties

- Soorten collecties

- Demo: Vijf soorten collecties

- Demo: Bewerkingen op lijsten Scala REPL

- Demo: Functies van Scala REPL

- Belangrijkste punten

- Kenniscontrole

- Oefenproject: Apache Hive

Apache Spark Big Data-framework van de volgende generatie

- Apache Spark Big Data-framework van de volgende generatie

- Geschiedenis van Spark

- Beperkingen van Mapreduce in Hadoop

- Inleiding tot Apache Spark

- Onderdelen van Spark

- Toepassing van in-memory verwerking

- Hadoop-ecosysteem versus Spark

- Voordelen van Spark

- Spark-architectuur

- Spark-cluster in de praktijk

- Demo: een Scala-programma uitvoeren in Spark Shell

- Demo: uitvoeringsomgeving instellen in IDE

- Demo: Spark-webinterface

- Belangrijkste punten

- Kenniscontrole

- Oefenproject: Apache Spark, het big data-framework van de volgende generatie

Spark Core-verwerking RDD

- Inleiding tot Spark RDD

- RDD in Spark

- Spark RDD maken

- RDD koppelen

- RDD-bewerkingen

- Demo: gedetailleerde verkenning van Spark-transformatie met behulp van Scala-voorbeelden

- Demo: gedetailleerde verkenning van Spark-acties met behulp van Scala

- Caching en persistentie

- Opslagniveaus

- Afstamming en DAG

- Noodzaak van DAG

- Fouten opsporen in Spark

- Partitionering in Spark

- Planning in Spark

- Shuffling in Spark

- Sorteren, shufflen en aggregeren van gegevens met gekoppelde RDD's

- Demo: Spark-toepassing met gegevens die worden teruggeschreven naar HDFS en Spark UI

- Demo: Spark-toepassingsparameters wijzigen

- Demo: Omgaan met verschillende bestandsindelingen

- Demo: Spark RDD met praktijktoepassing

- Demo: Spark-taken optimaliseren

- Belangrijkste punten

- Kenniscontrole

- Oefenproject: Spark Core Processing RDD

Spark SQL-verwerking van dataframes

- Spark SQL-verwerking van dataframes

- Inleiding tot Spark SQL

- Spark SQL-architectuur

- Dataframes

- Demo: omgaan met verschillende bestandsindelingen

- Demo: verschillende dataframe-bewerkingen implementeren

- Demo: UDF en UDAF

- Interoperabiliteit met RDD's

- Demo: dataframe verwerken met SQL-query

- RDD versus dataframe versus dataset

- Oefenproject: dataframes verwerken

- Belangrijkste leerpunten

- Kenniscontrole

- Oefenproject: Spark SQL - dataframes verwerken

Spark MLib Big data modelleren met Spark

- Spark Mlib Big data modelleren met Spark

- De rol van data scientist en data-analist in big data

- Analytics in Spark

- Machine learning

- Begeleid leren

- Demo: classificatie van lineaire SVM

- Demo: lineaire regressie met praktijkvoorbeelden

- Onbegeleid leren

- Demo: onbegeleid clusteren met K-means

- Versterkend leren

- Semi-begeleid leren

- Overzicht van Mlib

- Mlib-pijplijnen

- Belangrijkste leerpunten

- Kenniscontrole

- Oefenproject: Spark Mlib - Big data modelleren met Spark

Streamverwerkingsframeworks en Spark Streaming

- Overzicht van streaming

- Real-time verwerking van big data

- Architecturen voor gegevensverwerking

- Demo: realtime gegevensverwerking met Spark Streaming

- Demo: een Spark Streaming-toepassing schrijven

- Inleiding tot DStreams

- Transformaties op DStreams

- Ontwerppatronen voor het gebruik van Foreachrdd

- Statusbewerkingen

- Windowing-bewerkingen

- Join-bewerkingen Stream-dataset Join

- Demo: windowing van realtime gegevensverwerking Streamingbronnen

- Demo: Twitter-streaminggegevens verwerken

- Gestructureerde Spark Streaming

- Gebruiksscenario banktransacties

- Gestructureerd streamingarchitectuurmodel en de componenten ervan

- Output sinks

- Gestructureerde streaming-API's

- Kolommen construeren in gestructureerde streaming

- Windowed-bewerkingen op gebeurtenistijd

- Gebruiksscenario's

- Demo: streamingpijplijn

- Oefenproject: Spark Streaming

- Belangrijkste leerpunten

- Kenniscontrole

- Oefenproject: Streamverwerkingsframeworks en Spark Streaming

Spark GraphX

- Spark GraphX

- Inleiding tot grafieken

- GraphX in Spark

- GraphX-operatoren

- Join-operatoren

- GraphX Parallel System

- Algoritmen in Spark

- Pregel API

- Gebruiksscenario van GraphX

- Demo: GraphX Vertex Predicate

- Demo: Page Rank-algoritme

- Belangrijkste leerpunten

- Kenniscontrole

- Oefenproject: Spark GraphX Projectondersteuning

Belangrijkste kenmerken

WAT IS INBEGREPEN?

  • Cursus en materiaal zijn in het Engels
  • Gemiddeld niveau voor aspirant-data-engineers
  • 1 jaar toegang tot het e-learningplatform voor zelfstudie, 24/7
  • 11 uur aan videocontent
  • 50 uur studietijd aanbevolen
  • Simulatietest, virtueel lab en eindproject
  • Geen examen voor de cursus, maar studenten krijgen een certificaat van voltooiing van de training.
Blijf op de hoogte van nieuwe ervaringen
Er zijn nog geen ervaringen.
Deel je ervaring
Heb je ervaring met deze cursus? Deel je ervaring en help anderen kiezen. Als dank voor de moeite doneert Springest € 1,- aan Stichting Edukans.

Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.

Download gratis en vrijblijvend de informatiebrochure

(optioneel)
(optioneel)
(optioneel)
(optioneel)

Heb je nog vragen?

(optioneel)

Aanmelden voor nieuwsbrief

We slaan je gegevens op om je via e-mail en evt. telefoon verder te helpen.
Meer info vind je in ons privacybeleid.