University · Computer Science · Data Science and Big Data Technologies

Apache Spark: Distributed Data Processing, DataFrames, and Machine Learning Pipelines

4 Abschnitte1 Karteikarten-Decks1 Quizze

In-depth coverage of Apache Spark's architecture (Driver, Executors, Cluster Manager), RDDs, Lazy Evaluation, Spark SQL and DataFrames, MLlib machine learning pipelines, Structured Streaming, and performance optimization techniques including the Catalyst Optimizer and Tungsten Engine.

Inhaltsübersicht

Spark Architecture: Driver, Executors, and Cluster Manager
RDDs, Lazy Evaluation, and Spark SQL with DataFrames
Spark MLlib: Feature Transformers, Estimators, and Pipelines
Spark Structured Streaming and Performance Optimization

Kafka Batch processing — Wikimedia Commons – SparkDatabox – CC BY-SA 4.0

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.

Jetzt kostenlos lernen →

Interaktiv lernen mit Karteikarten & Quizzen

Melde dich an und lerne Data Science and Big Data Technologies mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.

Kostenlos testen

Inhaltsübersicht

Related Topics

Interaktiv lernen mit Karteikarten & Quizzen