University · Computer Science · Data Science and Big Data Technologies

Apache Spark: Distributed Data Processing, DataFrames, and Machine Learning Pipelines

4 Abschnitte1 Karteikarten-Decks1 Quizze

In-depth coverage of Apache Spark's architecture (Driver, Executors, Cluster Manager), RDDs, Lazy Evaluation, Spark SQL and DataFrames, MLlib machine learning pipelines, Structured Streaming, and performance optimization techniques including the Catalyst Optimizer and Tungsten Engine.

Inhaltsübersicht

  • Spark Architecture: Driver, Executors, and Cluster Manager
  • RDDs, Lazy Evaluation, and Spark SQL with DataFrames
  • Spark MLlib: Feature Transformers, Estimators, and Pipelines
  • Spark Structured Streaming and Performance Optimization
Kafka Batch processing
Wikimedia Commons – SparkDatabox – CC BY-SA 4.0

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.

Jetzt kostenlos lernen →

Related Topics

Interaktiv lernen mit Karteikarten & Quizzen

Melde dich an und lerne Data Science and Big Data Technologies mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.

Kostenlos testen