Data Engineering — Apache Spark, Airflow, dbt et architecture data moderne
📖 Description
Construisez une **plateforme data moderne** de bout en bout : architecture Lakehouse (Snowflake, BigQuery, Databricks), ingestion batch et streaming avec **Apache Spark**, orchestration avec **Apache Airflow**, transformation SQL avec **dbt**, qualité avec **Great Expectations** et streaming avec **Kafka + Flink**. Ce cours expert prépare à la **Databricks Certified Data Engineer Associate** et à la **Snowflake SnowPro Core Certification**.
Ce cours s'adresse aux data engineers juniors et confirmés, analytics engineers, ETL developers en transition cloud, et data scientists souhaitant maîtriser les pipelines data en amont du machine learning. Une bonne maîtrise de **SQL avancé** (CTEs, window functions, joins) et **Python intermédiaire** est indispensable. La connaissance de Git est attendue. Aucun prérequis cloud — les TP utilisent les free tiers Databricks Community Edition et Snowflake Trial.
Au terme du parcours, vous saurez choisir entre **Data Lake, Data Warehouse et Lakehouse** ; provisionner et utiliser **Snowflake, BigQuery, Databricks** ; écrire des **PySpark** avec DataFrames, Spark SQL, partitionnement intelligent et tuning ; construire des **DAGs Airflow** avec operators, sensors, XComs, taskflow API, et déployer sur **Astronomer ou MWAA** ; modéliser une couche analytics avec **dbt** (sources, models, tests, snapshots, macros, semantic layer) ; mesurer la qualité avec **Great Expectations, Monte Carlo, Soda** ; et concevoir une pipeline **streaming Kafka + Flink ou Spark Structured Streaming**.
L'examen blanc compte 25 questions de mi-parcours et l'examen final 50 questions, format QCM, seuil 70 %, simulant le format de la **Databricks Data Engineer Associate** (45 QCM, 90 min, 200 USD) et de la **SnowPro Core** (100 QCM, 115 min, 175 USD). Les questions s'appuient sur la documentation officielle spark.apache.org, airflow.apache.org, getdbt.com, ainsi que les ressources Databricks Academy et Snowflake University.
La durée estimée est de **70 heures** (4 200 minutes), réparties sur 8 à 10 semaines à raison de 7 h par semaine. Le format alterne théorie (35 %), TP pratiques sur Databricks Community + Snowflake Trial + Airflow local (50 %) et mini-projet end-to-end (15 %, pipeline ingestion -> Spark transform -> dbt -> Looker/Metabase). Chaque leçon contient des snippets PySpark, du SQL dbt et du Python Airflow. Sources principales : spark.apache.org, airflow.apache.org, docs.getdbt.com, docs.databricks.com, docs.snowflake.com, "Fundamentals of Data Engineering" (Reis & Housley, O'Reilly 2022).
📝 Format de l'examen blanc
Construisez une **plateforme data moderne** de bout en bout : architecture Lakehouse (Snowflake, BigQuery, Databricks), ingestion batch et streaming avec **Apache Spark**, orchestration avec **Apache Airflow**, transformation SQL avec **dbt**, qualité avec **Great Expectations** et streaming avec **Kafka + Flink**. Ce cours expert prépare à la **Databricks Certified Data Engineer Associate** et à la **Snowflake SnowPro Core Certification**.
Ce cours s'adresse aux data engineers juniors et confirmés, analytics engineers, ETL developers en transition cloud, et data scientists souhaitant maîtris
💡 Recommandé pour toi
Sélection personnalisée basée sur les achats des étudiants comme toi.