🎬

Vidéo en production

Notre équipe pédagogique tourne actuellement cette leçon avec un·e formateur·rice expert·e. Le contenu textuel ci-dessous est complet et utilisable dès maintenant.

Leçon 1 — Architecture data moderne

Data Lake vs Warehouse vs Lakehouse, formats Parquet/Delta/Iceberg, comparatif Snowflake / BigQuery / Databricks.

Objectifs de la leçon

Comprendre la différence entre Data Lake, Data Warehouse et Lakehouse
Maîtriser les formats colonnaires : Parquet, ORC, Avro, Delta Lake, Apache Iceberg, Hudi
Connaître les trois principaux Lakehouses 2026 : Snowflake, BigQuery, Databricks
Concevoir une architecture Medallion (Bronze / Silver / Gold)
Choisir entre stockage objet (S3, GCS, ADLS) et un cloud DWH selon les coûts

1. La hiérarchie historique

Depuis les années 1990, l'architecture data a évolué selon trois paradigmes successifs :

Paradigme	Période	Représentants	Force	Limite
Data Warehouse	1990-2010	Teradata, Oracle, SQL Server	Performance SQL analytique, ACID	Schéma rigide, cher, mal pour non-structuré
Data Lake	2010-2020	Hadoop HDFS, S3, GCS	Stockage massif tout format	"Data swamp", gouvernance faible
Lakehouse	2020-	Databricks Delta, Iceberg, Snowflake	SQL + ACID + tout format + schéma évolutif	Maturité variable selon usage

Armbrust M. et al., « Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics », CIDR 2021, cidrdb.org/cidr2021 — papier fondateur signé Databricks/UC Berkeley.

2. Formats colonnaires modernes

2.1 Pourquoi columnar ?

Les workloads analytiques scannent quelques colonnes sur des millions de lignes. Stocker par colonne permet :

Compression 5-10× supérieure (valeurs homogènes)
Skip de colonnes non lues (gain I/O massif)
Prédicats poussés (predicate pushdown) avec statistiques par bloc
Vectorisation SIMD côté CPU

2.2 Comparatif Parquet / ORC / Avro / Delta / Iceberg / Hudi

Format	Type	ACID	Time travel	Schema evolution	Usage
Parquet	Columnar fichier	Non (immutable)	Non	Limitée	Standard Data Lake
ORC	Columnar fichier	Non	Non	Limitée	Hive, Presto
Avro	Row-based	Non	Non	Excellente	Kafka, streaming
Delta Lake	Parquet + log JSON	Oui	Oui (versionning)	Oui	Databricks, mainstream
Apache Iceberg	Parquet + métastore	Oui	Oui	Oui	Vendor-neutral, Snowflake
Apache Hudi	Parquet + delta logs	Oui	Oui	Oui	Uber, streaming intensif

Choix 2026 : Delta Lake si tout Databricks ; Iceberg si écosystème ouvert (Snowflake, Dremio, Trino, AWS Glue) ; Hudi si write-heavy en streaming (upserts massifs).

3. Les Lakehouses majeurs

3.1 Snowflake

Lancé en 2014 sur AWS, étendu à Azure et GCP. Stockage et compute séparés, paiement à l'usage (par seconde, par crédit). Multi-cluster compute (warehouses XS à 6XL). Pas d'infrastructure à gérer.

Composant	Rôle
Virtual Warehouse	Compute (clusters MPP)
Storage (micro-partitions)	Données Parquet propriétaire, immuables, clustered
Cloud Services Layer	Metadata, query planning, security
Time Travel	Restaurer données passées (1-90 jours)
Snowpark	Python/Scala/Java pour transformations

3.2 Google BigQuery

Service serverless, paiement à la requête (TB scannés) ou capacity-based (slots). Architecture Dremel (Google 2010). BigLake permet de requêter du Parquet/Iceberg externe (multi-cloud).

3.3 Databricks

Lakehouse construit sur Delta Lake + Apache Spark. Notebooks collaboratifs, MLflow intégré, Unity Catalog pour gouvernance.

Comparaison	Snowflake	BigQuery	Databricks
Modèle pricing	Crédits par seconde	$ par TB scanné ou slots	DBU par instance
Format natif	Micro-partitions Snowflake	Capacitor (proprietaire)	Delta Lake (Parquet + log)
SQL	Excellent (ANSI)	Excellent (Google SQL)	Bon (Spark SQL)
ML intégré	Snowpark ML, Cortex	BigQuery ML	MLflow, AutoML
Notebooks	Snowsight	Colab integration	Natifs collaboratifs
Open / Vendor lock-in	Vendor	Vendor	Open (Delta open-sourced)

4. Architecture Medallion (Bronze / Silver / Gold)

Pattern Databricks largement adopté pour structurer un Lakehouse :

Couche	Contenu	Transformation	Usage
Bronze (Raw)	Données brutes telles qu'ingérées	Aucune (sauf ajout metadata : ingestion_ts, source_file)	Audit, replay, debug
Silver (Cleansed)	Dédupliqué, typé, schéma normalisé	Validation, déduplication, joins, conformément aux dimensions	Self-service analytics, ML features
Gold (Curated)	Métriques business, agrégats finaux	Agrégations, KPI métier, joints dimensionnels	BI (Looker, Tableau, Power BI)

Pattern Medallion en PySpark + Delta

# Bronze
df_bronze = spark.read.json("s3://lake/raw/events/2026/05/27/")
df_bronze.write.format("delta").mode("append").save("s3://lake/bronze/events/")

# Silver
df_silver = (spark.read.format("delta").load("s3://lake/bronze/events/")
    .filter("user_id IS NOT NULL")
    .dropDuplicates(["event_id"])
    .withColumn("event_ts", to_timestamp("ts"))
    .withColumn("ingestion_dt", current_date()))
df_silver.write.format("delta").mode("overwrite").save("s3://lake/silver/events/")

# Gold
df_gold = (spark.read.format("delta").load("s3://lake/silver/events/")
    .groupBy("country", "event_type", to_date("event_ts").alias("event_dt"))
    .count()
    .orderBy("event_dt"))
df_gold.write.format("delta").mode("overwrite").save("s3://lake/gold/event_daily/")

5. ELT vs ETL — le retournement

Le DWH historique appliquait ETL : Extract → Transform (Informatica, SSIS) → Load. Le stockage cher imposait de transformer avant.

Avec le stockage objet bon marché et les warehouses scalables, le pattern ELT domine : Extract → Load (raw) → Transform (SQL dans le warehouse, via dbt). Avantages : reproductibilité, versioning Git, debug facile.

6. Gouvernance : catalogue et lineage

Catalogue	Éditeur	Particularité
Unity Catalog	Databricks	Permissions granulaires, lineage automatique
AWS Glue Data Catalog	AWS	Compatible Hive Metastore, intégré Athena/EMR
Apache Polaris	Snowflake (OSS)	Iceberg-native, open standard
OpenMetadata	Open-source	Discovery, lineage, qualité
DataHub	LinkedIn (OSS)	Lineage colonne par colonne

7. Synthèse et points-clés

Lakehouse = synthèse Lake (flexibilité) + Warehouse (ACID, performance SQL)
Delta Lake / Iceberg / Hudi ajoutent ACID + time travel à Parquet
Snowflake = SaaS, paiement aux crédits. BigQuery = serverless, $/TB. Databricks = Spark + Delta
Architecture Medallion (Bronze/Silver/Gold) = standard de structuration
ELT > ETL en 2026 avec dbt et warehouses scalables
Gouvernance Unity Catalog / Polaris / OpenMetadata est non négociable

Pour aller plus loin

Lakehouse paper, CIDR 2021
Databricks — Medallion architecture
Delta Lake · Apache Iceberg · Apache Hudi
Snowflake Documentation · BigQuery Docs
Reis J., Housley M., Fundamentals of Data Engineering, O'Reilly 2022

Continuez le parcours 🚀

La leçon suivante est également gratuite. Découvrez-la sans inscription.

Leçon 2 — Continuer →

📚 Programme du cours

1

Leçon 1 — Architecture data moderne : Data Lake, Warehouse, Lakehouse (Snowflake, BigQuery, Databricks)
2

Leçon 2 — Apache Spark : RDD, DataFrames, Spark SQL, PySpark et tuning
🔒

Leçon 3 — Apache Airflow : DAGs, operators, sensors, XComs, TaskFlow API
🔒

Leçon 4 — dbt : sources, models, tests, snapshots, macros et semantic layer
🔒

Leçon 5 — Data quality, streaming Kafka/Flink et préparation Databricks Data Engineer Associate
🔒

Examen blanc — Data Engineering (25 questions)
🔒

Examen final — Data Engineering (50 questions)

🎯 Simulation Examen

🌍 Data Engineering (Spark + Airflow + dbt)

Apache Software Foundation + Databricks

📝 297 Q · ⏱ 120 min

▶ Démarrer l'examen blanc 📋 Voir tout le catalogue →

Leçon 1 — Architecture data moderne : Data Lake, Warehouse, Lakehouse (Snowflake, BigQuery, Databricks)