← Retour au cours
▶ Aperçu gratuit · Leçon offerte

Leçon 1 — Architecture data moderne : Data Lake, Warehouse, Lakehouse (Snowflake, BigQuery, Databricks)

⏱ 60 min · 🎬 Lecon · 🏆 20 XP
🎬
Vidéo en production
Notre équipe pédagogique tourne actuellement cette leçon avec un·e formateur·rice expert·e. Le contenu textuel ci-dessous est complet et utilisable dès maintenant.

Leçon 1 — Architecture data moderne

Data Lake vs Warehouse vs Lakehouse, formats Parquet/Delta/Iceberg, comparatif Snowflake / BigQuery / Databricks.

Objectifs de la leçon

  • Comprendre la différence entre Data Lake, Data Warehouse et Lakehouse
  • Maîtriser les formats colonnaires : Parquet, ORC, Avro, Delta Lake, Apache Iceberg, Hudi
  • Connaître les trois principaux Lakehouses 2026 : Snowflake, BigQuery, Databricks
  • Concevoir une architecture Medallion (Bronze / Silver / Gold)
  • Choisir entre stockage objet (S3, GCS, ADLS) et un cloud DWH selon les coûts

1. La hiérarchie historique

Depuis les années 1990, l'architecture data a évolué selon trois paradigmes successifs :

ParadigmePériodeReprésentantsForceLimite
Data Warehouse1990-2010Teradata, Oracle, SQL ServerPerformance SQL analytique, ACIDSchéma rigide, cher, mal pour non-structuré
Data Lake2010-2020Hadoop HDFS, S3, GCSStockage massif tout format"Data swamp", gouvernance faible
Lakehouse2020-Databricks Delta, Iceberg, SnowflakeSQL + ACID + tout format + schéma évolutifMaturité variable selon usage
Armbrust M. et al., « Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics », CIDR 2021, cidrdb.org/cidr2021 — papier fondateur signé Databricks/UC Berkeley.

2. Formats colonnaires modernes

2.1 Pourquoi columnar ?

Les workloads analytiques scannent quelques colonnes sur des millions de lignes. Stocker par colonne permet :

  • Compression 5-10× supérieure (valeurs homogènes)
  • Skip de colonnes non lues (gain I/O massif)
  • Prédicats poussés (predicate pushdown) avec statistiques par bloc
  • Vectorisation SIMD côté CPU

2.2 Comparatif Parquet / ORC / Avro / Delta / Iceberg / Hudi

FormatTypeACIDTime travelSchema evolutionUsage
ParquetColumnar fichierNon (immutable)NonLimitéeStandard Data Lake
ORCColumnar fichierNonNonLimitéeHive, Presto
AvroRow-basedNonNonExcellenteKafka, streaming
Delta LakeParquet + log JSONOuiOui (versionning)OuiDatabricks, mainstream
Apache IcebergParquet + métastoreOuiOuiOuiVendor-neutral, Snowflake
Apache HudiParquet + delta logsOuiOuiOuiUber, streaming intensif
Choix 2026 : Delta Lake si tout Databricks ; Iceberg si écosystème ouvert (Snowflake, Dremio, Trino, AWS Glue) ; Hudi si write-heavy en streaming (upserts massifs).

3. Les Lakehouses majeurs

3.1 Snowflake

Lancé en 2014 sur AWS, étendu à Azure et GCP. Stockage et compute séparés, paiement à l'usage (par seconde, par crédit). Multi-cluster compute (warehouses XS à 6XL). Pas d'infrastructure à gérer.

ComposantRôle
Virtual WarehouseCompute (clusters MPP)
Storage (micro-partitions)Données Parquet propriétaire, immuables, clustered
Cloud Services LayerMetadata, query planning, security
Time TravelRestaurer données passées (1-90 jours)
SnowparkPython/Scala/Java pour transformations

3.2 Google BigQuery

Service serverless, paiement à la requête (TB scannés) ou capacity-based (slots). Architecture Dremel (Google 2010). BigLake permet de requêter du Parquet/Iceberg externe (multi-cloud).

3.3 Databricks

Lakehouse construit sur Delta Lake + Apache Spark. Notebooks collaboratifs, MLflow intégré, Unity Catalog pour gouvernance.

ComparaisonSnowflakeBigQueryDatabricks
Modèle pricingCrédits par seconde$ par TB scanné ou slotsDBU par instance
Format natifMicro-partitions SnowflakeCapacitor (proprietaire)Delta Lake (Parquet + log)
SQLExcellent (ANSI)Excellent (Google SQL)Bon (Spark SQL)
ML intégréSnowpark ML, CortexBigQuery MLMLflow, AutoML
NotebooksSnowsightColab integrationNatifs collaboratifs
Open / Vendor lock-inVendorVendorOpen (Delta open-sourced)

4. Architecture Medallion (Bronze / Silver / Gold)

Pattern Databricks largement adopté pour structurer un Lakehouse :

CoucheContenuTransformationUsage
Bronze (Raw)Données brutes telles qu'ingéréesAucune (sauf ajout metadata : ingestion_ts, source_file)Audit, replay, debug
Silver (Cleansed)Dédupliqué, typé, schéma normaliséValidation, déduplication, joins, conformément aux dimensionsSelf-service analytics, ML features
Gold (Curated)Métriques business, agrégats finauxAgrégations, KPI métier, joints dimensionnelsBI (Looker, Tableau, Power BI)

Pattern Medallion en PySpark + Delta

# Bronze
df_bronze = spark.read.json("s3://lake/raw/events/2026/05/27/")
df_bronze.write.format("delta").mode("append").save("s3://lake/bronze/events/")

# Silver
df_silver = (spark.read.format("delta").load("s3://lake/bronze/events/")
    .filter("user_id IS NOT NULL")
    .dropDuplicates(["event_id"])
    .withColumn("event_ts", to_timestamp("ts"))
    .withColumn("ingestion_dt", current_date()))
df_silver.write.format("delta").mode("overwrite").save("s3://lake/silver/events/")

# Gold
df_gold = (spark.read.format("delta").load("s3://lake/silver/events/")
    .groupBy("country", "event_type", to_date("event_ts").alias("event_dt"))
    .count()
    .orderBy("event_dt"))
df_gold.write.format("delta").mode("overwrite").save("s3://lake/gold/event_daily/")

5. ELT vs ETL — le retournement

Le DWH historique appliquait ETL : Extract → Transform (Informatica, SSIS) → Load. Le stockage cher imposait de transformer avant.

Avec le stockage objet bon marché et les warehouses scalables, le pattern ELT domine : Extract → Load (raw) → Transform (SQL dans le warehouse, via dbt). Avantages : reproductibilité, versioning Git, debug facile.

6. Gouvernance : catalogue et lineage

CatalogueÉditeurParticularité
Unity CatalogDatabricksPermissions granulaires, lineage automatique
AWS Glue Data CatalogAWSCompatible Hive Metastore, intégré Athena/EMR
Apache PolarisSnowflake (OSS)Iceberg-native, open standard
OpenMetadataOpen-sourceDiscovery, lineage, qualité
DataHubLinkedIn (OSS)Lineage colonne par colonne

7. Synthèse et points-clés

  • Lakehouse = synthèse Lake (flexibilité) + Warehouse (ACID, performance SQL)
  • Delta Lake / Iceberg / Hudi ajoutent ACID + time travel à Parquet
  • Snowflake = SaaS, paiement aux crédits. BigQuery = serverless, $/TB. Databricks = Spark + Delta
  • Architecture Medallion (Bronze/Silver/Gold) = standard de structuration
  • ELT > ETL en 2026 avec dbt et warehouses scalables
  • Gouvernance Unity Catalog / Polaris / OpenMetadata est non négociable

Pour aller plus loin

Continuez le parcours 🚀

La leçon suivante est également gratuite. Découvrez-la sans inscription.

Leçon 2 — Continuer →
🍪 Nous utilisons des cookies essentiels et, avec ton accord, des cookies analytiques. En savoir plus

⚙️ Préférences cookies

Choisis quels cookies tu acceptes — modifiable à tout moment.

🔐 Essentiels (obligatoires)Authentification, session, sécurité. Toujours actifs.
📊 Analytics anonymesMesure d'audience anonymisée — aucune donnée personnelle.
📣 MarketingPublicités ITAG pertinentes sur d'autres sites.
💬 Contactez-nous sur WhatsApp