📊 大数据系统

从 Hadoop 到湖仓一体,理解大数据技术的核心原理与架构

总览

📊

大数据核心概念全景

从数据仓库到数据湖,从 Lambda 到湖仓一体,一张图看懂大数据技术体系。

基础概念

📦

核心概念

数据仓库、数据湖、湖仓一体、ETL/ELT、数仓分层模型等核心概念详解。

⚖️

数据仓库 vs 数据湖

对比分析不同数据存储方案的特点、适用场景与技术选型。

架构演进

🏛️

Lambda 架构

经典的批处理 + 流处理双架构,理解其设计思想与痛点。

🔄

Kappa 架构

基于消息队列重放的简化架构,统一批处理与流处理。

🌊

湖仓一体架构

Delta Lake、Iceberg、Hudi 为代表的新一代数据平台架构。

离线与实时

📊

传统离线数仓

ODS/DWD/DWS/ADS 四层分层模型,T+1 批处理流程详解。

实时数据管道

CDC、Kafka、Flink、ClickHouse 构建毫秒级实时数据平台。

🔗

批流一体

基于 Flink 的批流统一架构,同一套 API 处理离线与实时。

技术栈

💾

存储与资源管理

HDFS、S3/OSS、YARN、Kubernetes 大数据底层基础设施。

🔥

计算引擎

MapReduce、Spark、Flink 三大计算引擎的特点与选型。

📨

消息队列

Kafka、Pulsar、RocketMQ 实时数据管道的核心组件。

🔍

查询引擎

Hive、Presto/Trino、ClickHouse、Doris 数据分析查询引擎。

📋

表格式层

Delta Lake、Iceberg、Hudi 湖仓一体的核心表格式技术。

🔄

数据集成

Sqoop、DataX、Flume、CDC 数据采集与同步工具。