从 Hadoop 到湖仓一体,理解大数据技术的核心原理与架构
从数据仓库到数据湖,从 Lambda 到湖仓一体,一张图看懂大数据技术体系。
数据仓库、数据湖、湖仓一体、ETL/ELT、数仓分层模型等核心概念详解。
对比分析不同数据存储方案的特点、适用场景与技术选型。
经典的批处理 + 流处理双架构,理解其设计思想与痛点。
基于消息队列重放的简化架构,统一批处理与流处理。
Delta Lake、Iceberg、Hudi 为代表的新一代数据平台架构。
ODS/DWD/DWS/ADS 四层分层模型,T+1 批处理流程详解。
CDC、Kafka、Flink、ClickHouse 构建毫秒级实时数据平台。
基于 Flink 的批流统一架构,同一套 API 处理离线与实时。
HDFS、S3/OSS、YARN、Kubernetes 大数据底层基础设施。
MapReduce、Spark、Flink 三大计算引擎的特点与选型。
Kafka、Pulsar、RocketMQ 实时数据管道的核心组件。
Hive、Presto/Trino、ClickHouse、Doris 数据分析查询引擎。
Delta Lake、Iceberg、Hudi 湖仓一体的核心表格式技术。
Sqoop、DataX、Flume、CDC 数据采集与同步工具。