CPU 三级缓存

L1 / L2 / L3 Cache — 从结构到原理，全面图解

点击每一层了解详情 → CPU 到内存的存储层次，越往下越慢越大

🔲 CPU Die（芯片内部）

L1 Cache

每核独立

容量：32 – 64 KB / 核

延迟：~4 个时钟周期

速度：最快

L2 Cache

每核独立

容量：256 KB – 1 MB / 核

延迟：~12 个时钟周期

速度：快

L3 Cache ⭐

全部核心共享

容量：8 – 96 MB（全核共享）

延迟：~40 个时钟周期

速度：较快，比 RAM 快 5-10×

✦ 本文重点

主内存 RAM

片外，独立芯片

容量：8 – 数百 GB

延迟：~200 个时钟周期

速度：慢（"内存墙"来源）

模拟 CPU 请求数据时，缓存系统的查找过程

🖥️ CPU 核心发出请求

⚡ L1 Cache 4 cycles

🔵 L2 Cache 12 cycles

🟡 L3 Cache 40 cycles

🔴 RAM 200+ cycles

// 点击上方按钮，模拟缓存访问场景

各层缓存完整参数对比，延迟越短性能越好

层级	典型容量	访问延迟	速度条	作用域	位置
L1 Cache	32 – 64 KB	~4 cycles	最快	单核独享	核心内部
L2 Cache	256 KB – 1 MB	~12 cycles	快	单核独享	核心紧邻
L3 Cache ⭐	8 – 96 MB	~40 cycles	较快	所有核共享	CPU Die 上
主内存 RAM	8 GB – 数百 GB	~200+ cycles	慢	全系统	主板内存槽

🏭 真实产品规格

→ Intel i9-13900K：L3 = 36 MB，24核共享
→ AMD Ryzen 9 7950X：L3 = 64 MB
→ AMD 3D V-Cache：L3 = 96 MB（堆叠技术）
→ Apple M4 Pro：SLC = 28 MB
→ AMD EPYC 服务器：L3 = 384 MB

📌 为什么 L3 最大？

→ L1/L2 追求极速，面积成本高，只能做小
→ L3 需要服务所有核，必须足够大
→ L3 是最后防线，Miss 才去 RAM
→ L3 命中率直接影响整机性能
→ 3D 堆叠技术正在突破 L3 容量上限

L1 和 L2 是每个核心私有的；L3 是所有核心共享的公共缓存
这使 L3 成为多核协作和缓存一致性的核心枢纽

CPU Die（芯片）

🔲

Core 0

L1: 64KB

L2: 512KB

🔲

Core 1

L1: 64KB

L2: 512KB

🔲

Core 2

L1: 64KB

L2: 512KB

🔲

Core 3

L1: 64KB

L2: 512KB

L3 Cache（共享）

全部核心均可访问 · 容量：32 MB

主内存 RAM

所有核 Miss 后统一访问

🔑 L3 共享的三个核心价值

Core 0 写入数据后，Core 1 可以直接从 L3 读取，无需去 RAM
L3 是 MESI 缓存一致性协议的协调节点，防止多核数据不一致
一个核心频繁用的数据"留"在 L3，其他核切换到此任务时直接命中
L3 Miss 率是多核程序性能调优的关键指标（perf stat 可测量）