CPU 三级缓存

L1 / L2 / L3 Cache — 从结构到原理,全面图解

点击每一层了解详情 → CPU 到内存的存储层次,越往下越慢越大

🔲 CPU Die(芯片内部)
L1 Cache
每核独立
容量:32 – 64 KB / 核
延迟:~4 个时钟周期
速度:最快
L2 Cache
每核独立
容量:256 KB – 1 MB / 核
延迟:~12 个时钟周期
速度:快
L3 Cache ⭐
全部核心共享
容量:8 – 96 MB(全核共享)
延迟:~40 个时钟周期
速度:较快,比 RAM 快 5-10×
✦ 本文重点
主内存 RAM
片外,独立芯片
容量:8 – 数百 GB
延迟:~200 个时钟周期
速度:慢("内存墙"来源)

模拟 CPU 请求数据时,缓存系统的查找过程

🖥️ CPU 核心 发出请求
L1 Cache 4 cycles
🔵 L2 Cache 12 cycles
🟡 L3 Cache 40 cycles
🔴 RAM 200+ cycles
// 点击上方按钮,模拟缓存访问场景

各层缓存完整参数对比,延迟越短性能越好

层级 典型容量 访问延迟 速度条 作用域 位置
L1 Cache 32 – 64 KB ~4 cycles
最快
单核独享 核心内部
L2 Cache 256 KB – 1 MB ~12 cycles
单核独享 核心紧邻
L3 Cache ⭐ 8 – 96 MB ~40 cycles
较快
所有核共享 CPU Die 上
主内存 RAM 8 GB – 数百 GB ~200+ cycles
全系统 主板内存槽

🏭 真实产品规格

  • → Intel i9-13900K:L3 = 36 MB,24核共享
  • → AMD Ryzen 9 7950X:L3 = 64 MB
  • → AMD 3D V-Cache:L3 = 96 MB(堆叠技术)
  • → Apple M4 Pro:SLC = 28 MB
  • → AMD EPYC 服务器:L3 = 384 MB

📌 为什么 L3 最大?

  • → L1/L2 追求极速,面积成本高,只能做小
  • → L3 需要服务所有核,必须足够大
  • → L3 是最后防线,Miss 才去 RAM
  • → L3 命中率直接影响整机性能
  • → 3D 堆叠技术正在突破 L3 容量上限

L1 和 L2 是每个核心私有的;L3 是所有核心共享的公共缓存
这使 L3 成为多核协作和缓存一致性的核心枢纽

CPU Die(芯片)
🔲
Core 0
L1: 64KB
L2: 512KB
🔲
Core 1
L1: 64KB
L2: 512KB
🔲
Core 2
L1: 64KB
L2: 512KB
🔲
Core 3
L1: 64KB
L2: 512KB
L3 Cache(共享)
全部核心均可访问 · 容量:32 MB
主内存 RAM
所有核 Miss 后统一访问

🔑 L3 共享的三个核心价值

  • Core 0 写入数据后,Core 1 可以直接从 L3 读取,无需去 RAM
  • L3 是 MESI 缓存一致性协议的协调节点,防止多核数据不一致
  • 一个核心频繁用的数据"留"在 L3,其他核切换到此任务时直接命中
  • L3 Miss 率是多核程序性能调优的关键指标(perf stat 可测量)