CPU 密集型 vs I/O 密集型

🎯 核心概念：什么是 CPU 密集 / I/O 密集

计算机程序运行时，主要消耗两种资源：CPU（处理器）和 I/O（输入输出）。根据瓶颈在哪，程序被分为两类：

🔴 CPU 密集型（CPU-Bound）

程序的运行瓶颈在 CPU 运算速度上。CPU 一直在忙、一直在算，几乎没有空闲。

特征：

CPU 使用率接近 100%
内存和磁盘访问很少
执行时间 ≈ CPU 计算时间
换更快的 CPU，程序直接变快

💡 类比：一个数学家在做心算，脑子是瓶颈，笔和纸不是。

🔵 I/O 密集型（I/O-Bound）

程序的运行瓶颈在 I/O 设备的速度上。CPU 大部分时间在等待，实际计算很少。

特征：

CPU 使用率很低（常常 < 10%）
大量时间花在等待网络/磁盘/数据库
执行时间 ≈ 等待 I/O 的时间
换更快的 CPU 几乎没用

💡 类比：一个厨师在等外卖小哥送食材，等待是瓶颈，厨艺不是。

= CPU 在计算 = CPU 在等待

📋 典型场景速查

🔴 CPU 密集型场景

视频编码/转码图像处理 3D 渲染科学计算密码学运算 AI 模型推理压缩/解压大文件大规模数据排序正则回溯匹配蒙特卡洛模拟编译大型项目游戏物理引擎

🔵 I/O 密集型场景

Web 服务器处理请求数据库读写文件上传/下载爬虫抓取网页 API 网关代理消息队列消费日志写入 RPC 远程调用流媒体传输 Redis 缓存读写邮件发送服务 WebSocket 长连接

💡 快速判断技巧 问自己一个简单的问题："换了更快的 CPU，程序会明显变快吗？"
如果答案是「会」→ CPU 密集型；如果答案是「不会，瓶颈在读硬盘/等网络」→ I/O 密集型。

⚡ 为什么区分它们如此重要？

因为 两种类型需要完全不同的优化策略。用错策略会让程序效率反而下降，甚至出现「多线程比单线程还慢」的反直觉结果。

🔴 CPU 密集型 — 应该怎么处理？

核心原则：不要创建比 CPU 核心数更多的计算线程

⚠️ 多线程可能更慢！ 如果创建了 100 个线程去跑 CPU 密集任务，而机器只有 8 个核心——这 100 个线程会疯狂地上下文切换。每次切换都有开销（保存/恢复寄存器、刷新缓存），最终总时间反而比用 8 个线程更长。

为什么线程数 = 核心数是最优的？

简单数学：

假设每个任务需要 T 秒 CPU 时间，有 N 个任务
单线程：总时间 = N × T（串行）
K 个线程（K ≤ 核心数）：总时间 ≈ (N / K) × T（接近线性加速）
M 个线程（M > 核心数）：总时间 = (N / M) × T + 上下文切换开销

线程超过核心数后，每个额外的线程都在跟已有线程「抢」CPU，每次切换浪费约 1-10 微秒，积少成多。

代码示例

Python 中 CPU 密集任务的正确定姿：

# ❌ 错误：Python 多线程对 CPU 密集任务无效（GIL 限制）
from concurrent.futures import ThreadPoolExecutor

def heavy_compute(n):
    return sum(i * i for i in range(n))

# ThreadPoolExecutor — 被 GIL 限制，实际还是单核在跑
with ThreadPoolExecutor(max_workers=8) as executor:
    results = executor.map(heavy_compute, [10_000_000] * 8)

# ✅ 正确：用 ProcessPoolExecutor 绕过 GIL
from concurrent.futures import ProcessPoolExecutor
import os

cpu_count = os.cpu_count()

with ProcessPoolExecutor(max_workers=cpu_count) as executor:
    results = executor.map(heavy_compute, [10_000_000] * 8)
    # 真正利用所有核心并行计算

Go / Rust 中 CPU 密集任务（无 GIL，多线程有效）：

// Go：用 runtime.NumCPU() 控制 goroutine 数量
package main

import (
    "runtime"
    "sync"
)

func main() {
    numCPU := runtime.NumCPU()           // 获取 CPU 核心数
    runtime.GOMAXPROCS(numCPU)           // 设置最大并行度

    var wg sync.WaitGroup
    tasks := make(chan int, numCPU)

    for i := 0; i < numCPU; i++ {
        wg.Add(1)
        go func() {
            defer wg.Done()
            for task := range tasks {
                heavyCompute(task)         // CPU 密集计算
            }
        }()
    }
    // 分发任务...
    wg.Wait()
}

🔵 I/O 密集型 — 应该怎么处理？

核心原则：不要让 CPU 闲着等 I/O，让等待时间「重叠」起来

💡 I/O 等待时 CPU 是空闲的 这是关键洞察：当一个线程在等磁盘/网络时，操作系统可以立即切换 CPU 去运行另一个线程。这意味着 I/O 密集型任务天然适合高并发——线程数可以远大于 CPU 核心数。

方案对比：从慢到快

三大并发模型对比

模型	典型代表	优势	劣势	适用线程数
多线程 Thread-pool	Java (ThreadPool) Go (goroutine) C++ (std::thread)	编程模型简单阻塞式代码自然操作系统负责调度	每个线程有内存开销（~1-8MB 栈）上下文切换有成本线程数有上限（~几千）	几百 ~ 几千
异步/协程 Async/Await	Python (asyncio) JavaScript (Promise) Rust (tokio) C# (async/await)	单线程，零上下文切换内存极省（~KB/协程）可同时运行数万个	需要非阻塞 I/O 库代码有「传染性」不适合 CPU 密集计算	数万 ~ 数十万
事件驱动 Event-loop	Node.js nginx Redis	极高性能极简编程模型	单线程，CPU 密集会阻塞回调地狱（历史问题）	理论上无限

为什么 I/O 密集型可以用成千上万个协程？

关键原理：

I/O 操作本身由操作系统内核/DMA 控制器完成，不消耗 CPU
协程在等待 I/O 时 主动让出 CPU（await），操作系统不需要介入
CPU 只是在协程之间「跳来跳去」，不存在抢占式的上下文切换
每个协程只占用几 KB 内存，1GB 内存可以跑数十万个协程

结论：I/O 密集型任务，协程数 = 并发 I/O 请求数，而不是 CPU 核心数。可以成千上万。

代码示例

Python asyncio — I/O 密集任务的正确打开方式：

import asyncio
import aiohttp

async def fetch(session, url):
    async with session.get(url) as resp:
        return await resp.text()

async def main():
    urls = [f"https://api.example.com/data/{i}" for i in range(1000)]

    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url) for url in urls]
        results = await asyncio.gather(*tasks)
        # 1000 个网络请求，只用一个线程，几乎同时完成！

asyncio.run(main())

Go goroutine — 同样轻松处理成千上万个 I/O 任务：

// Go：goroutine 是轻量级协程，几 KB 一个，可以开数万个
package main

import (
    "fmt"
    "net/http"
    "sync"
)

func main() {
    urls := make([]string, 1000)
    for i := range urls {
        urls[i] = fmt.Sprintf("https://api.example.com/data/%d", i)
    }

    var wg sync.WaitGroup
    for _, url := range urls {
        wg.Add(1)
        go func(u string) {
            defer wg.Done()
            http.Get(u)  // 阻塞在 IO，Go 运行时会自动调度其他 goroutine
        }(url)
    }
    wg.Wait()
    // 1000 个并发请求，goroutine 切换开销几乎为零
}

📊 技术选型矩阵 — 一图看懂该用什么

场景	单线程	多线程	多进程	异步/协程	推荐
CPU 密集视频编码、科学计算等	可用	推荐	推荐	不适合	线程池 = CPU 核心数或多进程（Python）
I/O 密集 Web 服务、爬虫等	不适合	可用	过重	推荐	异步/协程或多线程（线程数 >> 核心数）
混合型 Web 服务 + 少量计算	不适合	推荐	可用	推荐	异步 + 线程池 I/O 用协程，计算丢线程池

混合型场景：Python 示例

import asyncio
from concurrent.futures import ProcessPoolExecutor
import aiohttp

# CPU 密集任务 — 放到进程池执行（绕开 GIL）
def cpu_heavy_task(data):
    return sorted(data)  # 假设是大数据排序

async def handle_request(data):
    loop = asyncio.get_running_loop()

    # I/O 部分：协程异步处理
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            raw_data = await resp.json()

    # CPU 部分：丢到进程池执行，不阻塞事件循环
    with ProcessPoolExecutor() as pool:
        result = await loop.run_in_executor(pool, cpu_heavy_task, raw_data)

    return result

🗺️ 各语言生态速查

语言	CPU 密集方案	I/O 密集方案	注意事项
Python	`multiprocessing` `ProcessPoolExecutor`	`asyncio` + `aiohttp` `ThreadPoolExecutor`	⚠️ GIL：多线程不能利用多核做计算
Go	`goroutine` + `GOMAXPROCS` 控制并发数 = 核心数	`goroutine`（天然适合）可以开数万个	✅ 无 GIL，goroutine 是 M:N 调度
Java	`ForkJoinPool` `parallelStream()`	`ThreadPoolExecutor` `Virtual Threads (Java 21+)`	✅ Virtual Threads 让 I/O 密集也用轻量协程
JavaScript/Node.js	`Worker Threads` （不推荐在主线程做）	`async/await`（天然优势）事件循环 + Promise	⚠️ 主线程单线程，CPU 密集会卡死事件循环
Rust	`rayon`（数据并行） `std::thread`	`tokio`（异步运行时）零成本抽象	✅ 编译期保证线程安全（Send + Sync）
C++	`std::thread` `OpenMP / TBB`	`boost::asio` `libuv`	✅ 完全控制，性能极致，但需手动管理

🎯 一句话总结 + 速查表

🔴 CPU 密集型

瓶颈在 CPU 计算速度
线程数 ≤ CPU 核心数
线程比核心多 = 反而变慢（上下文切换开销）
Python 必须用 多进程（GIL 限制）
Go/Rust/Java 多线程即可利用多核
终极方案：SIMD / GPU 并行

🔵 I/O 密集型

瓶颈在 I/O 设备速度（网络/磁盘）
线程数 可以 >> CPU 核心数
等待时 CPU 可切换到其他线程
优先用 异步/协程（最省资源）
Python: asyncio；JS: 天然异步
Go: goroutine；Java 21+: Virtual Thread

🔥 记住这一句话就够了： CPU 密集 = 线程数 ≤ 核心数（多了反而慢）； I/O 密集 = 线程数 >> 核心数（等待时 CPU 可以干别的）。

🎯 核心概念：什么是 CPU 密集 / I/O 密集

🔴 CPU 密集型（CPU-Bound）

🔵 I/O 密集型（I/O-Bound）

📋 典型场景速查

🔴 CPU 密集型场景

🔵 I/O 密集型场景

⚡ 为什么区分它们如此重要？

🔴 CPU 密集型 — 应该怎么处理？

核心原则：不要创建比 CPU 核心数更多的计算线程

推荐方案

方案一：单线程（简单场景）

方案二：线程池 = CPU 核心数（最常见）

方案三：多进程（绕过 GIL）

方案四：SIMD / GPU 并行

为什么线程数 = 核心数是最优的？

代码示例

🔵 I/O 密集型 — 应该怎么处理？

核心原则：不要让 CPU 闲着等 I/O，让等待时间「重叠」起来

方案对比：从慢到快

三大并发模型对比

为什么 I/O 密集型可以用成千上万个协程？

代码示例

📊 技术选型矩阵 — 一图看懂该用什么

混合型场景：Python 示例

🗺️ 各语言生态速查

🎯 一句话总结 + 速查表

🔴 CPU 密集型

🔵 I/O 密集型