IT 基础设施概览

从裸金属到 AI 基础设施的现代化演进路径 — 一张图看懂 IT Infrastructure

裸金属 虚拟化 云平台 容器运行 网络与服务 应用编排 AI 基础设施

一个通俗的比喻

把 IT 基础设施想象成一座现代化工厂:最底层是厂房、水电、土地(硬件);往上一层是各种加工设备(虚拟化);再往上是工厂管理系统(云平台);然后是标准化流水线(容器);工厂内部的物流系统(网络);生产调度中心(应用编排);最顶层是智能大脑(AI 基础设施)。每一层都建立在下一层之上,缺一不可。

1

Linux / 操作系统 / 硬件层

Hardware Foundation & OS & Kernel Capabilities
物理服务器 操作系统 内核能力

这是什么?这是整个 IT 大厦的地基,包括你能摸得着的物理设备和运行在硬件上的操作系统。没有这一层,上面的所有东西都不存在。它提供计算能力(CPU/GPU)、存储空间(硬盘/SSD)、网络连接(网卡)这三大核心资源,并通过操作系统(主要是 Linux)把它们管理起来。

硬件基础

物理服务器 GPU NVMe SSD NIC 网卡 BIOS / Firmware

操作系统与内核

Linux Kernel systemd eBPF cgroups Namespace

关键能力

资源隔离 性能优化 高可用基础 安全加固
2

计算与存储虚拟化层

Compute & Storage Virtualization Layer
资源池化 软件定义 弹性伸缩

这是什么?虚拟化技术把一台物理服务器"切分"成多台虚拟服务器,让资源可以被灵活分配。就像把一栋大楼用隔断分成多个独立办公室,每个办公室都可以独立使用水电网络。这一层实现了资源池化——多台物理机的资源整合成一个"大池子",按需取用。

A. 计算虚拟化

KVM QEMU libvirt SR-IOV DPDK

B. 存储虚拟化

Ceph LVM Longhorn OpenEBS MinIO CSI

C. 网络虚拟化

Open vSwitch VXLAN Geneve WireGuard
3

云平台 / 基础设施管理层

Cloud Platform / Infrastructure Management Layer
统一资源管理 IaaS 多云管理

这是什么?云平台是把虚拟化后的资源进一步"打包"成可以自助申请的服务。用户不需要知道物理机在哪里,只需要点几下就能创建虚拟机、分配存储、配置网络。这层包括公有云(AWS/阿里云)私有云(自建数据中心)混合云(两者结合)三种形态。

分布式容器操作系统层

Kubernetes Mesos Swarm Nomad

私有云

OpenStack Harvester Proxmox VE

公有云

AWS GCP Azure 阿里云 华为云

混合云核心能力

统一资源调度 跨云资源编排 多云/混合云管理
4

容器运行时层

Container Runtime Layer
轻量隔离 标准化 快速启动

这是什么?容器是一种比虚拟机更轻量的隔离技术。如果说虚拟机是"整栋独立房子",容器就是"公寓里的独立房间"——共享同一套基础设施,但各自独立。容器启动极快(秒级)占用资源极少,是云原生时代的核心基石。

容器运行时与接口

containerd CRI-O runc gVisor Kata Containers OCI 标准接口

核心能力

容器生命周期管理 轻量隔离 标准运行时接口 安全沙箱
5

网络与服务网格层

Network & Service Mesh / Gateway Layer
服务通信 流量治理 零信任

这是什么?当应用拆分成成百上千个微服务后,它们之间如何通信?流量如何控制?出了问题怎么追踪?网络层解决的是容器和虚拟机之间的"道路"问题,服务网格(Service Mesh)则在这些道路上加装了"智能交通系统"——自动处理加密、重试、限流、监控等。

A. CNI 网络层

Calico Cilium Kube-OVN MetalLB

B. 服务网格层

Istio Linkerd Envoy

C. API 网关层

APISIX Kong Nginx Traefik OpenResty
6

应用编排层

Application Orchestration Layer
自动化部署 GitOps 多集群

这是什么?应用编排层负责"怎么把应用自动部署到集群里、怎么升级、出了问题怎么回滚"。如果说 Kubernetes 是"操作系统",编排工具就是"操作系统上的自动化安装脚本"。GitOps 是这一层的重要理念:所有部署配置都保存在 Git 仓库里,修改代码 = 自动部署。

应用编排控制平面

Helm Operators ArgoCD FluxCD ClusterAPI

各工具角色

应用打包(Helm) 扩展与自动化(Operators) GitOps(ArgoCD/FluxCD) 集群生命周期(ClusterAPI)
7

AI 基础设施与模型服务层

AI Infrastructure & Model Serving Layer
LLM Serving GPU 调度 分布式推理

这是什么?这是当前最热门的一层。大模型(如 GPT、Claude)需要海量的 GPU 资源来训练和推理。AI 基础设施层专门解决"如何高效调度 GPU、如何加速模型推理、如何部署大模型服务"等问题。它让开发者可以像调用普通 API 一样调用大模型的能力。

核心能力

LLM Serving GPU 调度与管理 分布式推理 AI 网关与推理优化

代表技术 / 框架

vLLM Ray SGLang Triton TensorRT-LLM Ollama

设计原则

分层解耦

每一层只做自己的事,层与层之间通过标准接口交互,不互相耦合。

云中立

设计时不绑定任何一家云厂商,应用可以在 AWS、阿里云、私有云之间自由迁移。

安全左移

安全不是在上线前检查一遍,而是在设计和开发阶段就融入进去。

GitOps 驱动

以 Git 为唯一可信源,所有变更都可追溯、可审计、可回滚。

AI 原生就绪

基础设施从设计之初就考虑 AI 工作负载的需求,支持大模型训练与推理。

可观测性原生

默认内置日志、指标、链路追踪,让系统状态一目了然。

横切能力(贯穿所有层级)

身份与访问管理(IAM)

SSO、RBAC、多租户、最小权限原则 — 确保"谁"能访问"什么"资源。

安全与合规

密钥管理、漏洞扫描、合规审计、加密 — 保护数据和系统安全。

可观测性

Prometheus、Grafana、日志系统、分布式链路追踪、告警。

备份与容灾

备份策略、异地容灾、RPO/RTO 指标、演练 — 确保业务连续性。

FinOps & 成本管理

成本可视化、预算控制、资源优化、成本分析 — 云成本不失控。

自动化与 IaC

Terraform、Ansible、Crossplane、Pulumi — 基础设施即代码,一键创建环境。

一句话总结

IT 基础设施就是支撑数字化业务运行的"数字地基"——从最底层的物理硬件,到上层的 AI 大模型服务,每一层都在为上一层提供能力,共同构成了现代企业的技术底座。理解这张图,你就理解了云计算和云原生的全貌。