GPU简述


发布于 2025-12-07 / 0 阅读 / 0 评论 /
认识GPU

GPU简介

GPU定义

图形处理器(Graphics Processing Unit,GPU),又称显示核心(display core),显示芯片(display chip),视觉处理器(video processor),是一种用于处理图像和图形运算工作的协处理器。

GPU vs CPU

CPU和GPU设计目标的不同。

CPU需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理,这些都使得CPU的内部结构异常复杂。

GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。

GPU是一种用于执行大量并行计算任务的硬件平台,其拥有数百个甚至上千个ALU(算术逻辑单元,Arithmetic Logic Unit),基于的SIMT(单指令多线程,Single Instruction Multiple Threads)架构以线程块为单位进行工作,这些计算核心支持线程块中的多个线程在同一周期内执行相同的指令,从而实现高效的并行计算。GPU还包含DRAM,用于存储数据和指令,如纹理、顶点数据、着色器程序等,以及包含Cache(高速缓存),用于临时存储频繁访问的数据或计算结果,减少访问主内存的次数,提高整体性能。

GPU和显卡的关系

显卡,全称显示接口卡,是计算机极为重要的配件,堪称电脑的 “视觉魔法师”,主要负责图形运算,将计算机的数字信号转化为显示器能识别的图像信号,让我们看到丰富多彩的画面。

显卡主要由 GPU 芯片、显存、散热器、PCB 板、接口等构成。

GPU 芯片是显卡的 “大脑”,其性能强弱直接决定显卡整体实力。

GPU特点

GPU应用场景

显卡

按应用场景不同,可分为:

游戏显示卡

游戏显示卡是游戏玩家的 “利器”,像 AMD 的 Radeon RX 7900 系列,针对游戏优化,能提供高帧率、低延迟的游戏体验,让玩家沉浸在虚拟世界。

科学计算加速卡

科学计算加速卡则在科研领域大显身手,例如在基因测序、天气预测等复杂计算中,能利用 GPU 强大的并行计算能力,大幅缩短计算时间。

渲染专业卡

渲染专业卡专为设计师、影视制作人员打造,如 NVIDIA 的 Quadro 系列,在 3D 建模、动画渲染时,能精准呈现模型细节,加速渲染进程,让作品更逼真、更高效地完成。

通用高性能并行计算

广泛应用于众多领域。

人工智能领域

GPU 能加速深度学习模型训练,像 OpenAI 训练 GPT - 4 时,使用大量 NVIDIA GPU,大幅缩短训练时间,提升模型性能。

虚拟现实领域

GPU 实时渲染逼真虚拟场景,为用户带来沉浸式体验,如 Meta Quest 3 等 VR 设备,依靠强大 GPU,让用户在虚拟世界中自由穿梭。

科学计算领域

处理复杂数据模拟,如天体物理中星系演化模拟,GPU 并行计算能力可快速完成海量数据运算,助力科研突破。

在基因测序、天气预测等复杂计算中,能利用 GPU 强大的并行计算能力,大幅缩短计算时间。

GPU实现原理

一个GPU具有数千个计算核心,可以有效地并行处理工作负载。

以下以NVIDIA GA100 GPU为例,解释GPU的实现原理,其物理结构说明可参考官方文档

https://images.nvidia.cn/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf

GA100结构如下图所示:

NVIDIA GA100 GPU是由 8个multiple GPU Processing Clusters (GPC)、64(8*8)个Texture Processing Clusters (TPC), 128(8*8*2)个Streaming Multiprocessors (SM), 和12个HBM2 memory controllers组成。

SM:也叫GPU大核,其他资源如:warp scheduler,register,shared memory等。SM可以看做GPU的心脏(对比CPU核心),register和shared memory是SM的稀缺资源。CUDA将这些资源分配给所有驻留在SM中的thread。因此,这些有限的资源就使每个SM中active warps有非常严格的限制,也就限制了并行能力。

单个SM的结构如下图所示:

每个 SM 包括 4 个Tensor Core,每个Tensor Core可以 256 FP16/FP32 FMA operations per clock,每个区块有独立的 L0 指令缓存、Warp 调度器、分发单元,以及 16384 个 32 位寄存器,这使得每个 SM 可以并行执行 4 组不同指令序列。4 个区块共享 L1 指令缓存和数据缓存、shared memory、纹理单元。每个SM中的L1 cache和shared memory单元总容量达192 KB。

GPU产品系列

商用GPU主要包括NVIDIA Geforce系列、AMD Radeon系列和 NVIDIA Tesla系列等,它们在图像处理等应用领域提供了高逼真的渲染效果,在科学计算等研究领域提供了强大的计算能力。

GPU发展历程

1999 年,NVIDIA 公司在发布 GeForce256 图形处理芯片时,首次提出 GPU 概念,此后 GPU 进入高速发展期。

2025年7月26日,中国首款基于自主架构的6纳米GPU正式亮相。

GPU市场发展

2021 年英伟达数据中心业务占比为 39%,而 2024 年英伟达数据中心业务占比已达 88%,显著超越游戏部门,成为其 GPU 业务的核心增长极。

根据 Verified Market Research 的数据,2024 年全球 GPU 市场规模为 773.9亿美元,2030年有望达到4724.5亿美元,2024-2030年的复合增长率高达35.19%,呈现强劲的增长态势。

根据中商产业研究院数据,2024 年中国 GPU 市场规模约为1,073 亿元,同比增长 32.96%。