背景

提到显卡,几乎所有搞 AI 的人都绕不开 NVIDIA。但 NVIDIA 的产品线远比「游戏显卡」复杂——GeForce、GTX、RTX、Tesla、Quadro、RTX A、Tegra…这些前缀和后缀各自代表什么?RTX 50 系到底「代际数字」大在哪?Tensor 核心又为什么对 AI 推理至关重要?

本文基于抖音 https://v.douyin.com/znOQMgVQbS0/(@哈气黄豆,6 分 20 秒)整理,结合 NVIDIA 官方架构文档,把 NVIDIA 显卡的命名规则、架构脉络、以及与 AI 强相关的核心部件(CUDA 核心 / RT 核心 / Tensor 核心)一次讲清楚。

GeForce 的起源:1999 年一统江湖

GeForce 256:英伟达崛起的起点

1999 年,英伟达推出 GeForce 256,第一次把「GPU」这个名词带进主流视野。它是首款被明确定义为「图形处理单元」的消费级显卡——内置硬件变换与光照(T&L)引擎,把原本由 CPU 承担的 3D 几何计算卸载到显卡上。这一代让英伟达从「众多显卡厂商之一」变成「行业领跑者」。

收购 3DFX:终结一个时代

1999 年时,市场上还有另一家与英伟达齐名的公司——3DFX。3DFX 1994 年成立,凭借 Voodoo 系列显卡在 1994–2000 年间统治了 3D 游戏市场,是 3D 游戏发展史上的关键玩家。然而 Voodoo 架构在 T&L 时代逐渐落后,3DFX 财务也持续承压。2000 年底,英伟达收购了 3DFX,2002 年 3DFX 正式破产——英伟达由此确立了其在独立显卡市场的绝对领导地位,至今未变。

GeForce 命名的现状:今天的 GeForce 已经不是某个独立产品,而是英伟达所有消费级显卡的「前缀品牌」。无论是 GeForce RTX 4090 还是 GeForce RTX 5090,开头的「GeForce」代表「消费级、游戏与 AI 通用 GPU」的定位。

消费级分代:GTX 与 RTX

GTX 时代:10 系是绝唱

在 RTX 出现之前,英伟达消费级产品线以 GTX 为前缀——GTX 660、GTX 970、GTX 1080…这一代以传统光栅化(rasterization)为主,没有专用硬件加速光追或 AI。其中 GTX 10 系(Pascal 架构) 是 GTX 的巅峰,也是最后一代纯光栅化旗舰——GTX 1080 / 1080 Ti 至今仍活跃在二手市场,被很多老玩家视为「甜品级神卡」。

RTX 时代:20 系起,三大核心登场

2018 年发布的 RTX 20 系(Turing 架构) 是一个分水岭——从这一代起,GeForce 改名 RTX,并在 GPU 内部引入两大新核心:RT 核心(专用光线追踪硬件)和 Tensor 核心(专用 AI 推理硬件),加上传统的 CUDA 核心(也叫「着色器核心」,负责光栅化与通用计算),构成了 RTX GPU 的「三大件」。

RTX GPU 内部三大核心(自 RTX 20 系起)
核心类型      | 负责工作              | 对应业务价值
-------------|---------------------|------------------------
CUDA 核心    | 光栅化 / 通用计算     | 游戏帧率 / 通用 GPU 计算
RT 核心      | 硬件光线追踪          | 实时光追游戏 / 影视渲染
Tensor 核心  | 矩阵运算 / AI 推理    | DLSS / 深度学习 / LLM 推理

这意味着从 20 系开始,买一张 RTX 显卡等价于同时买了「游戏卡 + 入门 AI 加速卡」。这也是为什么 2023 年之后大量 LLM 本地推理玩家首选 RTX 4090 / 4080 而不是专业卡——Tensor 核心的算力在 4-bit 量化的 Qwen、Llama 模型上完全够用,且价格只有专业卡的 1/5 到 1/10。

DLSS:Tensor 核心的「杀手级应用」

DLSS 1.0 → 2.0:用 AI「超分」

DLSS(Deep Learning Super Sampling) 是英伟达专门为 Tensor 核心设计的「以 AI 提升帧率」技术。DLSS 1.0 和 2.0 的核心思路是:GPU 先以较低分辨率(比如 1080p)渲染游戏,再由 Tensor 核心利用 AI 模型把画面放大到目标分辨率(比如 4K)。因为 4K 全渲染极吃算力,而「渲染低分 + AI 放大」的组合在视觉上几乎无损但帧率大幅提升——这是 DLSS 1.0/2.0 时代的核心机制。

DLSS 3:帧生成——AI 直接「画」出新帧

2022 年随 RTX 40 系(Ada Lovelace 架构)推出的 DLSS 3 引入了革命性的帧生成(Frame Generation)功能:Tensor 核心不再只做「放大」,而是在两个真实渲染帧之间人工生成全新的中间帧。这让 40 系显卡在不支持帧生成的老游戏上也能凭空多出 50%–100% 的帧率——代价是增加约 10–20ms 的输入延迟(对竞技类游戏不友好,但对 3A 大作是质变)。

DLSS 4:多帧生成 + 效率提升

2025 年初 RTX 50 系(Blackwell 架构)发布时同步推出的 DLSS 4,进一步把帧生成扩展为「多帧生成(Multi Frame Generation)」——Tensor 核心可以在两个真实帧之间生成多于一帧的中间画面,同时优化运行效率和图像质量。配合 50 系更快的 Tensor 核心硬件,DLSS 4 在 4K 高刷新率游戏上首次实现「AI 帧占主导」的工作模式。

DLSS ≠ LLM 推理:虽然都用 Tensor 核心,但 DLSS 和大语言模型推理走的不是同一套 Tensor Core 单元。LLM 推理主要用 INT8/FP8 张量运算(更看重显存带宽与 INT8 算力),DLSS 用的是较低精度的图像生成网络(更看重 FP16 吞吐量)。同一张 RTX 4090,跑 LLM 推理时 Tensor 核心利用率和跑 DLSS 时的模式完全不同。

命名规则:两套数字的含义

左边的数字='代际',右边的数字='性能档位'

RTX 与 GTX 的命名规则几乎一致:型号里通常有两组数字,例如 RTX 4090 = 第 40 代、第 90 档;RTX 3050 = 第 30 代、第 50 档。具体规则是:

左边/大数字(前两位)= 代际:20、30、40、50 分别对应 Turing、Ampere、Ada Lovelace、Blackwell 架构。
右边/小数字(后两位)= 性能档位:在同一代内部,数字越大性能越强(90/80/70/60/50/40 依次降级,80 通常是「次旗舰」,70 是「甜品级」)。
特殊后缀:Ti 表示同代加强版(如 3080 Ti 强于 3080),SUPER 表示中期改款(如 2070 SUPER)。

跨代对比陷阱:老款旗舰可能比新款中端强——例如 GTX 1080 的实际游戏性能强于 RTX 3050,因为 10 系旗舰 1080 的绝对算力在 2026 年仍超过 30 系入门 3050。选购时一定要看「代际 × 档位」的综合位置,不要只看 50 系就觉得「数字大就好」

专业卡:Quadro 退场,RTX A 接班

Quadro 时代(2000–2020)

在消费级 GeForce 之外,英伟达还有一条专业卡产品线——Quadro。Quadro 显卡面向 CAD、设计、影视后期、医疗成像等专业工作站场景,与 GeForce 的核心区别是:驱动稳定性认证、ECC 显存、双精度浮点(FP64)算力保留、专业 ISV 认证。Quadro 这个名字从 2000 年沿用到 2020 年,整整 20 年。

RTX A 系列(2020 年至今)

2020 年英伟达发布 RTX A 系列(Ampere 架构),正式接替 Quadro 产品线。最大变化是:彻底弃用 Quadro 这个品牌名(尽管它延续了 20 年),改用「RTX A」作为新前缀。RTX A 系列在功耗、性能、精度(ECC 显存、FP64 支持)上都比老 Quadro 有显著提升,并采用了与消费级 RTX 相同的 Ampere 架构——主要差异在显存规格(更大)、驱动(专业 ISV 认证)和保修(5 年 vs 3 年)。

2024 年起,RTX A 系列进一步升级为 RTX Ada / RTX Blackwell 工作站卡(如 RTX 6000 Ada、RTX 5880 Ada),命名规则也演化为「RTX + 数字 + Ada/Blackwell 代际后缀」。这条路线的核心是「消费级同架构 + 专业级显存/驱动/认证」。

RTX A 系列能玩游戏吗?答案是肯定的。RTX A6000 48GB 跑《赛博朋克 2077》完全没问题——它的硬件和 RTX 4090 是同代旗舰,区别只在驱动和价格。专业卡游戏的最大问题是性价比:一张 RTX A6000 售价 ≈ 5 张 RTX 4090,而游戏性能差不多。如果你不是需要 ECC 或 48GB 大显存的工作站用户,没必要买专业卡。

与 AI 工作的关系:为什么 AI 玩家都买 RTX 4090

对 LLM 本地推理/微调玩家来说,消费级 RTX 4090 24GB 仍是 2026 年的性价比之王——Tensor 核心算力 + 24GB 显存 + 1.3 万人民币单价,三者组合让 A100 80GB(10 万+)和 RTX 6000 Ada(5 万+)都显得不必要。只有当你的模型超过 24GB(Qwen2.5-72B FP16、Qwen2.5-32B FP32、Llama-70B 4-bit 之外的高精度微调),才需要考虑 A100 / H100 / RTX 6000 这一档专业卡。

本系列上一篇 hf-04-amd-gpu 详细对比了 AMD 显卡在 LLM 场景的优劣势(统一内存是核心卖点,矩阵算力是核心短板),感兴趣的可以连读。

结论

NVIDIA 的显卡产品线虽然看着眼花,本质上就是 3 套体系:

1. 消费级:GeForce → GTX → RTX(20/30/40/50 系),游戏 + 通用计算 + 入门 AI。
2. 专业级:Quadro(已退役)→ RTX A 系列 → RTX Ada/Blackwell 工作站卡,CAD/影视/医疗 + 大显存 + ECC。
3. 数据中心:Tesla(已退役)→ A100 / H100 / B200,专攻 LLM 训练与超大规模推理(这条线不在本文展开)。

选卡的核心判断只有三步:(1) 你的显存需求多大?(2) 你需要 ECC / 专业认证吗? (3) 你的预算上限?

命名上记住一个铁律:看代际 × 档位,跨代时不要被大数字迷惑。GTX 1080 > RTX 3050 这种事是真的会发生——硬件代数差决定绝对算力上限,命名数字只能在同代内做横向对比。