ApexGearNode | AI 知识库

背景

提到显卡，几乎所有搞 AI 的人都绕不开 NVIDIA。但 NVIDIA 的产品线远比「游戏显卡」复杂——GeForce、GTX、RTX、Tesla、Quadro、RTX A、Tegra…这些前缀和后缀各自代表什么？RTX 50 系到底「代际数字」大在哪？Tensor 核心又为什么对 AI 推理至关重要？

本文基于抖音 https://v.douyin.com/znOQMgVQbS0/（@哈气黄豆，6 分 20 秒）整理，结合 NVIDIA 官方架构文档，把 NVIDIA 显卡的命名规则、架构脉络、以及与 AI 强相关的核心部件（CUDA 核心 / RT 核心 / Tensor 核心）一次讲清楚。

GeForce 的起源：1999 年一统江湖

GeForce 256：英伟达崛起的起点

1999 年，英伟达推出 GeForce 256，第一次把「GPU」这个名词带进主流视野。它是首款被明确定义为「图形处理单元」的消费级显卡——内置硬件变换与光照（T&L）引擎，把原本由 CPU 承担的 3D 几何计算卸载到显卡上。这一代让英伟达从「众多显卡厂商之一」变成「行业领跑者」。

收购 3DFX：终结一个时代

1999 年时，市场上还有另一家与英伟达齐名的公司——3DFX。3DFX 1994 年成立，凭借 Voodoo 系列显卡在 1994–2000 年间统治了 3D 游戏市场，是 3D 游戏发展史上的关键玩家。然而 Voodoo 架构在 T&L 时代逐渐落后，3DFX 财务也持续承压。2000 年底，英伟达收购了 3DFX，2002 年 3DFX 正式破产——英伟达由此确立了其在独立显卡市场的绝对领导地位，至今未变。

GeForce 命名的现状：今天的 GeForce 已经不是某个独立产品，而是英伟达所有消费级显卡的「前缀品牌」。无论是 GeForce RTX 4090 还是 GeForce RTX 5090，开头的「GeForce」代表「消费级、游戏与 AI 通用 GPU」的定位。

消费级分代：GTX 与 RTX

GTX 时代：10 系是绝唱

在 RTX 出现之前，英伟达消费级产品线以 GTX 为前缀——GTX 660、GTX 970、GTX 1080…这一代以传统光栅化（rasterization）为主，没有专用硬件加速光追或 AI。其中 GTX 10 系（Pascal 架构） 是 GTX 的巅峰，也是最后一代纯光栅化旗舰——GTX 1080 / 1080 Ti 至今仍活跃在二手市场，被很多老玩家视为「甜品级神卡」。

RTX 时代：20 系起，三大核心登场

2018 年发布的 RTX 20 系（Turing 架构） 是一个分水岭——从这一代起，GeForce 改名 RTX，并在 GPU 内部引入两大新核心：RT 核心（专用光线追踪硬件）和 Tensor 核心（专用 AI 推理硬件），加上传统的 CUDA 核心（也叫「着色器核心」，负责光栅化与通用计算），构成了 RTX GPU 的「三大件」。

RTX GPU 内部三大核心（自 RTX 20 系起）

核心类型      | 负责工作              | 对应业务价值
-------------|---------------------|------------------------
CUDA 核心    | 光栅化 / 通用计算     | 游戏帧率 / 通用 GPU 计算
RT 核心      | 硬件光线追踪          | 实时光追游戏 / 影视渲染
Tensor 核心  | 矩阵运算 / AI 推理    | DLSS / 深度学习 / LLM 推理

这意味着从 20 系开始，买一张 RTX 显卡等价于同时买了「游戏卡 + 入门 AI 加速卡」。这也是为什么 2023 年之后大量 LLM 本地推理玩家首选 RTX 4090 / 4080 而不是专业卡——Tensor 核心的算力在 4-bit 量化的 Qwen、Llama 模型上完全够用，且价格只有专业卡的 1/5 到 1/10。

DLSS：Tensor 核心的「杀手级应用」

DLSS 1.0 → 2.0：用 AI「超分」

DLSS（Deep Learning Super Sampling） 是英伟达专门为 Tensor 核心设计的「以 AI 提升帧率」技术。DLSS 1.0 和 2.0 的核心思路是：GPU 先以较低分辨率（比如 1080p）渲染游戏，再由 Tensor 核心利用 AI 模型把画面放大到目标分辨率（比如 4K）。因为 4K 全渲染极吃算力，而「渲染低分 + AI 放大」的组合在视觉上几乎无损但帧率大幅提升——这是 DLSS 1.0/2.0 时代的核心机制。

DLSS 3：帧生成——AI 直接「画」出新帧

2022 年随 RTX 40 系（Ada Lovelace 架构）推出的 DLSS 3 引入了革命性的帧生成（Frame Generation）功能：Tensor 核心不再只做「放大」，而是在两个真实渲染帧之间人工生成全新的中间帧。这让 40 系显卡在不支持帧生成的老游戏上也能凭空多出 50%–100% 的帧率——代价是增加约 10–20ms 的输入延迟（对竞技类游戏不友好，但对 3A 大作是质变）。

DLSS 4：多帧生成 + 效率提升

2025 年初 RTX 50 系（Blackwell 架构）发布时同步推出的 DLSS 4，进一步把帧生成扩展为「多帧生成（Multi Frame Generation）」——Tensor 核心可以在两个真实帧之间生成多于一帧的中间画面，同时优化运行效率和图像质量。配合 50 系更快的 Tensor 核心硬件，DLSS 4 在 4K 高刷新率游戏上首次实现「AI 帧占主导」的工作模式。

DLSS ≠ LLM 推理：虽然都用 Tensor 核心，但 DLSS 和大语言模型推理走的不是同一套 Tensor Core 单元。LLM 推理主要用 INT8/FP8 张量运算（更看重显存带宽与 INT8 算力），DLSS 用的是较低精度的图像生成网络（更看重 FP16 吞吐量）。同一张 RTX 4090，跑 LLM 推理时 Tensor 核心利用率和跑 DLSS 时的模式完全不同。

命名规则：两套数字的含义

左边的数字='代际'，右边的数字='性能档位'

RTX 与 GTX 的命名规则几乎一致：型号里通常有两组数字，例如 RTX 4090 = 第 40 代、第 90 档；RTX 3050 = 第 30 代、第 50 档。具体规则是：

• 左边/大数字（前两位）= 代际：20、30、40、50 分别对应 Turing、Ampere、Ada Lovelace、Blackwell 架构。
• 右边/小数字（后两位）= 性能档位：在同一代内部，数字越大性能越强（90/80/70/60/50/40 依次降级，80 通常是「次旗舰」，70 是「甜品级」）。
• 特殊后缀：Ti 表示同代加强版（如 3080 Ti 强于 3080），SUPER 表示中期改款（如 2070 SUPER）。

跨代对比陷阱：老款旗舰可能比新款中端强——例如 GTX 1080 的实际游戏性能强于 RTX 3050，因为 10 系旗舰 1080 的绝对算力在 2026 年仍超过 30 系入门 3050。选购时一定要看「代际 × 档位」的综合位置，不要只看 50 系就觉得「数字大就好」。

专业卡：Quadro 退场，RTX A 接班

Quadro 时代（2000–2020）

在消费级 GeForce 之外，英伟达还有一条专业卡产品线——Quadro。Quadro 显卡面向 CAD、设计、影视后期、医疗成像等专业工作站场景，与 GeForce 的核心区别是：驱动稳定性认证、ECC 显存、双精度浮点（FP64）算力保留、专业 ISV 认证。Quadro 这个名字从 2000 年沿用到 2020 年，整整 20 年。

RTX A 系列（2020 年至今）

2020 年英伟达发布 RTX A 系列（Ampere 架构），正式接替 Quadro 产品线。最大变化是：彻底弃用 Quadro 这个品牌名（尽管它延续了 20 年），改用「RTX A」作为新前缀。RTX A 系列在功耗、性能、精度（ECC 显存、FP64 支持）上都比老 Quadro 有显著提升，并采用了与消费级 RTX 相同的 Ampere 架构——主要差异在显存规格（更大）、驱动（专业 ISV 认证）和保修（5 年 vs 3 年）。

2024 年起，RTX A 系列进一步升级为 RTX Ada / RTX Blackwell 工作站卡（如 RTX 6000 Ada、RTX 5880 Ada），命名规则也演化为「RTX + 数字 + Ada/Blackwell 代际后缀」。这条路线的核心是「消费级同架构 + 专业级显存/驱动/认证」。

RTX A 系列能玩游戏吗？答案是肯定的。RTX A6000 48GB 跑《赛博朋克 2077》完全没问题——它的硬件和 RTX 4090 是同代旗舰，区别只在驱动和价格。专业卡游戏的最大问题是性价比：一张 RTX A6000 售价 ≈ 5 张 RTX 4090，而游戏性能差不多。如果你不是需要 ECC 或 48GB 大显存的工作站用户，没必要买专业卡。

与 AI 工作的关系：为什么 AI 玩家都买 RTX 4090

对 LLM 本地推理/微调玩家来说，消费级 RTX 4090 24GB 仍是 2026 年的性价比之王——Tensor 核心算力 + 24GB 显存 + 1.3 万人民币单价，三者组合让 A100 80GB（10 万+）和 RTX 6000 Ada（5 万+）都显得不必要。只有当你的模型超过 24GB（Qwen2.5-72B FP16、Qwen2.5-32B FP32、Llama-70B 4-bit 之外的高精度微调），才需要考虑 A100 / H100 / RTX 6000 这一档专业卡。

本系列上一篇 hf-04-amd-gpu 详细对比了 AMD 显卡在 LLM 场景的优劣势（统一内存是核心卖点，矩阵算力是核心短板），感兴趣的可以连读。

结论

NVIDIA 的显卡产品线虽然看着眼花，本质上就是 3 套体系：

1. 消费级：GeForce → GTX → RTX（20/30/40/50 系），游戏 + 通用计算 + 入门 AI。
2. 专业级：Quadro（已退役）→ RTX A 系列 → RTX Ada/Blackwell 工作站卡，CAD/影视/医疗 + 大显存 + ECC。
3. 数据中心：Tesla（已退役）→ A100 / H100 / B200，专攻 LLM 训练与超大规模推理（这条线不在本文展开）。

选卡的核心判断只有三步：(1) 你的显存需求多大？(2) 你需要 ECC / 专业认证吗？ (3) 你的预算上限？

命名上记住一个铁律：看代际 × 档位，跨代时不要被大数字迷惑。GTX 1080 > RTX 3050 这种事是真的会发生——硬件代数差决定绝对算力上限，命名数字只能在同代内做横向对比。