从目前的游戏生态来看,具有实时光线踪画面已然是3A大作的开发方向,这是将游戏画面真实度带上新台阶的一项重要技术,而它的起点就是率先支持实时光线追踪的英伟达图灵架构显卡。除此之外,实现更好的游戏画面还有一个简单的方法就是以更高分辨率运行,在宣传了多年“4K游戏”的概念之后,在图灵显卡上也终于可以在4K分辨率下流畅运行绝大部分的3A大作。
但是,玩家对于更好的游戏画面的追求并不是二选一,如果要同时以4K分辨率和实时光线追踪画面流畅运行游戏的话,图灵显卡还是显得有些吃力。但是不可否认,图灵仍然是一款划时代的产品,它是从0到1个跨越,而现在,玩家需要的是从这个基础上腾飞,让4K光追游戏从梦想照进现实,成为可能并且进入寻常百姓家,做到真正的普及,英伟达新一代Ampere(安培)架构显卡的推出,就是为了完成这一使命。
基于NVIDIA安培架构的A100计算卡
其实早在5月份的时候,英伟达发布新一代的A100加速计算卡时,新一代的英伟达安培架构就算已经问世了,我们也知道了英伟达安培架构下的最大核心GA100核心的架构图,完整版的GA100拥有128组SM,每组SM中拥有4个最新的第三代Tensor Cores,仍然是64个CUDA Cores/SM的结构。
完整的GA100有着8192个CUDA核心和512个第三代Tensor Cores,因为它是面向纯计算领域的核心,所以没有RT Core,可以说是Volta架构的直属继承者,面积高达826mm2,比GV100核心还要大,这还是换用了台积电的7nm工艺才达成的。在A100加速计算卡上见识到新架构之后,玩家都很期待基于新架构的游戏卡能尽快推出。
2020年9月2日凌晨,NVIDIA终于推出了大家盼望已久的新一代GeForce RTX 30系显卡,首发的显卡有三个型号,分别为RTX 3090、RTX 3080和RTX 3070,其中最先上市也就是最先能与玩家见面的,是其中的RTX 3080。
同时,游戏卡方向的Ampere GPU的面纱也被揭开,虽然同样是基于NVIDIA Ampere架构,但游戏卡和专业卡的NVIDIA Ampere架构与计算卡(也就是之前已经发布的A100)上面的NVIDIA Ampere架构有很大的区别点,只不过共享了部分特性而已。接下来,我们从面向游戏的安培架构看起,然后通过首发的RTX 3080,来看看新一代的GeForce RTX 30系列显卡到底能带给我们什么惊喜。
英伟达安培架构解析
RTX 30系游戏显卡中最大的核心:GA102核心
NVIDIA对Ampere核心的命名延续了自家的一贯传统,使用了GA的前缀,A代表的就是Ampere,纪念的是发现安培定律的安德烈-马里·安培。在字母后面了三位代表核心等级的数字,其中GA100是计算卡专用的核心,游戏卡/专业卡则是使用GA102和GA104等核心。在首批发布的RTX 30系显卡中,有RTX 3080和RTX 3090两张显卡使用了GA102这枚核心,它是NVIDIA Ampere游戏分支架构中规模最大的核心,也是最为完整的Ampere游戏核心。
GA102核心面积高达628mm2,使用三星为NVIDIA定制的8nm工艺打造,集成有280亿个晶体管。单从晶体管数量上我们已经可以感受到这颗核心在规模上膨胀了不少(TU102为186亿个)。将NVIDIA的三代最大规模的GPU放在一起对比,可以发现Samsung 8N工艺在晶体管密度这一指标上较上代使用的TSMC 12FFN工艺有较大的提升。
NVIDIA目前已经给出了GA102核心的完整架构示意图(上图),它仍然沿用了从NVIDIA Pascal架构开始定下的GPC-TPC-SM层级架构,拥有7组GPC,每组GPC包含6组TPC,每组TPC包含2组SM。所以一枚完整的GA102核心拥有84个SM单元。我们再来对比一下它和上代最大核心——TU102之间的区别。
从图中我们很明显可以看到GA102多了一组GPC,也就是比TU102要多出12组SM单元,如果SM单元没有发生大的变化的话,那它的计算规模就已经大了1/6,完整版的GA102应该是拥有10752个FP32 ALU(CUDA核心)。另外,我们还可以看到新的Ampere GPU支持PCIe 4.0总线,在x16宽度下它的速率为16GT/s,每秒可传输约31.5GB/s的数据。当然,完整版GA102仍然支持NVIDIA独家的GPU互联技术——NVLink,与A100计算卡类似的是,GA102核心上的NVLink有显著升级,另外它现在是4x4的排布,而不是原来8x2的分配,也就是说,能够连接更多的GPU。
从宏观层面上看完GA102,我们再进入到NVIDIA GPU的最小计算组——SM单元中,看看Ampere的SM单元为我们带来了哪些不一样的东西。
2倍性能的第二代RTX SM
2018年8月份,NVIDIA在推出RTX 20系列显卡的时候着重介绍了他们的RTX概念,将实时光线追踪和AI计算引入到了GPU中,其SM单元可以说是发生了翻天覆地的变化。NVIDIA在NVIDIA Ampere架构上则是着重提升了整个SM的性能表现,虽然在结构上没有做出太大的修改,但SM单元的性能已经不可同日而语。主要提升有三点,针对传统图形计算的FP32单元加倍、引入第二代RT Core和第三代Tensor Core。
NVIDIA Ampere架构SM的性能两倍于Turing架构SM
GA100 SM(左)对比GA102 SM(右)
双倍的FP32单元,双倍的快乐
在NVIDIA Turing架构上面,NVIDIA引入了分数据类型计算的理念,将整数型(INT32)和单精度浮点型(FP32)两种不同的数据类型交给两种不同的ALU进行计算,大大提高了SM单元的并行计算效率。不过现代游戏应用中最为常见的还是FP32,也就是单精度浮点类型的计算,INT32 ALU的使用率是要比FP32 ALU的低的。为了提升计算效率,NVIDIA引入了可同时支持INT32和FP32两种数据类型的新ALU,取代了原本只支持INT32计算的ALU。也就是说,现在有两条不同的数据路径(Datapath),一条能够处理整数或单精度浮点,另一条只能处理单精度浮点计算。
原本一个SM单元又被划分成四个更小的区块,每个区块有自己的调度器和寄存器,能够调度16个INT32 ALU和16个FP32 ALU,整个SM单元同时可以处理64个INT32计算指令和64个FP32计算指令。到了Ampere上则是变成128个FP32计算指令或64个INT 32计算指令和64个FP32计算指令。在遇到以FP32为主的图形计算时,其计算吞吐量最高可以提高到原本的两倍。
另外NVIDIA也更新了CUDA核心的计数方式,现在以一个FP32 ALU为一个CUDA核心,所以在NVIDIA Ampere架构上,每个SM单元拥有的CUDA核心数倍增到了128个。
为了配合规模有一定扩张的计算单元,NVIDIA对每个SM的缓存系统也进行了一定的改良。Ampere SM的共享缓存/L1数据缓存容量从96KB增长到了128KB,同时其带宽变为原来的两倍,实现容量带宽双增长。
第二代RT Core带来光追效率的显著提升
在NVIDIA Turing架构上,NVIDIA首次引入了能够针对实时光线追踪运算进行加速的RT Core。在执行实时光线追踪相关的计算时,现代的基于SIMD的CUDA核心在进行光线和物体表现碰撞点等计算时表现出来的效率太低,反而是基于MIMD架构的特定用途计算模块更为高效。NVIDIA的RT Core就是这样一种专门为实时光线追踪计算进行加速处理的专用硬件单元。
Ampere GPU上的RT Core主要是增加了对动态模糊的加速运算支持。在非光追情况下的动态模糊往往只是对画面套用后处理滤镜,其效果并不真实。在实时光追情况下,动态模糊则是通过实时计算物体与光线的交互情况所产生的,其运算非常复杂,就算是Turing上面的RT Core也难以承载。到了NVIDIA Ampere架构,其第二代RT Core中加入了NVIDIA设计的插值算法,在保证动态模糊精确性的同时提高了该情况下的实时光线追踪效率,官方称最高可以实现8倍于前代的速度。另外,在基础的BVH计算上面,新一代RT Core也能够快上2倍。
第三代Tensor Core让AI性能出现飞跃
从NVIDIA Volta架构开始,NVIDIA就在SM单元中引入为AI计算优化的Tensor Core,这些张量计算单元能够提高显卡在机器学习计算上的效率。在NVIDIA Ampere架构上,Tensor Core已经进化到了第三代,之前发布的A100计算卡上已经用上了新的第三代Tensor Core,它能够提供比第二代Tensor Core高出4倍的效能。不过游戏卡上面的Tensor Core进行了一定的精简,其FP16 FMA计算的吞吐量只有GA100核心中的Tensor Core的一半。
第三代Tensor Core除了在效能方面有提升之外,还对稀疏矩阵运算提供了支持,详细的介绍可以看我们之前对计算卡方向的NVIDIA Ampere架构的解析:《NVIDIA新一代Ampere架构简单解读:一次有改良有革命的架构升级》。总的来说,即便是面向游戏的NVIDIA Ampere架构将每SM的Tensor Core数量从8个减到了4个,它的整体效能仍然是有很大提升。
又进一大步的DLSS 8K
新的Tensor Core带来的更强劲的AI算力将会为DLSS助力,在今年早些时候,NVIDIA开始全面推广DLSS 2.0技术,相比起初代DLSS,DLSS 2.0不管是在画面质量还是在渲染效率上都有很大的提升,已经不再是所谓的鸡肋功能,而是能够有效地让中端显卡在3A大作中跑出4K60这样的表现。Ampere GPU并没有带来更新的“DLSS 3.0”,不过仍然是将这项技术往前推了一步——DLSS 8K,顾名思义,它就是通过深度学习技术将画面分辨率拉伸至8K的新版DLSS。
虽然NVIDIA并没有用DLSS 3.0这样的命名,但是DLSS 8K在技术上仍然有一定的突破,具体一点就是它将会使用1440p分辨率的实际渲染图像,去推导8K分辨率的输出图像,其像素数量跨越了整整9倍(2560x1440=>7680x4320)。此前在DLSS上面,最高也就是实现4倍的画面拉伸(1920x1080=>3840x2160),现在这一数字直接跳至9倍,显示了AI升频技术那巨大的潜力。
并行程度更高的渲染管线
将不同类型的计算交给不同的单元去处理是从NVIDIA Volta架构就开始采纳的一种理念,当时引入的Tensor Core分流了很多AI相关的运算,而在其后引入的RT Core又将实时光线追踪相关的计算给分流了。那么它们可以并行执行吗?可以,但并不是全部运算都能够并行执行。
如上图所示,Turing GPU在开启实时光追和DLSS时,其RT Core和Tensor Core并不是并行工作的,Tensor Core被调用的时间点已经接近整个渲染流程的末尾,它没有和RT Core同时运行。
在NVIDIA Ampere架构上,NVIDIA提升了GPU内部各种单元之间的并行性,现在传统计算单元、RT Core和Tensor Core这三大单元可以同时工作,在原本基础上继续缩短帧渲染时间。
GDDR6X显存让带宽起飞
我们知道,GPU非常依赖高速缓存,不仅仅是GPU内部的各种缓存系统,更是对外部作为“仓库”使用的显存系统有着非常高的要求,在渲染分辨率越来越高的如今,GPU不仅需要更大的显存供它存放各种渲染素材,还需要带宽更大的显存供它实现更快的数据读取。从最早的3D加速卡一路走来,显存从使用与传统DDR区别不大的GDDR2,到使用GDDR3、GDDR5,再到使用专为超高带宽设计的HBM,其类型更换、升级的速度远比传统的DDR内存来的快。
NVIDIA在2018年的Turing显卡上面首次应用了GDDR6显存,在当时,GDDR6显存能够提供比疲态尽显的GDDR5高的多的带宽,也让GDDR5X黯然失色。但在RTX 30系显卡核心规模暴增的情况下,原来的GDDR6显存已经有些不够用了,于是NVIDIA携手美光,推出了GDDR6的升级版——GDDR6X显存。别看它只多了一个X的后缀,但它在底层信号传输方面有着非常重大的变化,并首次将GDDR系列的显存带宽推高到了1TB/s的高度。
GDDR6X显存上出现重大变化的地方是它的信号传输机制。原本的GDDR系显存使用的是非常原始的二进制信号,再具体一点,该系列显存使用的是NRZ(Non-Return-to-Zero)调制,这种信号调制方式很简单,它用高电平代表1,低电平代表0。如果要提高它的数据带宽,那么提高显存的时钟频率即可。但现在由于受到制程工艺等各方面因素的影响,显存的时钟频率在现阶段已经很难再攀高,那么该怎么办呢?厂商想到了用新的信号调制机制来提高信号传输的效率,他们选择了已经有较为广泛的PAM4。
PAM是一种用模拟信号脉冲编码信息的信号调制方式,PAM4是其中较为简单的一种。与NRZ这种仅有高和低两种状态的二进制信号不同的是,PAM4有4种不同的电平值,也就是它有4种不同的状态,而每种状态对应着一种0和1的组合,也就是说,它的每个状态对应了2个bit的数据量,较NRZ是翻倍的。
如果这么说还有些模糊的话,这里可以将PAM4信号类比成MLC闪存存放数据的方式。我们知道,MLC闪存的每个单元可以存放2-bit的数据,在电信号层面上它表现为4种不同的电平,每个电平之间有固定的间隔,主控在读取和写入的时候都按照固定的规则将数据和电信号进行转换。
那么GDDR6X也是如此,根据NVIDIA公布出来的信息,GDDR6X有四种不同的电平信号,每个电平信号之间的电压差为250mV。另外NVIDIA还配套引入了MTA编码,在信号传输层面上减少损耗,保证稳定性。
在GA102应用的RTX 3090和RTX 3080上,NVIDIA都使用了GDDR6X显存,RTX 3080的显存带宽是760GB/s,RTX 3090的显存带宽还要高,为936GB/s,已经接近1000GB/s大关,不排除未来会有使用更高频率显存的产品出现。
支持HDMI 2.1输出和AV1解码
在视频编解码和视频输出方面,Ampere也紧随时代潮流做了升级。首先是加入了对近期大热的HDMI 2.1的支持,该接口主要以8K输出为噱头,能够更好地配合新一代的8K电视。我们之前对HDMI 2.1做过简单介绍,有兴趣的可以阅读:《有问有答:除了更高的带宽外,HDMI 2.1还有哪些新东西值得关注?》一文。
在视频编解码方面,Ampere仍然沿用了Turing的NVENC单元,没有任何提升。不过它的视频解码单元有升级,支持了AV1的硬件解码,因为它早于Tiger Lake一天发布,所以也顺利成为首个支持AV1硬件解码的GPU(Xe也支持),最高支持的视频规格可到8K60。关于AV1这个视频编码,我们此前的文章中有过简单的介绍,可以参阅:《超能课堂(220):数字视频编码的发展历程》一文。
不过很遗憾的是,Ampere GPU似乎是完全砍掉了对USB-C的支持,这其中有部分原因是VirtualLink联盟的各大成员已经放弃采用该协议。对AIC来说,在显卡上少设计一个USB-C接口也能够节省一定的成本。
GPU与SSD间的VIP通道RTX IO
经过多年的推广,SSD已经成为现今PC用户的装机首选。对于游戏应用,SSD能够很直接的提升游戏的加载速度,降低玩家的等待时间。Sony和微软也不约而同地在他们的次世代主机上引入了高性能的NVMe SSD,不仅如此,两家还在软件层面上予以创新,更好的利用SSD的方方面面,比如说,微软提出的DirectStorage API就能够让游戏以更自由的方式读取自己所需要的数据。
由于历史问题和兼容性需求等等原因,目前很多操作系统给软件提供的存储方面的API都是延续了数十年的老接口,面向的还是传统的HDD,并没有给SSD这种存储介质做优化。SSD的多线程读写、4K随机性能强和持续读写速度超高等等特点并没有被很好的利用起来,也就是说,现在系统软件在一定程度上限制住了游戏的发展。
举例而言,现在游戏在加载时会把存放于HDD/SSD上的数据读入内存,如果是与图形计算相关的资源,则会通过PCIe总线传给显卡写入显存,这个流程非常常见,但对于GPU来说,它所需要的资源绕行了CPU,产生了不必要的开销,将会增加数据读取的时间和延迟。
对现在的PC架构来说,最为理想的模式是GPU直接从SSD里面读数据,但以往的系统并没有开放相关的接口,硬件就是想做也做不到。但现在有了DirectStorage API,未来的Windows将会提供硬件直接读取SSD数据的接口,让游戏开发者对数据加载有了更强的控制能力。
而NVIDIA也很适时地推出了RTX IO技术,简单地说,它就是让GPU直接读取SSD数据的一项技术,如果开发者选择使用RTX IO,那么在游戏加载时,GPU需要的数据就不会再绕道CPU,而是直接被GPU获取,写入到显存中。RTX IO将以“插件”形式与DirectStorage API相整合,另外,它将会提供基于GPU的硬件解压缩能力,在遇到经过压缩的材质时,它能够非常显著的降低CPU的占用率,让数据加载更为高效。
需要说明的是,由于RTX IO需要依靠Windows的DirectStorage API,并且还需要游戏开发商做针对性的优化,所以最快最快我们也要等到明年才能看到这项技术的具体应用。
RTX 3080公版显卡产品解析
首发的安培显卡有三张,分别是RTX 3090、RTX 3080和RTX 3070,而其中最早与我们见面的是RTX 3080。
RTX 3080公版显卡规格
接下来我们具体看下RTX 3080的规格,除了前面提到的由于采用了相比上代更先进的Samsung 8N工艺,即使RTX 3080的这颗GA102核心晶体管数量暴涨到280亿个,相比上代的旗舰RTX 2080 Ti还要多将近100亿,但是核心面积却要更加的小,仅为628平方毫米。而与上代定位同样等级的RTX 2080和RTX 2080 SUPER来比较来看的话,会发现晶体管数量暴涨了一倍有余,提升非常明显。
这一代的英伟达安培架构仍然采用将特定组数的CUDA单元、RT核心、Tensor核心封装为一个SM单元,然后将一定组数的SM单元封装为一个GPC这样的层级结构,最后将几组GPC单元和内部缓存等其他硬件部分组成我们看到的GPU核心。
与上代的RTX 2080和RTX 2080 SUPER一样,RTX 3080也是具有6组GPC,不过每个GPC含有的SM单元不是RTX 2080和RTX 2080 SUPER那样的8个,而是跟RTX 2080 Ti一样,每个GPC中具有12组SM单元。并且与RTX 2080 Ti一样,这6组GPC并不都是满血的,其中两组GPC的SM单元仅启用了10组,所以RTX 3080一共具有68组SM单元,与上代旗舰RTX 2080 Ti一样。
具体到SM单元中,安培这一代每个SM单元所具有的CUDA单元和Tensor核心相比上代图灵都有变化。如前面所述,NVIDIA引入了可同时支持INT32和FP32两种数据类型的新ALU,取代了原本只支持INT32计算的ALU,在面对FP32类数据的运算时,这部分ALU也能参与运算,所以处理FP32数据的效率是上代的两倍。
现代游戏应用中最为常见的数据类型就是FP32,简单来说你可以理解为,在调用CUDA单元进行运算的场景下,安培每个SM单元的效率是上代图灵的两倍。所以在以一个FP32 ALU为一个CUDA核心这样的计数方式下,现在的安培每个SM单元中所含有的CUDA单元是上代的2倍,也就是每个SM单元具有128个CUDA单元,具有68组SM单元的RTX 3080一共具有8704组CUDA单元。
Tensor核心方面,现在英伟达安培架构上的是第三代Tensor核心,相比上代图灵的第二代Tensor核心有巨大的提升,英伟达安培架构将每SM单元的Tensor核心数量从上代的8个减少到4个,具有68组SM单元的RTX 3080一共具有272个Tensor核心,得益于效率的巨大提升,虽然数量有所减少,但是该部分性能仍然是提升了的。
至于加速处理实时光线追踪的RT核心方面,仍然是每个SM单元中配有一个RT核心,具有68组SM单元的RTX 3080一共具有68个RT核心。但是采用英伟达安培架构的RTX 3080上的是第三代RT核心,所以同样的该部分性能相比上代也是提升了。
RTX 3080的频率仍然没有超过2GHz的大关,毕竟频率的设定还是得考虑到发热,并且它们之间并不是线性的关系,在超过一定的频率之后,轻微的频率上升会带来巨大的发热量增加,非常不划算。但是与RTX 2080 Ti比较可以看到,RTX 3080具有远多于RTX 2080 Ti的晶体管数量,但是频率相比仍然还有提升,这里面更先进的Samsung 8N工艺功不可没。
显存部分,RTX 3080是问世的第一张采用最先进的GDDR6X显存的显卡,GDDR6X显存的数据速率可以达到史上最高的19Gbps,配合320bit的位宽,显存带宽已经达到760.3GB/s,同样远超同级别定位的RTX 2080和RTX 2080 SUPER。
而显存容量部分,RTX 3080为10GB,与其他各方面的巨大提升相比,这方面似乎显得提升相对较小,不过这却是基于定价的考量下的结果。越大的显存容量总是越好的,但是却会带来成本的增加,这一代的RTX 30系显卡在带来巨大性能提升的同时力求保持与上代同样的定价,所以RTX 3080选择了配备10GB显存这样一个体量,即足以满足其定位的游戏需求,也可以将价格控制在玩家可以接受的范围之内。
接口方面相比上代高端显卡比较明显的变化就是RTX 3080取消了USB-C接口,并且电源接口采用了最新的12Pin供电接口。而需要注意的是,虽然两代显卡都只配备了一个HDMI接口,但是RTX 3080的HDMI接口是2.1版本的,带宽提升2.67倍,最高可支持10K分辨率的显示输出。并且金手指部分也进步为支持PCI-E 4.0,相比上代带宽翻倍。
最后就是功耗方面了,RTX 3080的功耗增加还是很明显的,TGP达到了320W,比RTX 2080 Ti还要高不少,推荐电源也达到了750W的新高。英伟达的创始人版RTX 3080仍然做到了双槽的体型,不过这可能是很长时间内唯一的一款双槽RTX 3080显卡了,从目前非公的情况来看,几乎都是清一色的三槽体型,个人是希望非公后续能推出双槽的RTX 3080的,不过即使会推出,看起来也得等一段时间。
RTX 3080公版卡设计:创新的双轴流推挽式散热
公版RTX 3080的外观之前我们的开箱视频已经有对它进行过介绍和点评,这一代的公版卡在外观方面相比历代公版变化还是很大的。正面只可以看到一个导风风扇,然后其他部分几乎都是裸露的散热鳍片,不过由于做的相当精致,看着毫无违和感,背面有依然质感上乘的金属背板,关键在于,背面也还有一个风扇,非常创新式的设计,正面风扇吹风,背面风扇抽风,构成了独特散热设计。
新型散热设计
除了外观好看之外,公版卡其实在散热设计上一直很花心思,仅最近几代,就经历了涡轮式风扇散热、上代的“煤气灶”造型的双轴流式风扇散热,然后到这一代又进化了,英伟达为这个创新性的散热设计取了个名字叫双轴流推挽式风扇散热设计。
现在的这个散热方案上面有涡轮式散热和轴流式风扇散热的影子,但又都不一样。涡轮式散热我们知道,是直接通过档板那里将显卡的废热排出机箱之外,其好处是不会将废热弄到机箱里面,相对来说机箱的选择对于显卡散热的影响也小,但是坏处是毕竟这样就导致了风道狭小受限,涡轮式散热的风扇转速都需要比较高,但是却出现了噪音大但散热并不算优秀的情况。
在这张RTX 3080公版卡上,我们可以看到正面有一个轴流式风扇,虽然是轴流式风扇,但是经过特殊的风道设计,这个轴流式风扇吸入冷风之后是会将废热通过档板那里排出机箱之外,很像涡轮式散热,所以它具有了涡轮式散热的优点——减少废热在机箱内的停留,尽快将废热直接排出机箱之外。由于并不完全靠这一个风扇散热,所以风扇转速也不需太大,不会出现噪音困扰。
另一个风扇是在显卡背面,也是一个轴流式风扇,通过位置就可以看到,它不是之前显卡轴流风扇通过安装在显卡正面,将冷空气吹到散热鳍片的设计,而是通过抽风让冷空气流经散热鳍片,然后通过机箱的后置排风扇排出机箱之外,通过这种方式能更好的将废热定向的引导到机箱风扇的风道,避免了机箱风道的凌乱,也让机箱内部整个系统的散热效率相比上一代排风式的轴流式风扇散热要好一些,当然这种方式对CPU散热会有一定的影响。
上图为官方给出的RTX 30系列显卡风流模拟图,关于这一部分,我们会在此文之后作出更详尽的测试,来探寻这种散热设计对整体机箱散热体系的影响。
新的供电接口
另一个创新性的设计是供电接口的设计,现在的高端显卡普遍需要双8 Pin的传统供电设计,但是传统的双8 Pin供电接口着实有一定体积,这阻碍了性能型科技产品小型化的进步方向。所以英伟达设计了全新的12 Pin供电接口,这个接口比标准的PCIe供电接口小,但能够承载更大的电流,也就是能够获取更大瓦数的外部供电。
但是由于PC电源方面还未及时跟上新方案,所以公版卡也附送有一条转接线,用于将标准PCIe供电接口转换成新的12 Pin供电接口。
不易察觉的接口变化
其他接口方面的变化就不像新的供电接口变化那么明显了。其中之一是RTX 3080公版卡取消了USB-C接口,现在仅有3个DP接口和1个HDMI接口。不过这个应该对绝大部分玩家都没有任何影响,毕竟上一代的RTX 2080这些非公卡很多也没有USB-C接口,并不影响大部分玩家对于显卡的选择。
其次,虽然都是一个HDMI接口,不过RTX 3080公版卡上这个HDMI接口是2.1标准的,可以支持8K 60FPS乃至10K 30FPS的视频输出,与采用HDMI 2.1接口的显示器或者电视连接使用的话,只需要一根线材就可以实现8K 60FPS的视频输出,而不像之前需要两根DP线或者4根HDMI线。
最后就是显卡的PCIE接口升级为支持PCIE 4.0,可以提供更高的带宽。这个对于之后的RTX IO的应用和普及比较重要,可以尽量减少系统的带宽瓶颈。
性能测试
由于RTX 3080支持PCIE 4.0,为了鼓励整个行业全面向更新的接口前进,所以我们选择了AMD平台来进行这次首发评测。为了尽量减少其他硬件的瓶颈,选用了一套适合游戏的高端平台。
考虑到还是有很多玩家用的是英特尔平台,还不支持PCIE 4.0,会好奇RTX 3080这张性能来到新高度的显卡在PCIE 3.0上是否会出现性能不能完全发挥?所以我们也是做了对比测试的,得到的结果是,即使RTX 3080目前在PCIE 3.0和PCIE 4.0上在游戏性能上基本没有差异的。
测试平台
本次首发评测对比显卡包括了:RTX 2080公版、RTX 2080 SUPER公版、RTX 2080 Ti公版卡和AMD阵营的RX 5700 XT公版卡。操作系统为最新的2004版本,系统的电源选项为高性能模式,在BIOS开启XMP,让内存运行在3600的频率,其他方面不做过多改变,均采用默认设置。
基准性能测试:平均相比RTX 2080提升70%
我们以3DMark作为显卡基准性能测试,测试项目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六个项目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三个项目分别测试的是显卡在DX11游戏中的1080p分辨率、2K分辨率和4K分辨率下的性能指数,Time Spy、Time Spy Extreme两个项目则是显卡在DX12游戏中的2K分辨率和4K分辨率下的性能指数,Port Royal是测试的显卡实时光线追踪的性能指数,具体成绩见下表,表中所列成绩均为3DMark显卡单项的得分。
可以看到以上一代的RTX 2080为基准的话,采用新英伟达安培架构的RTX 3080确实性能暴增。由于RTX 3080主要面向4K游戏环境推出,我们主要关注Fire Strike Ultra和Time Spy Extreme这两个子项目的性能对比,可以看到RTX 3080相比RTX 2080提升了70%左右,相比上代旗舰RTX 2080 Ti提升30%。
光追性能方面,RTX 3080是跟RTX 2080 Ti一样具有68个用于加速光线追踪渲染的RT核心,但是由于RTX 3080是第三代的RT核心,所以光线追踪性能也有提升,测试结果相比RTX 2080 Ti提升27%。
至于AMD这边,虽然就性能来说RX 5700XT并不是AMD阵营最高的,但是Radeon VII实在架构太老了,而采用新架构的Navi显卡目前最高的就是RX 5700XT。但是RX 5700XT确实很难称得上高端卡,它自己的官方宣传也是面向2K分辨率的游戏环境,性能本来也距离N卡的RTX 2080差距甚远,面对RTX 3080更是完全不在一个量级,更别说它还不支持实时光线追踪技术。
一言以蔽之,AMD急需拿出新的高端卡来与英伟达竞争,不然在高端显卡这块玩家可能会要忘了AMD的存在。而且不仅要堆高性能,而且还需要支持面向新世代的实时光线追踪技术,毕竟从当下的游戏大环境来看,这项技术是接下来提升游戏画面真实感带来更好游戏体验的最主要的一项技术。
4K分辨率游戏实测
由于RTX 3080的定位,在单机大作的游戏实测部分只测试4K分辨率,由于对比的RX 5700XT并不支持实时光线追踪,故将十多款游戏测试分为两组,分别设置为传统光栅化游戏画面(即没有光线追踪效果)和开启实时光追游戏画面的测试。
传统光栅化游戏测试:相比RTX 2080提升50%
传统光栅化游戏画面测试这部分均将游戏画质设置为预设里面的最高画质设置(《地铁:离去》选择Ultra画质),默认不是全屏的手动改为全屏,默认开启了垂直同步的手动关闭垂直同步,除此之外其他选项均为默认设置,均采用游戏自带的Benchmark输出结果。
通过上面11款游戏在传统光栅化游戏画面下的性能测试对比可以看到,RTX 3080相比RTX 2080平均有50%的游戏帧数提升,即使在《刺客信条:奥德赛》这款著名的“众生平等”游戏中,RTX 3080也能相比RTX 2080提升多达42.5%,而在《无主之地3》中提升幅度跟是多达80%,提升相当之大。
上一代图灵显卡的时候,英伟达以让游戏能以4K这样的极致细腻画面流畅运行为其高端显卡的设计目标,从发布当时的结果来看,英伟达确实做到了。但是游戏开发商总是会不断推出新的游戏, 带来更好的画面,所以在图灵显卡的后半生阶段,不断有玩家的声音在说“要向畅玩4K还得看下一代显卡怎么样了”。
现在看来确实是这样,即使面对《无主之地3》、《地铁:离去》这样在最高画质下非常吃性能的新游戏大作,RTX 3080也能实现在4K分辨率下流畅运行,RTX 3080证明了游戏体验完全可以全面向4K挺进。
虽然游戏实测没有理论测试的70%提升那么高,但是客观来讲,对于高端显卡来说,这个提升量是非常大了,因为高端显卡是站在很高的基数上提升,上一代的RTX 2080 Ti相对GTX 1080 Ti提升才27%。
至于AMD这边,RX 5700XT只有RTX 3080一半的帧数表现,用RX 5700XT跑4K确实有点为难它,还是期待AMD早点出新显卡吧。
实时光追游戏测试:畅玩4K光追
光追游戏的测试部分就没有RX 5700XT什么事儿了,并且为了更简明的说明和体现RTX 3080显卡所采用的英伟达安培架构在光追性能和DLSS效率相比上代英伟达图灵架构的提升,这里只用上代旗舰RTX 2080 Ti来对比。所测几款游戏仍然采用预设最高画质(《地铁:离去》选择Ultra画质),光追效果选项可选的均开为“高”设置,开DLSS的测试中DLSS选项可选的均开为“性能”设置。《光明记忆》和《边境》均为独立的Benchmark测试结果。
在4K分辨率并且开启游戏预设最高画质的前提下,还要体验高质量的实时光线追踪效果,大多数情况下即使上代旗舰RTX 2080 Ti开DLSS也难以实现(除了《古墓丽影:暗影》和《德军总部:新血脉》)。但是搭载了第二代RT核心和第三代Tensor核心的RTX 3080让4K光追游戏流畅运行成为可能。
在《边境》这款游戏充满了大量光线追踪画面的Benchmark测试中,RTX 2080显卡开启光追后仅能有11帧,游戏画面看起来就像幻灯片一样一张一张的缓慢播放,但是RTX 3080就可以实现将近30帧左右的流畅及格线,并且在开启DLSS之后,已经可以算较为流畅的运行。
由于RTX 2080 Ti和RTX 3080具有同样个数的RT核心,但是区别在于一个是第一代RT核心,一个是第二代RT核心。开光追之后RTX 3080的游戏帧数比RTX 2080 Ti要高,这意味着在同样的时间内RTX 3080要运算更多帧画面的光线追踪渲染。虽然RTX 3080的传统光栅化性能也要比RTX 2080 Ti高,但是通过之前英伟达帕斯卡架构与英伟达图灵架构的光追游戏测试我们知道,传统光栅化性能对于光追游戏画面帧数的提升是很艰难的,主要还是靠RT核心进行光线追踪加速计算。
RTX 3080开光RTX 2080 Ti开光追提升的比例不小,这也主要靠RT核心进行加速计算,RTX 3080用同样多的RT核心做到如此大的提升,就是第二代RT核心进步的表现。并且同一游戏中开光追效果下帧数的提升幅度还只是说明了第二代RT核心效率提升的最低值,毕竟最终帧数还受制于非光线追踪效果的运算。
追比
接着我们再看用于DLSS的Tensor核心,对于DLSS来说,同一代同样多的Tensor核心对于不同帧数下开启DLSS后其帧数的提升幅度是不一样的,原因很简单,原始帧数越高,DLSS所要进行的AI运算量就越大,所以随着原始帧数的提高,其开启DLSS后提升的幅度会越来越小。
但是我们看《光明记忆》的测试结果,原始15帧的RTX 2080 Ti开DLSS提升了160%的帧数,但是原始帧数更高的RTX 3080开DLSS却提升了更多的171%。并且RTX 3080上所具有的Tensor核心数量仅只有RTX 2080 Ti的一半,以一半的Tensor核心数目进行更大的AI运算量,这也是第三代Tensor核心相比第二代Tensor核心效率提升巨大的体现。
电竞游戏方向
除了以高分辨率带来极致画面体验为主的3A大作方向之外,游戏生态还有另外一个以高帧率为主的电竞游戏方向,它们一般会选择适当降低分辨率乃至降低画质以获得更高的帧数,目的就是为了尽可能的降低系统延迟,而英伟达这次与RTX 30系显卡一起发布的也有NVIDIA Reflex技术。
这个NVIDIA Reflex是分为两部分的,一部分是硬件,一部分是软件。硬件部分叫Reflex Latency Analyzer,是直接预安装在部分经过英伟达认证的高端显示器里的,可以用来测量玩家从点击鼠标直到画面出现变化之间的时间差,也就是整套系统的所有延迟。
软件部分则是NVIDIA Reflex SDK。这个NVIDIA Reflex SDK的作用是降低以及测量渲染延迟的,开发者可以直接整合到游戏内。而在开启其低延迟模式后,可以让CPU与显卡同步,大幅度减少渲染序列,从而降低渲染延迟。
对于RTX 3080在这个方向的表现,可以点此链接阅读我们独立出来的文章。
超频性能测试:约为7%
将功耗上限和温度上限解锁到最高之后,经过多番手动超频尝试,RTX 3080最终在核心频率+120MHz,GDDR6X显存数据速率+1.5Gbps下完成超频。这个状态下,这张RTX 3080公版卡能顺利通过3DMark 模拟4K DX12游戏的TimeSpy Extreme项目测试并且分数最高, 此时这张RTX 3080公版卡的Boost频率为1830MHz,显存等效频率为20.5Gbps。这张RTX 3080公版卡在超频状态下运行3DMark TimeSpy Extreme项目的显卡得分与默频状态下显卡得分的对比如下表所示。
随着英伟达的GPU Boost技术推出后,显卡实际运行的时候都会在功耗上限和温度上限范围内自动往更高的频率上跑,并且上一代图灵显卡的时候GPU Boost已经来到4.0版本,可以更加智能和极限释放显卡的最大性能。并且由于各型号出厂的时候其频率设定已经在性能功耗曲线偏上的位置,即使解锁功耗上限和温度上限,在这点上限的空间增加之内,性能也不会有较大的提升。
所以图灵显卡那一代我们也看到,现在的显卡超频空间并不会很多,RTX 3080也是一样,极限超频大概也仅在7%左右,考虑到能耗比和显卡运行时本身有智能的GPU Boost技术加持,笔者也不建议玩家再对显卡进行手动超频。
温度测试
我们的显卡散热测试均在裸机状态(如果安装在机箱内,GPU温度会高出5℃左右)下进行测试,测试环境温度约为26.2℃。待机温度是开机以后记录10分钟,满载温度则是完成3DMark Fire Strike压力测试后记录下,数据通过GPU-Z的Log to File功能记录,以下为温度测试曲线。(针对于RTX 3080这种特殊的散热设计,我们后续会进行详细的装箱等不同环境下的测试,受于篇幅所限,并未加入到此次首发文章,读者可以留意我站后续的评测文章)
待机温度看着是RTX 3080要比RTX 20系的几张显卡要高,但是其实RTX 20系的几张显卡即使待机时风扇也是不停转的,而RTX 3080待机时风扇停转,所以显得待机温度会高一些,但是都在30摄氏度左右,都算很清凉了。
满载温度方面,RTX 3080最高也仅到77摄氏度,与几张对比显卡的差距最多也只有2摄氏度,单看温度的话可以认为几乎在一个水准。不过RTX 3080的TGP为320W,比其他几个要高不少,更高的功耗意味着更大的发热,所以这个满载温度表现说明RTX 3080的散热设计确实很厉害。
此外,噪音方面,在裸机平台上可以显著感知到RTX 3080在满载时候的噪音要比几张对比卡都明显的低一些。
功耗测试
通过我们专用的显卡功耗测试仪器,可以分别精确地测量显卡PCI-E、外接电源接口瓦特数,显卡最大功耗在3DMark Fire Strike压力测试中获得,待机功耗则是在进入系统后记录1分钟取平均值。
待机功耗方面,RTX 2080、RTX 2080 SUPER、RTX 2080 Ti、RTX 3080和RX 5700XT的待机功耗均值依次为15.4、17.2、20.6、21.6、18.0,具有更多晶体管的RTX 3080相对来说待机功耗还是要高一点点。
满载功耗方面,RTX 2080、RTX 2080 SUPER、RTX 2080 Ti、RTX 3080和RX 5700XT的满载功耗均值依次为235、244、273、331、220,RTX 3080实测的满载功耗略超过标称的320W,并且其瞬时功耗最高到过415W,考虑到CPU等其他硬件的功耗,一个750W的电源确实是打底的了,预算充裕的话搭配更高规格的电源也是更好的。
此外,英伟达此次也给了我们全国唯二的显卡专用功耗测试工具PCAT,原理与我们一直用的专用的显卡功耗测试仪器一样。对PCAT这个仪器感兴趣的读者可以点此跳转连接阅读我们的详细体验文章。
总结:级飞跃,让4K光追真正普及
史实
先说NVIDIA Ampere架构方面,不像是AMD把面向专业计算市场和游戏市场的架构分开,NVIDIA仍然对自己的GPU架构采用了统一化的命名,不过两个方向的架构在内部还是有很大差异的。从Pascal开始,NVIDIA就已经将自己的GPU架构细分为计算架构和图形架构两种了,经过Volta和Turing的分立,现在又在这代Ampere上面合并了。但整个发展趋势还是很明显——计算卡有完整的双精度计算单元,有更大的缓存系统和更快的内存系统;而图形卡则是有强悍的单精度计算能力,同时还具备计算卡没有的RT Core,能够加速游戏或渲染应用中的光线追踪计算。
显卡迷你天梯榜 (完整显卡天梯榜)
游戏方面,这代NVIDIA Ampere架构借助新的工艺,大幅强化了自己的图形计算能力,暴增的FP32吞吐量能够为传统游戏应用和渲染应用提供不小幅度的性能增益,而新一代的RT Core和Tensor Core则是为NVIDIA目前独有的实时光追支持和AI算力插上了更宽广的翅膀。毫无疑问,NVIDIA目前是PC端游戏图形市场的领军者,短时间内能够超越它的也就只有它自己,这次新的Ampere GPU让我们看到NVIDIA在堆性能这件事上的实力,时隔两年之后推出的新架构虽然没有像Turing那样有大幅度的创新,但它的性能提升实在是让人震撼。
游戏NVIDIA Ampere架构也代表着NVIDIA在图形发展道路上抱持的态度和看法,他们认为实时光线追踪是游戏图形下一阶段的重点,而在实时渲染中运用AI技术来提升效率是未来应对高分辨率应用的优秀手段。他们用业界领导者的身份在不断地输出自己的理念,也成功地影响了整个业界。
再说具体的RTX 3080这颗GPU,虽然从广泛的实际测试来看,RTX 3080并没有官方发布时说的2倍于RTX 2080的性能表现,但是我们也看到在个别游戏比如《无主之地3》中确实得到了惊人的80%提升,并且多数游戏中都有50%以上的提升,考虑到它是高端显卡之间的进步,这依然是级飞跃。
史实
上一代的NVIDIA图灵架构RTX显卡实现了实时光线追踪从0到1的跨越,让电子游戏的画面拟真度上升到一个新的高度,而这一代的英伟达安培架构RTX显卡则是开始将这种次时代的游戏画面彻彻底底的让玩家能全方位的体验到,RTX 3080不仅带来巨大的性能提升,而且价格也能控制在一个主流的水准,成为玩家真正能享受得起的4K光追游戏显卡。
RTX 3080不仅让4K光追游戏来到畅玩的水准,并且RTX 3080还是第一款使用GDDR6X的GPU,显存带宽又迎来一次飙升;它也是第一款支持HDMI 2.1的GPU,并且支持AV1解码,之后用户可以只需要一条HDMI 2.1线就可以在线观看高达8K 60FPS的HDR内容。4K光追游戏和8K HDR视频距离成为主流已经不再遥远,而这一切将从售价仅699美元的RTX 3080开始。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com如无意外,AMD将在明年初的CES 2021上发布下一代锐龙5000U、锐龙5000H系列移动处理器,Intel Tiger L...