本文来自

《微型计算机》

2016年07期

《微型计算机》领导数码时尚新生活,坚持以人为本,把消费类电子产品的广泛应用与现代生活紧密结合,以通信、娱乐、移动、影像为四大基本报道方向,向读者提供最快、最新的数码产品资讯和最适用的数字消费指南,引导最精彩的数字时尚生活。

购买纸刊

06期

写了 3 篇文章,被 5 人关注,获得了 42 个喜欢

一脸经典范儿

NVIDIA GTX 1080显卡深度品评

文/ 《微型计算机》评测室
前言 今年GTC上,NVIDIA展示的GP100核心令人震惊,新工艺加新架构,使其核心达到惊人的15.3亿晶体管集成规模,并启用了HBM2显存、NVLink总线等一系列先进技术。无论是计算效率还是规模,都堪称全球楷模。但如我们所预料的那样,由于这个架构主要针对行业用户开发,太过在意双精度计算能力,且成本不菲,而导致它在游戏应用中的效率、性价比并不那么出众,所以它暂时不会出现在桌面显卡上。那么问题来了,NVIDIA将拿什么来更新桌面显卡产品线,取代Maxwell架构的经典地位?NVIDIA给出的答案是GTX 1080……

GTX 1080何许人物?

熟悉NVIDIA显示核心的资深玩家应该对NVIDIA显示核心的命名习惯不陌生,通常每一代产品的顶级核心都被命名为Gx100,比如Kepler架构时代的GK100核心对应顶级的GTX 780Ti、GTX TITAN;以及Maxwell架构时代的GM200(第二代Maxwell架构,所以是200而非100)对应GTX 980Ti和GTX TITAN X,所以可以推测GP100应该是这代基于Pascal架构的顶级核心。只不过近几年,受限于工艺更新速度、市场竞争状况等综合因素,NVIDIA在桌面产品迭代时,已经不再采用一步到位的策略。而是习惯先发布新系列的甜点级核心,依靠出色的能耗比、良品率、性价比等优势来迅速完成对老产品的取代。这类甜点核心一般都被命名为Gx104,就像Kepler架构时代GK104核心的GTX 680,以及Maxwell架构时代的GM204核心的GTX 980。它们都是同架构中最先上市的产品,在性能上完全超越了上代架构的顶级显卡,所以在相当长一段时间内客串了“旗舰”的角色。而我们今天将要介绍的GTX 1080就是一款使用了GP104核心的产品,在我们看来它也应该是一个即将客串一段时间旗舰的甜点产品。

 

最缺新技术的甜点?

和之前几代产品顶级核心与甜点核心在技术、工艺、特性和底层架构设计上基本一致不同,这一带Pascal架构的产品有些特别。基于Pascal架构的顶级核心GP100已经用上了HBM2显存、NVLink总线等先进技术,而GP104核心却依旧是款使用GDDR显存的产品,而且没有高速连接的NVLink总线。在NVIDIA的角度,GDDR5X在GDDR5的基础上进一步优化了带宽性能和运行速度,已经足以满足甜点产品的性能需求。而桌面应用对高速互联的需求应该远不及专业计算强烈,所以NVLink也非必需品,自然是能省就省,为玩家提供高性价比。但站在玩家的角度难免没有抱怨或疑惑,缺少高级技术是否会限制核心性能发挥?这样的GTX 1080还能不能成功客串旗舰,带来足够让人信服的表现?

 

新架构和新工艺给你足够信心

其实抛开HBM2显存和NVLink总线这些外围技术,就GPU核心的工艺来说,GP104和顶级的GP100一样,都使用了台积电最新16nm FinFET Plus工艺制造。相比之前一直使用的28nm技术,台积电宣称16nm工艺在同等功耗下性能可以提升40%,或者同等性能下功耗降低50%。在MC此前的GP100对比GM200的对比解析文章中,我们已经分析过,相比之前28nm的Maxwell架构,Pascal借助16nm工艺,在晶体管密度上实现了88%的巨大提升。实际上对比这几款核心的技术参数,玩家们会轻松发现GP104的晶体管数量逼近了上代顶级的GM200,但是核心面积却只有后者的约60%,新工艺功不可没。坦白说,我们都知道半导体芯片的实力基础就是制造工艺,很多时候同代产品的竞争输赢就在工艺的优劣上。所以就这一点来说,GP104作为当前第一款基于16nm先进工艺制造的游戏GPU,相比自家的Maxwell和对手无疑具有先天优势。除了密度还有一个显而易见的地方就是它的工作频率,我们看到其GPU基础频率就已经高达1.61GHz,boost频率更是达到了1.73GHz。相比起竞争对手约1GHz左右的频率,或者自家上代MAaxwell显卡1.1GHz左右的频率,GP104的频率提升幅度超过了40%,这足见新工艺的威力。


熟悉显卡的玩家都知道,同架构下,芯片频率基本与性能成线性正比关系,这也是玩家们超频追求高性能的直接原因。这意味着即使GP104的底层计算核心不做任何改变,在同计算规模下,它的性能也会是上代产品的1.4倍左右。这个提升幅度已经非常让人满意,但很显然,NVIDIA并不满足于此,因为GP104的核心架构变化相比Maxwell的改变也是相当明显的。组织结构上保留了几代以来的GPU-GPC-SMs的大框架,一个GP104核心内部有4个GPC模块,这个比例倒是和GTX 980使用的GM204核心一样。不过当时每个GM204核心的GPC模块内只有4组SMs,每组SMs内设计了128个CUDA计算核心。与之相比,GP104的每组SMs具有的CUDA计算单元依旧是128个,但每个GPC模块内的SMs数量增加了一组达到5组。所以整体的CUDA单元数量就由GM204的2048个大幅提升到2560个,逼近了上代顶级产品GTX 980Ti内含2880个CUDA的规模。


不过这里我们需要注意一个关键技术点,即CUDA核心的运算类型。若读者还记得我们之前的GP100技术介绍文章的话,当记得GP100的核心设计,达到3840(FP32 CUDAA)+1920(FP64 CUDA),总计5760的恐怖规模。在此,我们暂时不提GP104的计算核心规模与GP100的对比。先重点看FP32和FP64这两个描述,这是区分CUDA是计算单精度数据还是双精度数据的说法,但在GP104上NVIDIA并没有强调这种称谓,所以我们猜测GP104的所有CUDA都是针对单精度计算的FP32。因为对游戏应用而言,还没有双精度计算的用武之地,而双精度的FP64单元无论是晶体管占用还是功耗、发热量上都非常“可观”,所以NVIDIA完全没有必要为只针对游戏市场的显卡设计FP64单元来降低能耗比。也因为此,GP100和GP104核心的底层架构设计也是差距悬殊。GP100的GPU内部包含了6个GPC单元,而每个GPC内则集成了夸张的10组SMs模块。与之相比GP104的GPC减少到了4个,每个GPC内的SMs也腰斩到5组。更重要的是每个SMs模块内的CUDA单元设计差距明显,由于FP64单元无论是功耗还是集体管消耗都比FP32高出许多,所以GP100的一个SMs内只配备了64个FP32 CUDA加32个FP64 CUDA,总CUDA数量其实只有92个。而GP104的每个SMs具备128个CUDA,数量多出1/3,非常适合密集图像处理的游戏计算,而且功耗控制无疑也更容易,而这也是促成GP104核心能工作在1.7GHz高频的一大功臣。实际上,在我们尝试过超频之后,我们可以肯定的告诉你,GP104核心的新工艺和新架构能带给你的惊喜远不止如此,具体情况,在此卖个关子,有待之后的动态体验环节一一为你展现。

 

GDDR5X并不是绣花枕头

说到GTX 1080,想必不少高端玩家会觉得其没有搭配HBM显存是一大遗憾,毕竟竞争对手的上一代显卡就已经使用了这种技术。HBM1代就展示出了超高位宽的优势,HBM2更是弥补了容量上不足的缺陷,按理说已经非常成熟。但GTX 1080却没有使用,这毫无疑问是基于产品成熟度之外的考虑,在我们看来无非两点:1是HMB2的成本、良率或者产能达不到需求;2是GTX 1080还不需要这么高带宽。看GTX 1080的官方数据我们发现NVIDIA只为它设计了256bit的显存位宽,这是相当小的规模,甚至不及上代GM200的384bit。在计算规模相当、计算核心频率大幅提升后,GP104核心对显存的需求理论上是要高于GM200的,不启用HMB2就不说了,怎么能不升反降?


这就涉及到新的GDDR5X的技术指标,NVIDIA重新设计了GPU的显存控制器配合上PCB针对显存走线的优化,让GDDR5X的等效频率从GDDR5时代6000MHz左右的水平,突飞猛进到10000MHz,增幅超过30%。而且在显存压缩算法上,Pascal更加彻底,综合压缩率提高后节省了约20%左右的带宽。所以综合起来,在同位宽的情况下,GDDR5X在Pascal上的带宽表现,是GDDR5在Maxwell上的约1.7倍。所以仅256bit位宽GP104,却拥有高达320GB/s的显存带宽,算上压缩优化等效性能上理论上比拥有384bit’位宽的GM200还强。不过仔细来分析,考虑到计算规模接近,且计算效率的提升,整体计算能力上GP104应该是超过GM200的。所以我们依旧怀疑GTX 1080的显存有可能存在性能瓶颈,不过NVIDIA既然如此安排,肯定是考虑包括能耗比、性价比之后的综合决定,我们无法单独就此确定它的好坏,只能在之后的实际测试环节中去实际体会和进一步分析。


不可小觑的渲染辅助技术集群

几乎每一代新GPU架构发布时,NVIDIA都会伴随新架构更新诸多软件工具,或是底层开发相关的辅助工具,或者高级的算法更新,总之都是为了更好地为图形计算服务。这次也不例外,总体来说依旧是创新加更新的方式,既有全新的内容,又有对过往技术的优化升级。

 

硬件多重投影引擎SIMULTANEOUS MULTI-PROJECTION

VRWorks无疑是伴随这带Pascal架构而来的重点软件技术创新,其中有关图形渲染的重点则是SIMULTANEOUS MULTI-PROJECTION(简称SMP,硬件多重投影)。SMP可以让基于Pascal架构的GPU渲染基于16个不同角度的画面,并根据需求分别呈现。为了高效率的实现多角度画面同步投射,NVIDIA不仅更新了算法,还在Pascal架构GPU中集成了SMP硬件引擎模块,每组SMs一个,在GP104内就拥有20个之多。SMP究竟有什么用,需要NVIDIA在软、硬件上如此重视?这其实就是之前NVIDIA宣称GTX 1080能强到GTX 980Ti两倍性能的关键。而这还得从渲染应用说起。


在VR兴起之后,我们的图形渲染势必要从单一显示器画面像双眼画面过度。这其中涉及到画面切割、画面畸变、画面多角度渲染的问题。NVIDIA优化了有关镜头畸变的算法,能够减少40%左右的无用(不会显示在头盔视野里)的图形渲染。更重要的是,NVIDIA借助SMP,实现了Single Pass Stereo这一重要功能。SPS能够让原本需要分别渲染的左右眼画面,简化到只需要渲染一个眼睛所见的画面,另一画面由SMP硬件单元通过特定的算法合成。此时,SMP具有硬件、软件协作的高效率开始发挥作用,多角度引擎,让另一角度画面的合成几乎不再额外消耗显卡计算资源。如此一来,在VR头显上输出同样的画面,GP104的工作量能瞬间减半,理论上帧率自然可以大幅度提升,最高近2倍。当然,SMP的优势不仅如此,在对畸变的处理上也有裨益,能够降低多连屏或曲面屏用户面临的画面拉伸问题,可以根据需要,更真实地模拟人眼环视效果。

 

ACE终成正果?

动态负载平衡(DYNAMIC LOAD BALANCING)

AMD和NVIDIA对于异步运算(Asynchronous Compute)的支持程度,曾在上一代架构上经引爆一场口水战。大意是说只有AMD架构支持硬件ACE,而NVIDIA的Maxwell架构对ACE不支持,至少支持是不完善的。尽管后来NVIDIA有辟谣称Maxwell是支持异步运算的,问题出在驱动上。但不论什么原因,在《奇点灰烬》、《杀手6》等支持异步运算的游戏中,基于Maxwell架构的显卡确实在DX12的性能表现上落后于AMD的GCN架构的。在Pascal架构上,NVIDIA宣称弥补了这个问题,并强调Pascal架构原生支持异步运算,包括基于GPU的物理加速、音频处理、渲染帧的后期处理以及VR中的异步时间扭曲算法中都可以用到异步运算。但NVIDIA并没有给出什么实际的测试数据来支撑,反倒是在动态负载平衡(DYNAMIC LOAD BALANCING)的原理上废了一番口舌。不得不说,新的动态平衡机制赋予了Pascal架构更灵活的处理能力,无论是图形渲染的,还是计算相关的任务都能够互不影响。任务拆分并行计算本就是异步运算的精髓,从这一点来看新的Pascal架构无疑比Maxwell强了不少。至于在DX12环境中,是否能体现出比GCN更强的效率提升,则有待之后的实际性能对比测试中来为大家揭晓。

 

GPU Boost 3.0

在以往的Boost 2.0上,NVIDIA提出了根据功率动态调整频率的设计,在当时看来这是已经是非常先进的方式,能尽可能的维持GPU的高频率。但由于这个机制太过线性,导致GPU在各个电压点上,没有办法最大程度挖掘潜力。而Boost3.0就是针对此项进行了改进,它可以设置各个电压点的频率偏移,使频率偏移与单个电压点一一对应。这样就可以使得GPU的频率达在每个设定电压点下获得最大限度的挖掘,压榨出GPU的所有剩余性能。
/图ZT12-WK-13.TIF:GPU Boost 3.0相比上代技术,更看重每个电压点的优化,而不是简单的线性提升设定。

 

Fast Sync

同步技术近几年来一直是两大显示器厂商关注的重点,之前NVIDIA和AMD都在着手解决垂直同步在帧率上不够流畅不够灵活的问题,这个问题随着G-Sync等技术出现后可谓迎刃而解。但在关乎流畅度体验的另一个维度——延迟上,两家厂商之前的产品和技术都没有有效优化。伴随Pascal架构,NVIDIA推出了针对延迟优惠的Fast Sync,能将画面延迟优化到接近不开启同步技术的水平,整体延迟在20~40ms间,比之前开启同步后,延迟基本在85~105ms之间的表现出色太多。更重要的是,这个技术可以结合G-Sync技术搭配使用,享受延迟和帧率上的双重流畅。

像素级抢占

任务抢占在NVIDIA以往的架构中早已诞生,意在随时终止非紧急任务,让计算单元第一时间完成紧急、重要任务的工作,然后又可以正确的返回进行到一半的非紧急任务中,确保整体任务的正确、快速完成。不过在Pascal架构之前,所有GPU能做到的任务抢占精度都只能到任务级别,在任务内就没法进一步划分了。而Pascal架构则进一步优化了抢占机制,让GPU能处理像素级别的抢占需求。这个看似微小的改变,却赋予了Pascal架构在VR应用中更好的应对转头动作的能力。它能够第一时间集中尽可能多的计算资源,优先处理转头后需要渲染输出的改变像素,确保画面切换延迟足够低,保证VR体验不带给用户眩晕、呕吐的负面影响。

 

 

 

 

 

发表评论
昵称
* 提交后可能不会即时显示,请等待审核和缓存更新
邮箱
登录注册 参与评论
n
Copyright © 2016 vantk.com 版权声明. 重庆远望科技信息有限公司 版权所有