一脸经典范儿

《微型计算机》2016年07期

Broam1 GEEK 2016-06-21

写了 3 篇文章，被 5 人关注，获得了 42 个喜欢

- 取消关注

一脸经典范儿

NVIDIA GTX 1080显卡深度品评

文/ 《微型计算机》评测室

 NVIDIA , GTX 1080 , 显卡

前言今年GTC上，NVIDIA展示的GP100核心令人震惊，新工艺加新架构，使其核心达到惊人的15.3亿晶体管集成规模，并启用了HBM2显存、NVLink总线等一系列先进技术。无论是计算效率还是规模，都堪称全球楷模。但如我们所预料的那样，由于这个架构主要针对行业用户开发，太过在意双精度计算能力，且成本不菲，而导致它在游戏应用中的效率、性价比并不那么出众，所以它暂时不会出现在桌面显卡上。那么问题来了，NVIDIA将拿什么来更新桌面显卡产品线，取代Maxwell架构的经典地位？NVIDIA给出的答案是GTX 1080……

GTX 1080何许人物？

熟悉NVIDIA显示核心的资深玩家应该对NVIDIA显示核心的命名习惯不陌生，通常每一代产品的顶级核心都被命名为Gx100，比如Kepler架构时代的GK100核心对应顶级的GTX 780Ti、GTX TITAN；以及Maxwell架构时代的GM200(第二代Maxwell架构，所以是200而非100)对应GTX 980Ti和GTX TITAN X，所以可以推测GP100应该是这代基于Pascal架构的顶级核心。只不过近几年，受限于工艺更新速度、市场竞争状况等综合因素，NVIDIA在桌面产品迭代时，已经不再采用一步到位的策略。而是习惯先发布新系列的甜点级核心，依靠出色的能耗比、良品率、性价比等优势来迅速完成对老产品的取代。这类甜点核心一般都被命名为Gx104，就像Kepler架构时代GK104核心的GTX 680，以及Maxwell架构时代的GM204核心的GTX 980。它们都是同架构中最先上市的产品，在性能上完全超越了上代架构的顶级显卡，所以在相当长一段时间内客串了“旗舰”的角色。而我们今天将要介绍的GTX 1080就是一款使用了GP104核心的产品，在我们看来它也应该是一个即将客串一段时间旗舰的甜点产品。

最缺新技术的甜点？

和之前几代产品顶级核心与甜点核心在技术、工艺、特性和底层架构设计上基本一致不同，这一带Pascal架构的产品有些特别。基于Pascal架构的顶级核心GP100已经用上了HBM2显存、NVLink总线等先进技术，而GP104核心却依旧是款使用GDDR显存的产品，而且没有高速连接的NVLink总线。在NVIDIA的角度，GDDR5X在GDDR5的基础上进一步优化了带宽性能和运行速度，已经足以满足甜点产品的性能需求。而桌面应用对高速互联的需求应该远不及专业计算强烈，所以NVLink也非必需品，自然是能省就省，为玩家提供高性价比。但站在玩家的角度难免没有抱怨或疑惑，缺少高级技术是否会限制核心性能发挥？这样的GTX 1080还能不能成功客串旗舰，带来足够让人信服的表现？

新架构和新工艺给你足够信心

其实抛开HBM2显存和NVLink总线这些外围技术，就GPU核心的工艺来说，GP104和顶级的GP100一样，都使用了台积电最新16nm FinFET Plus工艺制造。相比之前一直使用的28nm技术，台积电宣称16nm工艺在同等功耗下性能可以提升40%，或者同等性能下功耗降低50%。在MC此前的GP100对比GM200的对比解析文章中，我们已经分析过，相比之前28nm的Maxwell架构，Pascal借助16nm工艺，在晶体管密度上实现了88%的巨大提升。实际上对比这几款核心的技术参数，玩家们会轻松发现GP104的晶体管数量逼近了上代顶级的GM200，但是核心面积却只有后者的约60%，新工艺功不可没。坦白说，我们都知道半导体芯片的实力基础就是制造工艺，很多时候同代产品的竞争输赢就在工艺的优劣上。所以就这一点来说，GP104作为当前第一款基于16nm先进工艺制造的游戏GPU，相比自家的Maxwell和对手无疑具有先天优势。除了密度还有一个显而易见的地方就是它的工作频率，我们看到其GPU基础频率就已经高达1.61GHz，boost频率更是达到了1.73GHz。相比起竞争对手约1GHz左右的频率，或者自家上代MAaxwell显卡1.1GHz左右的频率，GP104的频率提升幅度超过了40%，这足见新工艺的威力。

熟悉显卡的玩家都知道，同架构下，芯片频率基本与性能成线性正比关系，这也是玩家们超频追求高性能的直接原因。这意味着即使GP104的底层计算核心不做任何改变，在同计算规模下，它的性能也会是上代产品的1.4倍左右。这个提升幅度已经非常让人满意，但很显然，NVIDIA并不满足于此，因为GP104的核心架构变化相比Maxwell的改变也是相当明显的。组织结构上保留了几代以来的GPU-GPC-SMs的大框架，一个GP104核心内部有4个GPC模块，这个比例倒是和GTX 980使用的GM204核心一样。不过当时每个GM204核心的GPC模块内只有4组SMs，每组SMs内设计了128个CUDA计算核心。与之相比，GP104的每组SMs具有的CUDA计算单元依旧是128个，但每个GPC模块内的SMs数量增加了一组达到5组。所以整体的CUDA单元数量就由GM204的2048个大幅提升到2560个，逼近了上代顶级产品GTX 980Ti内含2880个CUDA的规模。

不过这里我们需要注意一个关键技术点，即CUDA核心的运算类型。若读者还记得我们之前的GP100技术介绍文章的话，当记得GP100的核心设计，达到3840(FP32 CUDAA)+1920(FP64 CUDA)，总计5760的恐怖规模。在此，我们暂时不提GP104的计算核心规模与GP100的对比。先重点看FP32和FP64这两个描述，这是区分CUDA是计算单精度数据还是双精度数据的说法，但在GP104上NVIDIA并没有强调这种称谓，所以我们猜测GP104的所有CUDA都是针对单精度计算的FP32。因为对游戏应用而言，还没有双精度计算的用武之地，而双精度的FP64单元无论是晶体管占用还是功耗、发热量上都非常“可观”，所以NVIDIA完全没有必要为只针对游戏市场的显卡设计FP64单元来降低能耗比。也因为此，GP100和GP104核心的底层架构设计也是差距悬殊。GP100的GPU内部包含了6个GPC单元，而每个GPC内则集成了夸张的10组SMs模块。与之相比GP104的GPC减少到了4个，每个GPC内的SMs也腰斩到5组。更重要的是每个SMs模块内的CUDA单元设计差距明显，由于FP64单元无论是功耗还是集体管消耗都比FP32高出许多，所以GP100的一个SMs内只配备了64个FP32 CUDA加32个FP64 CUDA，总CUDA数量其实只有92个。而GP104的每个SMs具备128个CUDA，数量多出1/3，非常适合密集图像处理的游戏计算，而且功耗控制无疑也更容易，而这也是促成GP104核心能工作在1.7GHz高频的一大功臣。实际上，在我们尝试过超频之后，我们可以肯定的告诉你，GP104核心的新工艺和新架构能带给你的惊喜远不止如此，具体情况，在此卖个关子，有待之后的动态体验环节一一为你展现。

GDDR5X并不是绣花枕头

说到GTX 1080，想必不少高端玩家会觉得其没有搭配HBM显存是一大遗憾，毕竟竞争对手的上一代显卡就已经使用了这种技术。HBM1代就展示出了超高位宽的优势，HBM2更是弥补了容量上不足的缺陷，按理说已经非常成熟。但GTX 1080却没有使用，这毫无疑问是基于产品成熟度之外的考虑，在我们看来无非两点：1是HMB2的成本、良率或者产能达不到需求；2是GTX 1080还不需要这么高带宽。看GTX 1080的官方数据我们发现NVIDIA只为它设计了256bit的显存位宽，这是相当小的规模，甚至不及上代GM200的384bit。在计算规模相当、计算核心频率大幅提升后，GP104核心对显存的需求理论上是要高于GM200的，不启用HMB2就不说了，怎么能不升反降？

这就涉及到新的GDDR5X的技术指标，NVIDIA重新设计了GPU的显存控制器配合上PCB针对显存走线的优化，让GDDR5X的等效频率从GDDR5时代6000MHz左右的水平，突飞猛进到10000MHz，增幅超过30%。而且在显存压缩算法上，Pascal更加彻底，综合压缩率提高后节省了约20%左右的带宽。所以综合起来，在同位宽的情况下，GDDR5X在Pascal上的带宽表现，是GDDR5在Maxwell上的约1.7倍。所以仅256bit位宽GP104，却拥有高达320GB/s的显存带宽，算上压缩优化等效性能上理论上比拥有384bit’位宽的GM200还强。不过仔细来分析，考虑到计算规模接近，且计算效率的提升，整体计算能力上GP104应该是超过GM200的。所以我们依旧怀疑GTX 1080的显存有可能存在性能瓶颈，不过NVIDIA既然如此安排，肯定是考虑包括能耗比、性价比之后的综合决定，我们无法单独就此确定它的好坏，只能在之后的实际测试环节中去实际体会和进一步分析。

不可小觑的渲染辅助技术集群

几乎每一代新GPU架构发布时，NVIDIA都会伴随新架构更新诸多软件工具，或是底层开发相关的辅助工具，或者高级的算法更新，总之都是为了更好地为图形计算服务。这次也不例外，总体来说依旧是创新加更新的方式，既有全新的内容，又有对过往技术的优化升级。

硬件多重投影引擎SIMULTANEOUS MULTI-PROJECTION

VRWorks无疑是伴随这带Pascal架构而来的重点软件技术创新，其中有关图形渲染的重点则是SIMULTANEOUS MULTI-PROJECTION(简称SMP，硬件多重投影)。SMP可以让基于Pascal架构的GPU渲染基于16个不同角度的画面，并根据需求分别呈现。为了高效率的实现多角度画面同步投射，NVIDIA不仅更新了算法，还在Pascal架构GPU中集成了SMP硬件引擎模块，每组SMs一个，在GP104内就拥有20个之多。SMP究竟有什么用，需要NVIDIA在软、硬件上如此重视？这其实就是之前NVIDIA宣称GTX 1080能强到GTX 980Ti两倍性能的关键。而这还得从渲染应用说起。

在VR兴起之后，我们的图形渲染势必要从单一显示器画面像双眼画面过度。这其中涉及到画面切割、画面畸变、画面多角度渲染的问题。NVIDIA优化了有关镜头畸变的算法，能够减少40%左右的无用(不会显示在头盔视野里)的图形渲染。更重要的是，NVIDIA借助SMP，实现了Single Pass Stereo这一重要功能。SPS能够让原本需要分别渲染的左右眼画面，简化到只需要渲染一个眼睛所见的画面，另一画面由SMP硬件单元通过特定的算法合成。此时，SMP具有硬件、软件协作的高效率开始发挥作用，多角度引擎，让另一角度画面的合成几乎不再额外消耗显卡计算资源。如此一来，在VR头显上输出同样的画面，GP104的工作量能瞬间减半，理论上帧率自然可以大幅度提升，最高近2倍。当然，SMP的优势不仅如此，在对畸变的处理上也有裨益，能够降低多连屏或曲面屏用户面临的画面拉伸问题，可以根据需要，更真实地模拟人眼环视效果。

ACE终成正果？

动态负载平衡(DYNAMIC LOAD BALANCING)

AMD和NVIDIA对于异步运算（Asynchronous Compute）的支持程度，曾在上一代架构上经引爆一场口水战。大意是说只有AMD架构支持硬件ACE，而NVIDIA的Maxwell架构对ACE不支持，至少支持是不完善的。尽管后来NVIDIA有辟谣称Maxwell是支持异步运算的，问题出在驱动上。但不论什么原因，在《奇点灰烬》、《杀手6》等支持异步运算的游戏中，基于Maxwell架构的显卡确实在DX12的性能表现上落后于AMD的GCN架构的。在Pascal架构上，NVIDIA宣称弥补了这个问题，并强调Pascal架构原生支持异步运算，包括基于GPU的物理加速、音频处理、渲染帧的后期处理以及VR中的异步时间扭曲算法中都可以用到异步运算。但NVIDIA并没有给出什么实际的测试数据来支撑，反倒是在动态负载平衡(DYNAMIC LOAD BALANCING)的原理上废了一番口舌。不得不说，新的动态平衡机制赋予了Pascal架构更灵活的处理能力，无论是图形渲染的，还是计算相关的任务都能够互不影响。任务拆分并行计算本就是异步运算的精髓，从这一点来看新的Pascal架构无疑比Maxwell强了不少。至于在DX12环境中，是否能体现出比GCN更强的效率提升，则有待之后的实际性能对比测试中来为大家揭晓。

GPU Boost 3.0

在以往的Boost 2.0上，NVIDIA提出了根据功率动态调整频率的设计，在当时看来这是已经是非常先进的方式，能尽可能的维持GPU的高频率。但由于这个机制太过线性，导致GPU在各个电压点上，没有办法最大程度挖掘潜力。而Boost3.0就是针对此项进行了改进，它可以设置各个电压点的频率偏移，使频率偏移与单个电压点一一对应。这样就可以使得GPU的频率达在每个设定电压点下获得最大限度的挖掘，压榨出GPU的所有剩余性能。
/图ZT12-WK-13.TIF：GPU Boost 3.0相比上代技术，更看重每个电压点的优化，而不是简单的线性提升设定。

Fast Sync

同步技术近几年来一直是两大显示器厂商关注的重点，之前NVIDIA和AMD都在着手解决垂直同步在帧率上不够流畅不够灵活的问题，这个问题随着G-Sync等技术出现后可谓迎刃而解。但在关乎流畅度体验的另一个维度——延迟上，两家厂商之前的产品和技术都没有有效优化。伴随Pascal架构，NVIDIA推出了针对延迟优惠的Fast Sync，能将画面延迟优化到接近不开启同步技术的水平，整体延迟在20～40ms间，比之前开启同步后，延迟基本在85～105ms之间的表现出色太多。更重要的是，这个技术可以结合G-Sync技术搭配使用，享受延迟和帧率上的双重流畅。

像素级抢占

任务抢占在NVIDIA以往的架构中早已诞生，意在随时终止非紧急任务，让计算单元第一时间完成紧急、重要任务的工作，然后又可以正确的返回进行到一半的非紧急任务中，确保整体任务的正确、快速完成。不过在Pascal架构之前，所有GPU能做到的任务抢占精度都只能到任务级别，在任务内就没法进一步划分了。而Pascal架构则进一步优化了抢占机制，让GPU能处理像素级别的抢占需求。这个看似微小的改变，却赋予了Pascal架构在VR应用中更好的应对转头动作的能力。它能够第一时间集中尽可能多的计算资源，优先处理转头后需要渲染输出的改变像素，确保画面切换延迟足够低，保证VR体验不带给用户眩晕、呕吐的负面影响。



喜欢

 分享到微信



分享到微博

0 条评论（按时间正序 · 按时间倒序 · 按排序）

 发表新评论

关于我们

联系我们

作者加入

帮助中心

 

扫描二维码关注泛钛氪
或者搜索微信号“VanTK”



一脸经典范儿

一脸经典范儿

NVIDIA GTX 1080显卡深度品评

GTX 1080何许人物？

最缺新技术的甜点？

新架构和新工艺给你足够信心

GDDR5X并不是绣花枕头

不可小觑的渲染辅助技术集群

硬件多重投影引擎SIMULTANEOUS MULTI-PROJECTION

ACE终成正果？

动态负载平衡(DYNAMIC LOAD BALANCING)

GPU Boost 3.0

Fast Sync

像素级抢占

Leave a Comment