MCPLive > 杂志文章 > 环保双芯旗舰 GTX690让双卡汗颜

环保双芯旗舰 GTX690让双卡汗颜

2012-06-28《微型计算机》评测室《微型计算机》2012年6月上

在我们的印象中,NVIDIA总是喜欢后发制人。不论是单核心旗舰还是顶级双芯产品NVIDIA都会晚对手半拍发布,但往往又能成功击溃对手刚建立起来的性能优势,重夺显卡性能王座。而这一次,GeForce GTX 680的高能耗比特性,让NVIDIA的双芯方案研发进度显著加快,也让NVIDIA多年来第一次抢先对手发布了顶级双芯旗舰产品——GeForce GTX 690。那么这款“早产”的旗舰表现如何?会被对手后来追上么?

环保双芯旗舰 GTX690让双卡汗颜

在此前的GeForce GTX 680的评测中,本刊就当时所能掌握的资料,已对GK104以及其代表的“Kepler”架构做出了比较详细的解读。当前发布的GeForce GTX 690实际上就是两颗GK104核心集成在一张PCB板上的双芯产物。因此,在同为GK104核心的GTX 690上,我们就不再重复类似的内容,仅补充一些GTX 680发布后陆续挖掘的有关“Kepler”架构的新消息。

你有所不知的“Kepler”家谱

事实上,GTX 680以及今天要介绍的GTX 690都是采用“Small Kepler”架构的产物。之所以加上引号并称其为Small Kepler,是因为还有一颗更为硕大的“Big Kepler”产品尚未发布——也就是传说中的GK110。原本在NVIDIA的规划中,GK104是被定名为“GTX 660 ”的产物。NVIDIA的原计划中,受限于开发进度,将由双芯的“GTX 660”暂时替代GK110对战AMD的旗舰Radeon HD 7970。当HD 7970正式发布后,NVIDIA意外地发现它的预想敌远没有想象中的出色。这也让GK104的定位一路从“GTX 660”、“GTX 670”跃升到终的GTX 680。这似乎也预示着GTX 690一出生就是个没有敌手一代卡皇。至于那颗更为硕大的“Big Kepler”,由于NVIDIA加强了保密等原因,截至发稿前我们很难挖掘有关它的详细信息。不过这显然就是我们在GTX 680测试中预测过的高效大核心,一颗难逢敌手的半代升级产品(这里的升级并非指工艺和架构上的更新,而是根据研发和发布进度导致的定位差异。事实上GK110很可能命名为GeForce GTX 780)。

GK110核心图,据悉它的核心面积达到550mm2,集成约70亿晶体管。
GK110核心图,据悉它的核心面积达到550mm2,集成约70亿晶体管。

“Small Kepler”还隐瞒了些什么?

“Small Kepler”的代表作就是首发的GK104,在这颗核心上,NVIDIA彻底改变了传统的设计架构,采用了全新的流处理器设计方案,使用了更为轻量级的单个CUDA Core,架构方面也转向SIMT单指令多线程结构。也就是当时被我们称之为具有SIMD特色的MIMD架构。现在伴随GTX 690的发布,它被正式定名为SIMT。

GTX 690 GPU-Z截图
GTX 690 GPU-Z截图

传统的CUDA Core中包含了一个整数单元和一个浮点单元,并且还有一些分支和指令处理单元,这部分单元耗费了不少的晶体管,使得NVIDIA的每一个CUDA Core的体积较大。与此同时,AMD产品的流处理器数量总是远远超过NVIDIA同档次的产品。

是因为AMD将传统产品中,将绑定的、基本无法拆解执行的4D或者5D流处理器中的每一个单元算作一个流处理器,以满足市场宣传的需要。不过,在新的AMD的GCN中,AMD采用了一种名为“基于SIMD阵列的MIMD架构”,这种架构将GPU的底层重新设计并彻底SIMD化。每组GCN单元中就有6 4个对等的1D标量单元,AMD将其称为64个流处理器。从AMD的设计来看,GCN每次处理的小单位是64个“命令”,如果不足64,指令调度器会等待下一波数据来临。(这里先埋个伏笔,请玩家们记住64个“命令”是小粒度。)

其实,NVIDIA传统CUDA Core的发展也不顺利,比如能耗比、每平方毫米性能等都显著落后于竞争对手。因此在“Kepler”上,NVIDIA需要彻底改变这种情况。在2 010年开始设计产品时,NVIDIA就确定了对能耗比的极端要求。经过漫长的设计、试产和测试循环,我们终看到了这颗令人惊奇的“Small”产品。惊奇归惊奇,目前的问题在于NVIDIA没有明确的资料说明对这颗“Small Kepler”的流处理器做出了何种改动,甚至连公布的体系架构图和晶圆照片相也无法一一对应。仅根据公布的数据结合上我们挖掘的资料看,“Small Kepler”已彻底放弃传统复杂且较大的CUDA Core设计,将传统每一个CUDA Core中存在的指令处理相关部分大大简化。计算部分也彻底放弃了1∶1配置的浮点单元和整数单元,转而采用类似SIMD的1D标量单元,再利用大量简单的1D单元来提高效率。没错,这就是我们之前认为NVIDIA很可能和AMD设计思路殊途同归的原因。

不过,即使是同一思路,实现的效果也会千差万别。虽然从架构底层来说,AMD和NVIDIA可能都采用了类SIMD的设计,但由于NVIDIA在体系结构、缓存设计、资源配比等方面有丰富的经验累积,所以我们看到了1536个1D单元战胜2048个1D单元的结果。其实完成这个以少胜多“壮举”的关键,就在我们之前强调过的“小粒度”上。GCN的小粒度是64,这是个很关键的设计点。实际图形处理运算中,一次计算的数据粒度远没有64这么大,因此NVIDIA并没有为Kepler设计类似 GCN那样小粒度都长达64个命令的调度器。在G C N陷入频繁等待数据的窘境时,“Kepler”已经在高效地处理数据了。因此终NVIDIA为用户带来了一颗能耗比方面极其优秀的产品,以示区分NVIDIA也骄傲地将其称为SIMT架构。

“Small”之,GeForce GTX 690

架构补充介绍之后,让我们来看看今天的主角——GTX 690。GTX 690使用了两颗完整规格的GK104核心,相比GTX 680 SLI的组合,GTX 690只在频率上稍有降低。其它规格比如流处理器数量、ROP数量、纹理单元数量等等都没有任何缩减。功耗方面,官方提供的GTX 690高功耗只有300W,相比上代GTX 590的365W显著降低,相比GTX 680 SLI的390W更是降幅明显。

GeForce GTX 690测试目的:

根据以往的经验,NVIDIA双芯显卡的效率相对较高,同频下甚至能超过两张同核心单卡SLI的组合。不过GTX 690的频率相对GTX 680降低了90MHz。因此GTX 690与GTX 680 SLI的对比充满了悬念,这也正是本次测试需要弄清的重点。此外,面对即将到来的Radeon HD 7990,我们也试着用HD 7970的CrossFireX组合进行了模拟,看看这颗早生的双芯显卡能否应付后来者的竞争。

当然,除了产品层面的测试,我们还将深入核心特性层面。在GTX 680测试中尚未有条件体验的“Kepler”架构新特性,诸如3屏3D Vision Surround、NVENC和自适应垂直同步等功能特性我们都会一一体验和测试。

一则考察3屏3D Vision Surround的组建是否简单,使用是否方便。

二来检验NVENC硬件单元是否真如NVIDIA所说,在编码H.264视频时,能比CUDA还要快上3倍,比起英特尔的Quick Sync来说,它的速度究竟如何,转码效果又怎样?

三是尝试自适应垂直同步是否如宣传的那般智能和易用,相比传统的垂直同步,它能带来多少体验上的改善。

不说GTX 690是做工用料好的显卡,至少它是我们拆解过的设计为复杂的单PCB公版N卡。拆解它,你需要大小不同的内六角、六角星、梅花等5种螺丝刀。然后前前后后拆下10种、43颗螺丝才能见到它的真身。

从PCB设计来看,GTX 690的PCB设计和布局基本沿袭了GTX 590的风格。连背板上的两排贴片电容元件位置都大致相当。不过由于单核心显存位宽的降低,所以GTX 690没有再使用双面布置显存的设计,只在PCB正面布置显存即可满足每核心256bit、2GB显存的需求。也因此,GTX 690背面取消了为显存散热设计的一体化散热片,当然也就没有了背板。

从PCB设计来看,GTX 690的PCB设计和布局基本沿袭了GTX 590的风格。连背板上的两排贴片电容元件位置都大致相当。不过由于单核心显存位宽的降低,所以GTX 690没有再使用双面布置显存的设计,只在PCB正面布置显存即可满足每核心256bit、2GB显存的需求。也因此,GTX 690背面取消了为显存散热设计的一体化散热片,当然也就没有了背板。
从PCB设计来看,GTX 690的PCB设计和布局基本沿袭了GTX 590的风格。连背板上的两排贴片电容元件位置都大致相当。不过由于单核心显存位宽的降低,所以GTX 690没有再使用双面布置显存的设计,只在PCB正面布置显存即可满足每核心256bit、2GB显存的需求。也因此,GTX 690背面取消了为显存散热设计的一体化散热片,当然也就没有了背板。

随着核心面积的大幅度降低,GK104对供电精度的需求较GF110有所下降。所以你能看到GTX 690的核心供电并没有采用GTX 590的CHiL数字芯片方案,而是采用了安森美的NCP4206模拟PWM芯片。供电规模上GTX 690则和GTX 590一样都是每颗核心设计4相供电,显存供电是独立的1相设计。也就是说每个GK104核心和与之相配的显存搭配了4+1相供电,总计10相供电。至于具体用料,GTX 690赶GTX 590有过之而无不及,两者都采用了贴片电感加Dr MOS的组合,不同的是,你在GTX 690看不到一个烟囱电容,清一色全是贴片钽电容。

GTX 690为每个GK104模块设计了5相供电系统。其中核心4相,显存1相。
GTX 690为每个GK104模块设计了5相供电系统。其中核心4相,显存1相。

主体结构为镀铬镁合金、附带了两个亚克力透明“天窗”的独特上盖,金属味十足。当然,这样的设计主要是为了好看,如果你非要说它对散热有什么作用的话,可能透明的压克力板更容易让用户观察鳍片,看是否被灰尘和毛絮堵塞,从而及时清理散热器吧。
主体结构为镀铬镁合金、附带了两个亚克力透明“天窗”的独特上盖,金属味十足。当然,这样的设计主要是为了好看,如果你非要说它对散热有什么作用的话,可能透明的压克力板更容易让用户观察鳍片,看是否被灰尘和毛絮堵塞,从而及时清理散热器吧。

每个核心的散热鳍片在和GPU的接触面都采用了真空腔均热板设计。然后由中置的风扇将两个核心的热量分别吹向左边和右边。
每个核心的散热鳍片在和GPU的接触面都采用了真空腔均热板设计。然后由中置的风扇将两个核心的热量分别吹向左边和右边。

GTX 690散热系统基本沿用了GTX 590的结构——一体式钢架、大风流的传统大扇叶风扇、两块独立的散热鳍片和风罩。
GTX 690散热系统基本沿用了GTX 590的结构——一体式钢架、大风流的传统大扇叶风扇、两块独立的散热鳍片和风罩。

如果GTX 690的散热系统还是加一个黑色的塑料壳子,那显然和GTX 590就没什么差别了。但NVIDIA似乎认为顶级产品应该更为“亮骚”一些,这才有了金属前盖、半透明亚克力面板和LED灯的设计。

GTX690(下)、GTX590(上)接口设计对比。

GTX690(下)、GTX590(上)接口设计对比。
GTX690(下)、GTX590(上)接口设计对比。

拆解小结:相比GTX 680,GTX 690用料上了一个档次,更“像”高端显卡。相比GTX 590,GTX 690虽采用了模拟供电,但在一些料件的使用上,GTX 690还更好。散热设计上GTX 690相对GTX 590来说改动不大,这可能是水冷玩家的福音。拥有GTX 590冷头的玩家有可能能将它直接用到GTX 690上,为显卡升级省掉了一笔不菲的冷头开支。在此,顺便赞下GTX 690的接口设计。在接口类型和数量上它和GTX 590一样(mini DisplayPort+3×DVI)。不同的是,GTX 690没有再将其中一个DVI设计在第二个PCI卡槽位的中央。对于水冷玩家来说这也许没有什么影响,但对风冷玩家来说,沿用GTX 590的设计无疑会继续严重阻碍风道,导致靠近接口的这颗GPU核心温度总是明显高于靠近尾部的核心。

GTX 680不够看,双卡也汗颜!

vs GTX 680 SLI比双卡效率更高

从下方的成绩表中你能很明显地看出,在和NVIDIA自己的产品比较中,不论是单芯的GTX 680还是上代双芯旗舰GTX 590都已经不是GTX 690对手。事实上,虽然是双芯产品,但GTX 590的整体水平仅和GTX 680相当。而GTX 690的并联效率比较出色,在核心频率还低90M Hz的情况下,依然能在游戏中获得约145%的GTX 680性能。在《战地3》和《尘埃3》(DirectX 11)中,GTX 690的表现还是略逊于GTX 680 SLI的组合。但GTX 680 SLI在所有游戏测试中的平均成绩表现只约为GTX 680的136%,相比起来GTX 690的效率还更高。

GTX 690测试成绩一览表
GTX 690测试成绩一览表

vs HD 7970 CrossFireX 13胜5负,不惧HD 7990!

作为先于对手发布的双芯旗舰产品,GTX 690注定会重夺显卡性能王座。但这不是它的高使命,它的目标是要战胜襁褓中的Radeon HD 7990(预想中的HD 7970双芯型号)。按照AMD的习惯,双芯旗舰在频率上并不会比单芯的HD 7970降低多少,而且同PCB板上的芯片并联在效率上更好。所以在我们的预想中,HD 7990的实际性能可能和HD 7970×2 CoressFireX大致相当。那么GTX 690在面对HD 7970×2 CoressFireX时的表现又是如何呢?从测试成绩表中你能看到,在1080p分辨率下,包括3DMrak 11理论测试,不同画质设定的DirectX 9、DirectX 10和DirectX 11游戏在内的19项对比中,GTX 69 0获得了13胜5负1平的战绩。游戏实测中,它的成绩平均也领先HD 7970×2 CoressFireX 10%。依此看来HD 7990若想超越GTX 690,就得在HD 7970的频率基础上提高至少10%。HD 7970的核心、显存频率为925MHz、5500MHz,那么HD 7990需要达到1017.5MHz、6050MHz的高度。虽说不无可能,但这样的设定无疑会让HD 7990成为一个功耗大户和发热大户。事实上,从成绩表中你能看到925MHz、5500MHz 状态下的HD 7970×2 CoressFireX的拷机功耗就已经达高达590W,高出GTX 690 80W左右。每个核心的平均温度也要比GTX 690高5℃左右。若继续拔高频率,那么HD 7990面临的功耗和发热问题无疑会相当严峻。由此看,HD 7990很难对GTX 690造成实质性的压力。

GTX 690 一个人的舞台 单卡3屏3DVision(3D Vision Surround)

在GTX 680测试的时候,我们就知道NVIDIA终于支持单卡3屏(多4屏)显示了。在GTX 680的游戏测试中,3屏Surround带来的超宽游戏视野体验让我们赞叹。但与此同时,它在各款游戏中仅略超过30帧的平均成绩,也让我们只能将单卡流畅支持3屏3D Vision Surrou nd游戏的梦想寄托在GTX 690上。测试结果表明,在5760×1080这样的超高分辨率下,GTX 690也并不轻松。若此时再打开3D Vison立体特效,即使是GTX 690也只能在《Crysis2》、《尘埃3》和《战地3》中基本流畅,而《失落的星球2》则将当前的卡皇也拉入了不能流畅运行的黑名单。

GTX 690 3屏3D Vision Surround测试成绩一览表
3屏Surround,5760×1080分辨率 GTX 680 GTX 690 GTX 690开启3D Vision
平均帧 低帧 平均帧 低帧 平均帧 低帧 
《Crysis2》Ultra 32.1 23.1 40.2 36 34.8 30
《失落的星球2》VeryHigh,noAA 43.5 31 78.1 33 23.3 19
《失落的星球2》VeryHigh,4×MSAA 40.2 30 70.7 29 21.8 16
《尘埃3》Ultra,noAA 68.8 53.3 95.6 78.6 53.2 43.1
《尘埃3》Ultra,4×MSAA 57.8 45 88.4 73.5 49.9 40.9
《战地3》Ultra,noAA 49.2 32.9 70.1 55 59.2 50
《战地3》Ultra,4×MSAA 36.5 26 61.8 31 37.5 27
NVENC画质超越Quick Sync的硬编码技术

早在,GTX 200和GTX 400系列的时代,NVIDIA 就为我们带来了CUDA加速的编码技术,成为风靡一时的视频转码方案。但随后被英特尔Sandy Bridge处理器内置的Quick Sync硬件编码单元超越,失去了速度上的优势。现在NVIDIA在Kepler上卷土重来,为它添加了支持H.264编码转换的专用硬件处理单元NVENC。NVENC和Quick Sync究竟谁的速度更快、效果更好?我们用对这两项技术都支持得较好的Media Espresso软件,通过酷睿i7 3770K处理器软编码、CUDA、NVENC和Quick Sync分别将同一段1.3GB大小采用H.264编码格式的1080p视频,转码成手机和平板常用的800×480分辨的MP4视频文件。并截取各种转码方案获得的视频中的两帧(随机截取了30 91和3913帧),通过MSU Video Quality Measurement Tool软件和i7 3770 K软解码视频中的相同两帧进行Y通道画质SSIM数据模型的评定。SSIM评定结果越接近1,说明画质越好。(这里之所以用软件解码的画面作为基准,是因为当前环境下,还没有硬件编码的质量能够超越处理器软件编码。)

3屏Surround能带来的超宽阈视角,不仅能让玩家游戏时更有现场的包围感,还能让你发现更广的战场实时情况。
3屏Surround能带来的超宽阈视角,不仅能让玩家游戏时更有现场的包围感,还能让你发现更广的战场实时情况。

相比起来1080p的视野太狭窄了。
相比起来1080p的视野太狭窄了。

对比测试成绩表,你能发现其实在速度上NVENC还是输了,只是相比起CUDA加速技术,NVENC又快上了一倍。而且画面质量上,相比Quick Sync领先幅度更明显,3091帧和3913帧截图和软解码截图的SSIM吻合度都达到了0.996以上,平均评定值达到0.99748。另外,细心的读者应该已经看到,NVENC虽然比CUDA效率更高,但是编码机制其实无太大改变。转码后的视频码率和软转码相差无几。而Quick Sync转码视频的码率则低至平均只有2Mb/s,手持设备播放起来相对会更加轻松。

各方案转码测试成绩表

自适应垂直同步,鱼与熊掌可以兼得

对于垂直同步大家应该都不陌生,其作用就是让显卡输出帧缓冲区的速度与显示器的刷新率保持一致,以保证画面的完整性。对于大多数液晶显示器来说就是让显卡输出画面的速度控制在60帧/秒。当游戏帧数超过60帧时,如果不开启垂直同步功能,则可能出现画面撕裂的情况。然而,至今很多玩家都不知道的是,打开垂直同步后,如果显卡的渲染速度达不到60帧,那么系统会自动将帧率锁定到30帧。此时,过大的帧数差,会让你感觉到画面突然“卡了”一下。所以对于要求较高的游戏,我们之前一般不建议打开垂直同步。不过“Kepler”架构给了我们一个新选择——自适应垂直同步。

放大3913帧细节,你能看到对比起Quick Sync编码视频截图(上),NVENC编码视频截图(下)的主观质量也明显更高。人物皮肤细节更圆滑,衣领的条纹细节也更丰富。

放大3913帧细节,你能看到对比起Quick Sync编码视频截图(上),NVENC编码视频截图(下)的主观质量也明显更高。人物皮肤细节更圆滑,衣领的条纹细节也更丰富。
放大3913帧细节,你能看到对比起Quick Sync编码视频截图(上),NVENC编码视频截图(下)的主观质量也明显更高。人物皮肤细节更圆滑,衣领的条纹细节也更丰富。

接下来,我们体验了自适应垂直同步功能在《Crysis 2》中的表现。可以看到自适应垂直同步功能把高帧数控制到了60左右。而在小于60帧的部分,自适应垂直同步(Adaptive Vsync)曲线的趋势与关闭垂直同步(Vsync off)的也大致相似。反观传统垂直同步(Vsync on)曲线,其波动非常明显,甚至在场景的末段直接跌至30帧,而同一时段Adaptive Vsync和Vsync off的值都远高于30帧,这充分说明了帧数的下降并不是由于显卡性能不足造成的,而是垂直同步功能本身的缺陷所致。实际体验汇总,开启传统垂直同步时,画面有比较明显的抖动感,视觉体验相对糟糕。而开启自适应垂直同步后,画面既没有撕裂也没有明显抖动,视觉体验相对更完美。

NVIDIA叙述的自适应垂直同步效果示意图(上),和传统垂直同步效果示意图(下)。对比图片我们不难看出自适应垂直同步功能的原理:渲染速度大于60帧时开启垂直同步功能,反之则关闭。这样就能保证了画面不撕裂又不会出现卡顿。

NVIDIA叙述的自适应垂直同步效果示意图(上),和传统垂直同步效果示意图(下)。对比图片我们不难看出自适应垂直同步功能的原理:渲染速度大于60帧时开启垂直同步功能,反之则关闭。这样就能保证了画面不撕裂又不会出现卡顿。
NVIDIA叙述的自适应垂直同步效果示意图(上),和传统垂直同步效果示意图(下)。对比图片我们不难看出自适应垂直同步功能的原理:渲染速度大于60帧时开启垂直同步功能,反之则关闭。这样就能保证了画面不撕裂又不会出现卡顿。

开启自适应垂直同步很简单,在驱动面板3D设置的全局选项中,把垂直同步设置为自动就OK了。
开启自适应垂直同步很简单,在驱动面板3D设置的全局选项中,把垂直同步设置为自动就OK了。

自适应垂直同步测试,帧率曲线图。
自适应垂直同步测试,帧率曲线图。

总结:GTX 690恐是昙花一现,“Big Kepler”是自家杀手?

其实测试到此,GTX 690的优秀已毋庸置疑了。不论是功耗控制还是绝对性能,都足以让当前单芯旗舰显卡的并联系统汗颜。只是,在不少玩家的心中,大核心高性能才是NVIDIA的风格。再加上双芯产品并不能保证在所有游戏中都能稳定发挥出理想性能,时常会受到游戏优化的困扰导致表现可能还不及单芯产品。所以不论GTX 690如何优秀,也难以动摇一部分追求完美的玩家等待“Big Kepler”的决心。更何况根据当前的消息,GK110确实也有以一敌二的核心规格(预计有2688~2880个CUDA Core)。这让我们觉得GTX 690有可能是昙花一现,或许今年内它就将结束使命,让位于GK110以及GK110的双芯型号。当然,不论如何,在年底前,在GK110正式出世前,它都将是地球强显卡的代表。

分享到:

用户评论

共有评论(1)

  • 2012.06.30 17:17
    1楼

    视野那图片真坑爹,主角站的位置和视角不一样,有可比性么?

    (0) (0) 回复

用户名:

密码: