MCPLive > 杂志文章 > AMD Kaveri全球独家首测

AMD Kaveri全球独家首测

2014-02-08《微型计算机》测评室《微型计算机》2014年1月上

这,是一份来之不易的情报,曾经抢先公布Haswell处理器性能的“007”再次立功,通过各种努力获得了这一份珍贵的情报;这,是一份价值极高的情报,AMD新绝密武器的技术解析、性能测试它都一一包含;这,就是在2014年颇受DIY玩家期待、并广为关注的AMD Kaveri APU全球独家首发测试。

AMD Kaveri全球独家首测

我们知道,处理器是一种技术含量极高的产品,要想获得性能上的提升、能耗比的改善,需要厂商投入极大的研发资金与时间成本,因此处理器这类产品一直保持着循序渐进的发展步骤,其中一个典型的例子就是Tick-Tock处理器更新模式——即第一年“Tick嘀”年中,推出工艺提升、晶体管变小、架构微调的处理器产品。而在第二年“Tock嗒”年里,厂商将继续延用上一年工艺技术,并推出对处理器微架构进行大幅更新的产品。当然,不是每一种处理器都会遵循这种发展模式,一些产品会采用更加积极的发展策略,其中,AMD的APU就是一个典型的代表。

在2013年刚刚推出工艺优化,架构微调的Richland至尊系列APU后,2014年初,AMD就为玩家带来了新的Kaveri系列APU。与上一代产品相比,Kaveri APU不仅对处理器核心进行了大幅更新,引入异构架构设计,其整合图形核心、生产工艺也获得了全面的升级,可以说它几乎是一款全新设计的产品。为此Kaveri APU也成为AMD为重视,IT业界为关注,DIY玩家为期待的一款产品,那么它到底能给我们带来怎样的惊喜?

全面进化 Kaveri APU技术架构简介

压路机、GCN领衔CPU与GPU架构分析

首先,Kaveri APU在为重要的CPU部分和GPU部分都做出了重大改进。CPU方面引入了全新的“压路机”架构,GPU方面则采用了新一代的GCN架构。由于本刊早已在2013年对其CPU和GPU架构做出了详细的分析,在这里只做总结性的介绍。

压路机架构进步明显

在Kaveri APU上,AMD启用了全新的“Steamroller B”架构,也就是“B类压路机架构”。它相比同档次的推土机和打桩机架构,综合性能提升大约15%~20%,其性能改善主要来自于以下方面(有关Kaveri APU的CPU架构改进方面的具体内容,本刊在2013年9月上的《从“融合”到“深度融合”—AMD全新Kaveri APU架构详解》一文中有更为详细的解读,本文仅摘取其结论部分):

CPU前端部分:指令缓存追踪失败几率降低30%、分支预测失败几率降低20%,对每个线程增加了25%的数据调度宽度,为每个整数单元配备了独立的解码单元。

CPU执行部分:增加了5%~10%的调度效能,主要提升L1一级数据缓存的存储性能。

其他性能改进:引入了动态调整大小的L2缓存,增加了微解码操作队列,提升了L1和L2缓存的接口性能。

从CPU架构角度来看,压路机相对之前的产品变化比较大,但并非革命性。AMD依旧还是在推土机架构这个已经搭好的架子上做出了一些调整,并没有太过深入地进行改变。毕竟对使用APU的主流用户来说,追求顶级CPU性能的意义不大,况且AMD的重点是异构计算,而不是单独的CPU性能。

压路机架构主要在CPU前端部分、CPU执行部分与L2缓存设计上做出了较大改进。
压路机架构主要在CPU前端部分、CPU执行部分与L2缓存设计上做出了较大改进。

压路机架构主要在CPU前端部分、CPU执行部分与L2缓存设计上做出了较大改进。
压路机架构主要在CPU前端部分、CPU执行部分与L2缓存设计上做出了较大改进。

GCN终于降临

Kaveri APU的核心改进在于采用了由R200独立显卡改进而来的Radeon R7整合显示核心,其GPU部分从之前的VLIW升级到了GCN架构。AMD宣称这次升级带来了大约30%的GPU性能增加(相比Richland APU)。规格上,新的Kaveri APU完美支持DirectX 11.2、Open GL 4.3等一些新技术,也支持R200系列显卡的诸多特色技术,比如Mantle、TureAudio等。无论从规格还是性能来说,Kaveri APU都堪称目前强大的APU。

从规格上来看,高规格的Kaveri APU的内部集成了8个CU单元,每个CU单元有64个流处理单元,这样Kaveri APU就拥有512个流处理单元——这和Radeon HD 7750独立显卡的流处理器数量是相同的。当然受限于显存带宽,Kaveri APU中集成的GPU性能应该无法与Radeon HD 7750匹敌,但轻松摘得目前强整合图形核心的桂冠则不成问题。除了流处理单元外,Radeon R7整合显示核心的其他规格和Radeon HD 7750也是基本相当,比如至少拥有2个ACE异步引擎、1个几何处理单元、支持UVD、VCE等功能。

由于采用了GCN架构,Kaveri APU的图形性能又有了长足的发展。根据A MD在部分演示中透露出的数据,Kaveri APU的顶级型号A10-7850K可以在1080p分辨率下以中等画质比较流畅地运行《战地4》,其运行帧速大约在每秒28~40帧之间,算是比较流畅。与此相对应的是英特尔的Core i7 4770K,同等设置下运行帧速大约在每秒12~14帧,基本上无法流畅运行。

此外,如果想升级独立显卡,那么Kaveri APU也能更好地完成任务。鉴于新一代显卡产品都已升级为PCI-E3.0接口,因此Kaveri APU也将支持PCI-E3.0总线技术,拥有更大的传输带宽,从而更好地发挥出独立显卡的性能。

在采用hUMA架构设计的Kaveri APU里,CPU与GPU不仅可以高效地访问、分享、传输数据,保持数据一致性,还可按任务特性灵活、并行地将工作分解给CPU与GPU,使它们同时以大性能完成任务。
在采用hUMA架构设计的Kaveri APU里,CPU与GPU不仅可以高效地访问、分享、传输数据,保持数据一致性,还可按任务特性灵活、并行地将工作分解给CPU与GPU,使它们同时以大性能完成任务。

从32nm到28nm

相比以往APU产品采用的SOI 32nm工艺(SOI工艺晶体管密度表现是所有类似工艺中为出色的),Kaveri采用的28nm台积电Bulk工艺会带来线宽、晶体管体积的缩小,但不会有巨大的变化,更不会像32nm进化至22nm那样,芯片集成密度获得大幅度提高。因此,在Kaveri APU上,AMD仍需谨慎地使用晶体管,避免芯片面积暴涨和功耗暴增。好在AMD在这一点上做得很不错,KaveriAPU的芯片封装面积在240mm2左右,和上代Richland APU的面积是基本相当的,大规模整合显示核心的采用并未对它的“体形”造成任何影响。

同时,在功耗上台积电的28nm工艺也带来了积极的一面。由于该工艺更为成熟、对芯片漏电的控制都比较到位因此Kaveri APU的功耗表现相当不错。其A10、A8处理器的设计TDP分别只有95W与65W,而Richland对应产品的TDP则在100W。此外,在Kaveri APU上,还首次在A10系列中出现了TDP仅为65W的低功耗产品——A10-7800。而它仍拥有4核心、512个流处理单元的高配置。除了不支持开放倍频自由超频外,它其余的规格都相当强悍。综合来看,28nm工艺的采用不仅让Kaveri APU的功耗比前代产品表现更为令人满意,也提升了APU产品的性能功耗比。

统一内存寻址的魔力

如果说AMD采用GCN架构、压路机架构是AMD在硬件架构上的进步的话,那么Kaveri APU对统一内存寻址(简称为hUMA)的支持,堪称对整个业界尤其是异构计算发展的革命性推动。Kaveri APU是目前全球首款能够支持CPU和GPU统一寻址的处理器,也是AMD未来发展异构系统架构(简称为HSA)的核心产品。

有关统一内存寻址和HSA技术的内容,本刊在2013年7月上的《处理器异构系统架构——HSA深度剖析》一文中已经有非常详细的解读。简单来说,CPU和GPU各有所长,将它们融合在一起进行智能调度并发挥各自的优势,一直都是计算机专家们的梦想。不过GPU和CPU在诸多方面存在较大差异,其核心问题就是数据存储的差异。传统的CPU+GPU分离式架构通过PCI-E总线调配CPU和GPU中的数据,并且CPU和GPU各自又拥有本地存储设备,这就造成了两者之间数据的共享和传输存在瓶颈,给编程人员和程序编译带来了巨大的困难。

从外形来看,A10-7800 APU(左)在正面与A10-6800K(右)相比,几乎没有任何不同,两者的主要区别在于其背面两个缺口布局有所不同,Kaveri APU总共多出两根针脚,因此它只能用在FM2+接口的主板上。

从外形来看,A10-7800 APU(左)在正面与A10-6800K(右)相比,几乎没有任何不同,两者的主要区别在于其背面两个缺口布局有所不同,Kaveri APU总共多出两根针脚,因此它只能用在FM2+接口的主板上。
从外形来看,A10-7800 APU(左)在正面与A10-6800K(右)相比,几乎没有任何不同,两者的主要区别在于其背面两个缺口布局有所不同,Kaveri APU总共多出两根针脚,因此它只能用在FM2+接口的主板上。

AMD在Kaveri APU上采用的hUMA设计,则使得CPU和GPU能够使用统一的内存空间。数据存放于CPU和GPU公共的空间中,可以被CPU和GPU同时调用和读取,完全没有任何带宽和数据存储上的阻隔,效率相比传统的CPU+GPU分离式设计有了翻天覆地般的提升,同时为异构计算本身的发展打开了大门。而为了更好地应用Kaveri APU上的hUMA功能,AMD早在去年就开始组建HSA联盟,并从软件开发和硬件底层两方面下手支持HSA异构计算的发展。之前AMD曾经在Richland APU上演示过使用异构计算进行人脸识别的加速,在新的Kaveri APU上,AMD又演示了使用HSA进行JPEG图像解码的加速。在HSA的辅助下,Kaveri APU相比传统的CPU加速而言,在异构架构上进行JPEG解码速度提升高可达87.3%!

目前Kaveri APU已经为AMD打好了异构计算硬件上的基础,AMD还需要做的就是尽快完善软件部分,说服大多数程序员为异构计算开发应用。

Kaveri APU具体上市产品一览

与以往APU产品类似,AMD在Kaveri APU上也根据不同定位、不同消费人群推出了从A4到A10等多达6款新品。其中3款是型号带有K后缀的可超倍频产品,另外3款则是无法进行倍频超频、为普通消费者设计的APU。对比上代Richland APU产品,本代Kaveri APU的频率略有下降。比如Richland APU的顶级产品A10-6800K,默认CPU频率高达4.1GHz,Boost频率高达4.4GHz,而Kaveri APU的顶级产品A10-7850K的频率只有3.7GHz,Boost才到4.0GHz,大概低了10%左右。出现这种情况只有一种可能,AMD对压路机B架构充满了信心,在降频的情况下也可与Richland做到相当甚至超出。

此外,Kaveri APU对不同档次的产品也划分了不同的集成显卡类型。比如顶级的A10系列普遍有8个CU单元,512个流处理单元(A10-7770K除外);A8系列则是6个CU单元,384个流处理单元,更低的A6和A4则分别有4个和3个CU单元,流处理单元数量缩减至256个、192个。

分享到:

用户评论

共有评论(1)

用户名:

密码: