MCPLive > 杂志文章 > AMD新一代台式机APU完全测试

AMD新一代台式机APU完全测试

2012-11-06《微型计算机》测评室《微型计算机》2012年10月下

众所周知,AMD APU的问世将处理器的发展带入到了一个新的时代。CPU与GPU的完美融合不仅提供了强大的整合3D性能、适中的CPU性能,也为GPU通用运算、异构运算等新理念、新技术的高速发展创造了条件。现在,已有不少消费级软件对APU进行了特别优化。不过这并不意味着结束,就像人们常说的那句话——“没有好,只有更好。”本月初,AMD发布了新一代台式机APU——Trinity。相比之前的产品,它的CPU、 GPU核心、内存控制器,以及功能都得到了全方位进化,那么它的性能表现,它为用户提供的使用体验是否也会得到“同步进化”呢?

AMD新一代台式机APU完全测试

 在2011年6月20日AMD Llano APU发布后,APU已俨然成为AMD在CPU市场上的新主力。APU依靠不错的CPU性能和优秀的集成GPU性能,打入了英特尔(缺少强大的集成显示核心)和NVIDIA(缺少X86处理器产品)等竞争对手完全无法控制的市场空间。在为AMD赚取眼球的同时也获得不少消费者的认可,甚至AMD一直以来都没有起色的移动平台也借助APU的东风,得到了越来越多的关注。

回头来看,Llano APU其实并不算完美,比如CPU性能还不能令人满意、GPU架构也落后于当时低端桌面独立显卡。因此AMD需要在APU市场上进一步发展、深耕才能获得更多支持并拓宽市场需求。于是,我们看到了AMD在今年5月,也就是第一代面向主流市场的Llano APU发布后不到一年,新一代代号为Trinity的APU就已经在移动市场正式开卖。而在5个月后的10月2日,Trinity的台式机版本即新一代台式机APU正式入驻桌面领域,一起到来的还有与其配套的A85主板。相比移动版产品,台式机APU拥有更高的工作频率、更加丰富的功能,也将为用户带来更多的惊喜。

新一代台式机APU架构解读

根据AMD计划,APU在未来将不再分CPU部分和GPU部分,而是彻底融合在一起。不过在目前技术不够成熟、软件和应用环境才初露苗头的情况下,无论上一代Llano还是新一代台式机APU,依旧还是选择了比较传统的CPU和GPU分离设计,然后通过诸如HT总线、内存控制器等部件将其连接,并在物理结构上制造在一起。

新一代台式机APU仍采用分离式设计,划分为内存控制器、处理器核心、集成GPU、高清媒体加速器等几大块。
新一代台式机APU仍采用分离式设计,划分为内存控制器、处理器核心、集成GPU、高清媒体加速器等几大块。

Llano APU采用的是改进的K10架构,GPU部分则继承了来自于Radeon HD 5000系列的VLIW 5D架构,但新一代台式机APU却做出了较大的改进。其CPU部分跳过了“推土机”架构,而直接采用了新的改进版本“推土机”,也就是第二代“打桩机”架构。相比之前的“推土机,“打桩机”在缓存延迟、分支预测方面做出一些改进,因此性能也会更为出色。同时,Trinity集成的HD 7000系列GPU采用了性能功耗比更为出色的、来自于Radeon HD 6900系列的VLIW 4D架构,3D性能又有了一定的进步。总的来看,Trinity的各个方面都得到了进化,使得这款处理器无论是在性能、功能还是功耗表现上都有了相当大的改善。

新一代台式机APU对内存控制器、显示输出控制器、CPU核心等五大部分进行了全面改进。
新一代台式机APU对内存控制器、显示输出控制器、CPU核心等五大部分进行了全面改进。

CPU部分:打桩机入驻

AMD在发布K7产品后,一直到K10以及“K10.5”,都只是在CPU外部连接、缓存设计以及工艺和频率上做出调整,对CPU本身架构的改动也只是小修小补。AMD真正的堪称CPU核心架构上的革新就只有去年发布的“推土机”架构了。

由于种种原因,推土机架构的实际产品表现不是非常理想。首先AMD合作伙伴所掌握的32nm SOI工艺不成熟,导致CPU发热高,功耗大,频率提升困难。其次,推土机内置的内存控制器延迟太高,虽然理论带宽看起来不错,但实际性能却远远没有理论带宽数据那样漂亮。除了内存部分,推土机架构中的CPU缓存延迟、长流水线带来的数据延迟等,都影响了CPU性能的提升——这些问题都需要使用高频率来解决,但工艺瓶颈却让AMD无法完全发挥CPU优势。此外,AMD的推土机架构使用了比较长的流水线,但并没有相应的优秀分支预测和缓存命中设计经验,在分支预测失败、缓存未命中时,流水线刷新等待带来了一定的性能损失。

而初问世的Llano APU没有采用推土机架构,原因在于产品研发时间错位等问题(APU几乎和推土机是并行开展研发的),但可以判断的是,即使它采用了推土机架构,其CPU性能和功耗表现也不会好到哪里去。那么新一代台式机APU的打桩机架构,又有什么优势呢?根据AMD的说明,打桩机架构基于推土机架构,但做出了一些改进。AMD在打桩机上的主要任务是提升IPC(每周期指令)性能,让CPU内部处理效率更高。总的来看,打桩机架构在以下几个方面做出了较大的改进:

1.分支预测系统

AMD宣称打桩机在分支预测系统做出了改进,因此打桩机在指令预测方面命中率更高。不过AMD没有给出内部细节。比较可信的说法是打桩机架构将之前的分支预测数据暂存在寄存器中,借此提高分支预测的能力。同时,AMD为打桩机架构增加了指令窗口的大小,这可以让CPU处理更大的指令组,对性能的提升也是有帮助的。打桩机架构的指令解码宽度为4路,在单核心和单模组模式下,可以多同时处理4条指令,在双模组时多可以处理8条。这样也能够提升指令处理效能,提高IPC。

2.对内部指令的改进

在指令执行效率方面,AMD还加入了一些指令集来辅助提高CPU的性能,比如FMA3指令(用于乘加计算)、F16C指令(16bit的浮点转换指令),再加上推土机架构所支持的FMA4,打桩机架构在指令支持上已经相当齐全。根据AMD的介绍,在指令方面特别是指令执行时间的改进上,打桩机架构在浮点和整数性能上表现更出色,指令的调用和返回速度也得到了提升。

3.缓存与内存系统的改进

打桩机架构对缓存读取延迟和存储预取功能等影响性能的重要部分,进行了改进,从而可以获得比较明显的性能提升。此外,AMD还降低了打桩机架构的读取/存储单元的延迟,包括改进存储—读取的排队序列,这样可以降低预测编译部分的工作请求,并降低Buffer,简称为TLB)通道增加到64个,是上代产品Llano的2倍。此外,新一代台式机APU的内存控制器性能也得到了增强,AMD官方标称是高可以支持到DDR3 1866内存,对于严重依赖内存性能的集成GPU来说,这显然是件好事。

4.CPU部分采用谐振时钟网络技术用于辅助提升频率

AMD对推土机以及打桩机的频率非常在意,并认为这是提升CPU性能的关键。在新的打桩机架构上,AMD加入了全新的谐振时钟网络(Resonant Clock Mesh)技术来帮助提升频率。这项技术能够使CPU频率提升10%,或者在同频率下降低10%的功耗,特别是时钟分派功耗降低24%。

在谐振时钟网络技术的帮助下,采用32nm工艺制造的Trinity核心拥有很强的超频能力。
在谐振时钟网络技术的帮助下,采用32nm工艺制造的Trinity核心拥有很强的超频能力。

谐振时钟网络技术来源于美国的Cyclos半导体公司,其原理就是在时钟网络的电容器和新型电感器上构建谐振电路,将谐振电路的电容器和电感器之间交换能源时的电气信号作为时钟来使用。谐振时钟网络会使用片内电感器创建一个“电摆”(electric pendulum)或者叫“振荡回路”(tank circuit),利用Cyclos的新型电感器(能够提供超过1GHz的时钟频率,电感电量为0.75~1.25nH,产品面积小于100平方微米)和时钟控制电路去重新利用时钟功耗,而不是在每个时钟周期内将它们白白浪费掉,从而降低功耗,提升频率。

5.全新的智能超频3.0技术

频率控制技术是目前有效的在热设计功耗范围内提升CPU性能的方法,毕竟CPU不是在所有时间内都处于满载状态,留下的一部分TDP空间可以用于提升工作状态中的频率,从而达到提升性能的目的。

在打桩机架构中,AMD加入了新的功耗、频率控制技术,被称为智能超频3.0。这个技术的本质和之前英特尔的睿频技术差别不大。AMD在打桩机的每个模块中都加入了自己独立的功率检测器,在APU上,GPU部分也有独立的功率检测器。所有的功率检测器将实时动态监测CPU各个部分的功率情况,并将所有的功耗数据和TDP相比较,反馈给P-state Manager进行管理。当APU所有部件的实际功耗小于TDP时,GPU和CPU会被自动提升频率档次,运行在更高的频率上并获得性能增益。在实际操作中,APU会根据产品类型和使用环境,对单模块、双模块、多模块以及GPU进行动态调整。这个过程完全无需人工干涉,是自动进行的。从后面的规格表中,可以看到,新一代台式机APU的处理器核心可以智能超频的频率很高,高已达到4.2GHz,而Llano APU则没有智能超频功能。

总的来看,打桩机架构相对推土机架构来说,只是一个小幅进化,通过部分内部结构的微调等,带来性能功耗比的提升,但CPU的绝对性能由于架构限制并不会提高太多。在宏观角度来看,打桩机架构和推土机架构基本上相同,包括其内部的模块化设计、每个模块两个整数核心以及一个共享128bit浮点核心的配置方式都毫无差异。

GPU部分:VLIW 4架构

新一代台式机APU所集成的HD 7000系列GPU架构采用了VLIW 4架构设计,这是什么意思?实际上有关VLIW架构以及其发展方法,在Radeon HD系列显卡的发展过程中,本刊已经介绍过多次。在Trinity上面所采用的VLIW 4架构也和之前Radeon HD 6900系列上采用的完全相同。在2011年2月下的《Radeon HD 6970/6950图形技术解读》一文中,本刊已经深入阐述过VLIW 4D架构和之前VLIW 5D(或者叫做VLIW 4D+1D)架构的不同和优势之处。如果想详细了解VLIW 4D架构的读者可以回顾之前的文章,在这里,我们只做一些重点分析。

之前AMD在Llano APU中采用了VLIW 5D的架构,这种架构基于经典的图形处理,一次操作中可以完整执行XYW(或者RGBA)以及一个特殊操作,但VLIW 5D的灵活性比较差,它内部单元是不能拆分的,只能每次接受一个完整的操作,如果出现1D指令或者2D指令等VLIW 5D的效率就会直线下降。AMD从Radeon HD 2000系列到Radeon HD 6800系列都采用了VLIW 5D的架构,但是在Radeon HD6900系列上,AMD考虑到如果继续使用VLIW 5D架构,对产品未来的发展和继续提高每晶体管效率已经没有太大帮助了,因此他们考虑将VLIW 5D中体积较大的特殊计算单元取消,直接使用四个对等的ALU单元进行计算。这样处理后,AMD认为每平方毫米的性能可以提升10%,这也就是目前Trinity以及Radeon HD 6900上所使用的VLIW 4D架构。

从AMD给出的资料看,Trinity中集成的HD 7000系列GPU“麻雀虽小、五脏俱全”,Trinity APU中集成的GPU部分高拥有384个流处理单元,虽然从数据上来说看起来小于前代Llano APU中集成的400个,但执行效率更高,实际性能表现也会更为出色。从功能和特性来说,Trinity APU完整支持整个DirectX 11特效,拥有真正的曲面细分单元,支持抗锯齿和各向异性过滤,支持MLAA等AMD特色技术,是目前整合类GPU中无与伦比的强者。AMD在新一代台式机APU上依据产品档次,将APU内置的ALU数目划分成384、256、192、128四类不同数量和档次,频率则有800MHz、760MHz、723MHz三种,以区分不同档次和市场的需求。

新一代台式机APU产品规格
新一代台式机APU产品规格

此外,HD 7000系列集成GPU不仅仍拥有传统的双显卡加速技术,可以和HD 6570之类的低端独立显卡组建交火提升性能,还集成了完整的DP、HDMI、DVI显示输出控制器。因此,新一代台式机APU也可支持AMD的Eyefinity宽域多屏显示技术,无需独立显卡,就可为用户提供分辨率达5760×1080的三屏显示。


采用VLIW 4架构设计,拥有384个ALU单元的HD 7660D显示核心。

分享到:

用户评论

共有评论(3)

用户名:

密码: