MCPLive > 杂志文章 > 移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

2013-08-22王阔《微型计算机》2013年8月上

喜欢

不管你欢迎还是不欢迎，关心还是不关心，反正一年一度的升级换代就这么来了。既然英特尔一直孜孜不倦坚持着的“Tick-Tock”节奏，那么我们也应该与时俱进。因为从现在开始，处理器市场已经改朝换代了。而这个新生的Haswell“王朝”，至少会持续一年。我们在5月下刊就已经对新王朝表示了欢迎——对桌面版本的Haswell处理器进行了深度解析。现在，是时候看看移动版本Haswell处理器的表现了。

CPU：增强的多线程性能，更高效的功耗控制

在英特尔的“Tick-Tock(嘀嗒)”升级策略中，Haswe ll是一次“Tock”，表明这是一款基于英特尔现有22nm 3D三栅极制造工艺的全新架构。明年代号为“Broadwell”的升级将采用同样的架构，但将转向14nm的制造工艺。

新加入的TSX扩展和AVX 2.0指令集

相比Ivy Bridge处理器，Haswell在CPU架构方面改进大的当属加入了有利于多线程执行的TSX扩展以及大幅度提升运算性能的AVX 2.0指令集。

TSX扩展指令集示意图

多线程多核处理器问世几年来，在AMD和英特尔的轮番推动下双核、双核四线程CPU已经是基本的配置，四核以及四核八线程也不是少数人的玩物了，但是你也许早已经发现日常应用中八线程并不能总是比双线程快。其中的原因除了软件开发商对多核优化不够之外，CPU自身也存在一定限制，比如传统操作中一个线程访问了某部分内存数据之后就会通过一个“lock（锁）”操作来保证数据的统一性。这个锁操作过程又分粗粒度锁定以及细粒度锁定，因为这两种“锁”操作互斥，极大影响了多线程并行处理的效率问题。因此英特尔在服务器处理器中引入了“Transactional Memory(事务内存)”来解决这样问题，但消费级CPU在这方面一直有所缺失。现在Haswell引入了TSX扩展指令，终于也可以实现这个功能。

简单来说，TSX将允许程序员指定事务型同步代码空间，使得目前使用粗粒度线程锁定的程序更自由地使用细粒度线程锁定，进而提高多线程效率和性能。举个简单的例子，在编辑word文档时，如果打算同时编辑两份拷贝，word就会提示你该文件正在编辑，只能以只读方式打开但不能编辑，这种情况叫做粗粒度线程锁定，这种锁定比较简单，很容易实现，但是效率不高。细粒度线程锁定则可以实现自由度更高的数据同步，还是前面的例子，如果使用细粒度线程锁定，那么每个线程都可以操作不同纵列的数据，明显提高了CPU效率，不过这样做也有更大的风险，比如数据出错的几率更大，特别是多个线程同时向一个区域写入数据时。而粗粒度线程锁定则可以避免这个问题，同时保持不需要的核心处于休眠状态，更节能。为了避免出错，程序员往往钟爱粗粒度线程锁定，而TSX扩展的设计目的就是评估软硬件状况并为程序员提供无错的细粒度线程锁定，特别是在复杂的多线程应用中让多核处理器有着更好的处理效率。不过回到现实中，这一技术还需要系统在内存管理和线程调度上做相应的优化，特别是受限于软件支持，短期内TSX可能还不会带来太明显的CPU多线程性能进步。

AVX 2.0指令集同样是Haswell一大重要的改进亮点。AVX 2.0是AVX指令集的升级版，后者仅支持256bit浮点指令集，但AVX 2.0中整数数据也扩展到256bitSIMD阵列，这可极大提升处理器在图像及视频处理中的处理效率。AVX 2.0指令让每核心每时钟周期的单精度、双精度浮点均翻一番，可执行双FMA操作，这极大地提升了浮点峰值速度—能够同时执行8条内部指令(uOPs)，实现4倍整数运算，这对于高性能计算、专业图形处理以及脸部追踪等方面的应用都有极大的益处。

除此之外，英特尔为了提升Haswell处理器的多线程性能还在微架构上进行了强化。如Haswell的前端设计和Sandy Bridge基本相同，但Haswell的Decode Queue(解码队列)数量支持56个并可以集中管理使用，而Sandy Bridge为2组、每组28个。这样做的好处是当只有一个线程时，整个56个微指令都可以被更有效的利用，而不像之前的SandyBridge那样对单一指令来说，只能使用28个，无论是缓存还是指令排序效率都会更为出色。此外，英特尔还改进了Haswell的分支预测技术，如增加了分支单元，这让处理器可以更快地提前知道哪些指令可能会在近期执行。如果处理器知道哪些指令会从管道上下来，那么分配处理器资源的效率有望大大提高，只开启处理器中需要的那些部分元件即可。综合来看，这所有的改进和加强让Haswell在多线程操作特别是超线程等应用中有了更为出色的表现，更多的分支预测和更强大的ALU显然能够带来更优秀的性能。

节能,还是节能！

这一次，英特尔更多地注重降低功耗，将Haswell称作“英特尔史上产品换代中电池续航时间大幅度的提升”。根据英特尔的数据，采用Haswell处理器的笔记本电脑电池续航时间比采用Ivy Bridge处理器的笔记本电脑多长1/3。Haswell的节能主要是由于，这是第一款针对22nm制造工艺设计的CPU架构，而此前Ivy Bridge架构针对上一代制造工艺，仅仅只是为了适应22nm工艺对架构进行了微调。

Haswell处理器运算架构示意图

正如你知道的，为了让处理器更节能，新一代处理器都加入了电源管理，内核拥有“活动状态”和“睡眠状态”两个主状态：在低负载时关闭供给处理器中大部分元件的电源，在需要时又及时打开。不过睡觉容易，起床有时就有点难了—相信各位每天早上起来，大都会磨蹭几分钟吧。磨蹭几分钟，可能对于你没事，但对电脑而言可是个大问题—当然，这个唤醒的过程没有这么久，但如果每次笔记本电脑进入睡眠状态都要等上一分钟，那么你在沮丧之下可能会将笔记本电脑一扔了之—针对这个问题，Haswell引入了一项“SOix活动闲置状态”模式，这是一种功耗极低的活动状态，耗电量比Ivy Bridge少20倍。PC系统本身认为它醒着，但处理器仍然基本上处于睡眠状态。这一技术意味着唤醒时间长也只有几百毫秒。从用户的角度来看，长半秒的唤醒时间远胜过唤醒目前的处理器所需要的好几秒。Haswell在运行时，几乎总是处在这个“即时恢复”状态。这项技术有点类似于Atom处理器电源管理。

其次Haswell内部架构的一些创新设计可进一步降低功耗，Haswell加入了FIVR（Fully Integrated Voltage Regulator，全集成式电压调节模块)用来实现对Haswell的电压更准确的控制和调节,并还将系统的频率和供电区域进行了细分，以实现更好的能耗比。值得注意的是，Haswell在加强电源管理的优化方面，有超过20项的改进，结成果是使得Haswell低可以做到7W。Intel曾做了这么一个有意思的演示：在演示里面，一块看上去很单薄的太阳能电池完整支撑了一套基于Haswell架构的电脑正常运行！按照Intel的“新架构能达到10天待机”的说法，或许我们可以期待在不久的将来笔记本也能像平板那样不用关机随便用了。

GPU：更强大，更多选择一

直以来，英特尔显示核心存在的问题除了技术和架构设计外，主要还是规模。早期在北桥中集成的显示核心规模不可能大，后来和CPU合二为一后规模也一直受到控制，晶体管数量少再加上本身架构设计不够成熟、驱动表现也不够理想，因此一直都是“功能意义大于性能意义”。不过这种情况在Haswell上将有所改变。

和AMD、NVIDIA的独立显卡一样，英特尔的显示核心中也有名称为EU的流处理器簇(AMD功能相近的单元称为GCN单元，NVIDIA功能相近的单元称为SMX），每个EU单元有4个ALU。根据EU数量的不同，Haswell中的集成显示核心分为GT1、GT2和GT3三个版本。其中GT1有10个EU单元，总计40个ALU，1个曲面细分单元；GT2则拥有20个EU单元，80个ALU和2个曲面细分单元；GT3则直接翻倍到40个EU单元、160个ALU单元和4个曲面细分单元。同时三者均支持DirectX 11.1、OpenCL 1.2通用加速运算等新技术标准。不过GT3仅仅用于移动设备，桌面CPU只能使用GT1和GT2两个版本。

为了解决移动显卡的带宽问题，英特尔会为GT3版本的产品配备昂贵的512bit、128MB的eDRAM缓存用作显存，带宽估计64GB/s 。在GT3大幅度提高规格、使用eDRAM这种昂贵的缓存后，英特尔宣称GT3高性能相比在Ivy Bridge中使用的HD 4000系列提升了接近3倍之多。不过代价也比较昂贵—你除了需要为这块eDRAM支付额外增加的50美金外，电费也要涨一些（TDP增加了不少）,看来性能和功耗果然不可兼得。

英特尔核芯显卡分类示意图

Haswell核芯显卡还支持4K显示和3路显示输出。

既然GT3的性能大幅度提升了，继续叫做HD系列显卡就不太恰当了。英特尔为Haswell上的高性能集成显示核心起了新名字，叫做Iris，中文名为“锐炬”。目前分为Iris和Iris Pro两个版本，全称是“英特尔锐炬显示芯片”和“英特尔锐炬Pro显示芯片”两种。GT3带eDR AM版本，称为IrisPro Graphics 5200，面向高性能笔记本。

非eDRAM版本GT3又分Iris Graphics5100、Iris Graphics 5000两个型号，都面向超极本。至于低一级的GT2又划分为HD Graphics 4200/4400/4600三个系列，其中4200/4400面向超极本，4600则面向普通笔记本电脑。

除了在核心性能上的飞越外,Haswell视频引擎还引入了基于硬件的SVC(可扩展视频编码)解码器(可用于视频点播和多方会议视频等)、Motion JPEG硬件解码器、MPEG 2硬件编码器，并通过SD K继续提升编码质量。同时Haswell核显在显示性能和分辨率方面也做了前所未有的改进，如加入对4K分辨率支持，可提供DIsplayPort 1.2及菊花链式显示器连接，多提支持三路同步1080P显示。

“intel inside”的logo重新进行了设计。

枝繁叶茂的Haswell移动处理器家族

移动版Haswell共有M、H、U以及Y四大系列，其中M、U和Y系列之前我们就已经见到过了，分别对应“主流”、“超低压”和“甚低压”（比超低压系列的功耗还低）。H系列则是一员新军，定位于“高性能”。M和H系列将会面对普通笔记本电脑，H系列处理器大的亮点就是高端的型号可以选择“封装缓存”的GT3显卡，也就是HD Graphics 5200，而低端的仍搭配HD 4600 GPU。U系列则是面对超极本，Y系列是Ivy Bridge时代才出现的新成员，主要是多了一个“场景设计功耗”（SDP），一般TDP功耗都控制在11.5W，低为7W。

针对主流移动市场的M 系列是成员丰富的系列，除了主流的Core i7/i5/i3外，两大经典老品牌赛扬、奔腾继续在M 系列中发挥余热，分别命名为Celeron 290 0M、Pentium 350 0M系列。前者包括2950M(2.0GHz)、2960M(2.1GHz)、2970M (2.2GHz)三个型号，后者则有3550M (2.3/2.4GHz)、3560M(2.4GHz)、3570M (2.5GHz)。