这是一份来之不易的情报,由本刊编辑部中的“007”历经千辛万苦获得;这,是一份价值极高的情报,Intel新绝密武器——一第四代酷睿处理器的技术详解、性能全方位测试它都一一包含;这,就是在2013年受DIY玩家期待、为关注的Haswell处理器抢先测试。
我们知道,英特尔的处理器技术发展模式被称为Tick-Tock。Tick-Tock的原意主要是表现吊钟钟摆摆动的声音:“嘀嗒”,一次嘀嗒代表着一秒。而在英特尔的处理器发展战略上,每一次嘀嗒代表着处理器两年里的工艺架构进步。其中在两年中的第一年即“Tick嘀”年中,将推出工艺提升、晶体管变小、架构微调的处理器产品。而在第二年“Tock嗒”年里,英特尔不仅将继续延用上一年带来的新工艺技术,还将推出对处理器微架构进行大幅更新的产品。
因此,在Tick嘀年里的技术更新主要是对工艺进行提升,对处理器架构来说只是小幅改动,不会给性能带来多少提升。而在Tock嗒年中的产品由于架构大幅变动,因此不仅会给处理器的性能、功能带来明显变化,也会决定着处理器在随后的两年中能否在市场上站稳脚步,所以Tock嗒年的发展结果是至关重要的。长期以来,英特尔都遵循这样的模式进行发展,如在20 05年研发出采用65nm工艺的Ce darMill架构的Pentium 4处理器,在2006年便迎来在Intel历史上具有重要意义的Core酷睿架构,并带来了英特尔处理器性能质的飞跃。而即将于2013年6月4日发布的第四代酷睿架构即Haswell处理器也是踩着“嗒”(Tock)字步的全新产品,那么相对于上一代Ivy Bridge处理器,它会有怎样的表现?能否为我们再上演一出性能大幅提升的好戏呢?我们知道,英特尔的处理器技术发展模式被称为Tick-TockTick-Tock的原意主要是表现吊钟钟摆摆动的声音:“嘀嗒”,一次嘀嗒代表着一秒。而在英特尔的处理器发展战略上,每一次嘀嗒代表着处理器两年里的工艺架构进步。其中在两年中的第一年即“Tick嘀”年中,将推出工艺提升、晶体管变小、架构微调的处理器产品。而在第二年“Tock嗒”年里,英特尔不仅将继续延用上一年带来的新工艺技术,还将推出对处理器微架构进行大幅更新的产品。因此,在Tick嘀年里的技术更新主要是对工艺进行提升,对处理器架构来说只是小幅改动,不会给性能带来多少提升。而在Tock嗒年中的产品由于架构大幅变动,因此不仅会给处理器的性能、功能带来明显变化,也会决定着处理器在随后的两年中能否在市场上站稳脚步,所以Tock嗒年的发展结果是至关重要的。长期以来,英特尔都遵循这样的模式进行发展,如在20 05年研发出采用65nm工艺的Ce darMill架构的Pentium 4处理器,在2006年便迎来在Intel历史上具有重要意义的Core酷睿架构,并带来了英特尔处理器性能质的飞跃。而即将于2013年6月4日发布的第四代酷睿架构即Haswell处理器也是踩着“嗒”(Tock)字步的全新产品,那么相对于上一代Ivy Bridge处理器,它会有怎样的表现?能否为我们再上演一出性能大幅提升的好戏呢?
相比Ivy Bridge处理器,Haswell在CPU架构方面改进大的当属加入了有利于多线程执行的TSX扩展,以及大幅度提升运算性能的AVX 2.0、FMA3指令集。除此之外,Haswell在工艺、CPU微架构上也做出了一定的调整。另外,在集成显示核心方面,Haswell的图形性能会有比较明显的增长,EU单元数量会增加,功能上会进一步支持DirectX 11. 1与OpenCL 1.2。在结构和扩展性能方面,Haswell在接口、封装模式上会做出一系列改动,CPU内部将集成电压控制单元,芯片组方面则采用了更新的8系列芯片组。同时,对玩家来说的一个好消息是,Haswell可以实现一定幅度的外频超频。
单单从CPU-Z的侦测规格来看,Haswell架构处理器Core i7 4770K与Core i7 3770K几乎完全相同,配备8MB三级缓存,总计1MB二级缓存,8-way一级缓存,似乎没有什么变化。
从处理器架构对比图上来看,Haswell在细节上仍有非常多的改动。
FIVR可以独立调节每个内核、显卡核心、SA系统助手以及内部的I/O总线等各个部分电路的供电,不需要的部分可以独立关闭,这是降低能耗的关键所在。
AVX 2.0和TSX扩展——重要但暂时用不到的新技术
有关AVX 2.0和TSX扩展的内容,本刊在2012年12月上的《英特尔、AMD下一代处理器架构解析》一文中做出过比较深入和全面的介绍,如果需要详细了解有关这两种技术的读者可以自行查阅。在本文中,我们仅对AVX 2.0和TSX扩展做出概述和结论性的介绍。
TSX扩展主要目的在于改进CPU的多线程应用,它通过引入细粒度多线程和事物型内存的管理方法,能够在支持TSX的应用程序中获得比较明显的多线程性能改善。不过受限于软件支持,短期内TSX可能还不会带来太明显的CPU多线程性能进步。而且根据本文截稿时获得的资料来看,Haswell中的K版产品,即未锁定倍频的处理器不会整合该技术。
AVX 2.0指令集是之前Sandy Bridge和Ivy Bridge上AVX指令集的扩展版本。AVX是高级矢量扩展AdvancedVector Extensions的简写,此指令集的主要用途是加强浮点和整数性能。AVX 2.0主要是将整数部分升级到256bit SIMD阵列,支持FMA3浮点乘积累等新的加速指令。可以预计的是,在短期内这些新的指令集不会有太多软件支持,可能部分测试软件能反映出新版本AVX的优势,但在实际应用上来说的话,需要等待很长一段时间后,软件市场才会出现相关产品。
重点加强多线程性能———Haswell处理器在微架构上的强化
从右边的Haswell与Sandy Bridge架构图对比来看(由于Ivy Bridge属于架构不变、制程升级的Tick阶段,因此本图使用了Sandy Bridge作为Haswell的对比对象),虽然两款处理器的基础架构没有大的改动,但仔细观察后,可以发现Haswell在诸多地方做出了微调,可以在某些应用环境,特别是多线程运算中带来不错的增幅。
Haswell的前端设计和Sandy Bridge基本相同。唯一出现的差别在于Haswell的Decode Queue(解码队列)数量支持56个,而Sandy Bridge为2组、每组28个。这样做的好处是当只有一个线程时,整个56个微指令都可以被更有效的利用,而不像之前的Sandy Bridge那样对单一指令来说,只能使用28个,无论是缓存还是指令排序效率都会更为出色。
在Haswell的调度部分,相比Sandy Bridge做出了很多加强。比如Entry Recorder Buf fer(用于检测能够并行处理的微操作个数),Sandy Bridge数量只有168个,Haswell增加到192个。随之而来的是Haswell的整数寄存器数量有168个(Sandy Bridge只有160个)、AVX寄存器也有168个(Sandy Bridge只有144个)、分支指令寄存器有48个(SandyBridge和Haswell相同)、读寄存器有72个(Sandy Bridge只有64个)、写寄存器有42个(Sandy Bridge只有36个)、统一调度器有60个(Sandy Bridge只有54个)。这部分设计的改善可以提升处理器的并行指令处理能力,加强处理器多线程性能。
这部分是Haswell相比Sandy Bridge变化比较明显的部分。总体来看,Haswell采用了8发射口设计,增加了额外的两个发射口,分别用于Integer ALU & Shift(整数ALU和分支计算)、AGU(写操作地址计算)。此外,Haswell顺应了AVX2.0的需求,将所有有关FMA的操作全部升级到256bit(Sandy Bridge是128bit)。
这部分的升级对Haswell的性能影响更为明显一些。Haswell现在每周期可以进行4个整数微操作,相比上代的3个,这部分性能提升了33%;每周期可以进行2次分支预测,比Sandy Bridge的1次分支预测操作整整提升了100%。在AGU部分,新加入的7号口AGU让Haswell每周期可以进行一个读微操作和两个写微操作。综合来看,这所有的改进和加强让Haswell在多线程操作特别是超线程等应用中有了更为出色的表现,更多的分支预测和更强大的ALU显然能够带来更优秀的性能。
接下来的部分则是Haswell相比Sandy Bridge的缓存改进部分。Haswell的L1缓存带宽由Sandy Bridge的16byte每周期增加到32(存储)~64byte(载入)每周期,L2到L1的缓存带宽也由之前的32byte每周期翻番增加到64byte每周期。虽然无论是L1还是L2都仍采用了8-way的规格设计,但是整个缓存的传输带宽大幅度提升,显然这对于提升Haswell的处理器性能也有一定帮助。
更精准的供电——内置电压控制部分在传统的CPU上,电压控制都是由主板负责的。CPU安装在主板上后,主板会给出诸如核心电压、集成显卡电压、I/O控制单元电压、PLL环状总线电压等。因此,在部分厂商介绍主板时,会出现诸如“主板使用了6+2+1相供电”这样的说明。这种说明标识了供电模块的供给情况,“6+2+1”分别代表CPU核心、集成显卡和I/O以及其他部分供电。不仅如此,传统的CPU超频能力特别是电压调节能力,受到主板品质的影响。主板厂商采用什么类型的PWM,调压芯片是外置还是和PWM一起内置,哪个厂商出品的PWM和调压模块,主板厂商的BIOS能力以及软件能力,都严重影响了CPU在主板上的超频性能。
上述设计和问题在Haswell上将不复存在。原因很简单,Haswell内置FIVR。FIVR即Fully Integrated VoltageRegulator(全集成式电压调节模块)的英文缩写。它将用于实现对Haswell的电压控制和调节。根据资料显示,Haswell中的FIVR模块有20个之多,每一个FIVR模块面积约为2.8平方毫米,每个FIVR模块可以通过25A电流、支持16相供电,理论上多就能控制320相供电,能够为Haswell提供准确的电压控制。在FIVR的控制下,Haswell可以精确调整CPU核心、环状总线、显卡核心以及I/O总线等CPU内部各个部件的电压和功耗情况,既能够保证睿频等功能的正常运行,又能够在部分组件没有任何作用的时候降低电压或者将其关闭节能省电。FIVR是英特尔在Haswell上的又一创新设计,彻底改变了CPU供电设计的状态,为下一步降低CPU功耗,智能控制CPU中每一个部件的性能情况打下了良好的基础。
进一步降低功耗 更成熟的生产工艺
值得注意的是,虽然Haswell的工艺依旧采用22nm 3D晶体管设计,但由于工艺的进步,Haswell的22nm工艺和IvyBridge相比显然要更先进、更成熟一些。英特尔CPU架构设计师就明确地表示:“我们与晶圆制造部门的同事一起做了大量工作以确保更低的功耗,现在我们可以实现高性能与低功耗工艺的完美结合。必须要说明的是,不要认为Haswell的工艺与Ivy Bridge是一样的,工艺可是在不断改进的。”其次Haswell内部架构的一些创新设计可进一步降低功耗,除了FIVR,Haswell还将系统的频率和供电区域进行了细分。在原来的处理器中,环形总线和L3缓存是与处理器核心捆绑在一起进行控制的,而Haswell处理器的内核设计则将核心与L3缓存、环形总线进行了分离。处理器可通过新型的控制单元对缓存与环形总线的频率与电压进行独立控制,根据负载的大小对这两部分的频率与电压进行调节,以实现更好的能耗比。
提升多 Haswell集成显示核心解析英特尔宣称Has we ll的集成显示核心性能有非常大的进步,并根据历年来集成显卡的标称性能制作了一张图表。表中以2006年以来英特尔各款集成显卡在3DMark 06中的性能进步为基准,英特尔认为Haswell中的集成显示核心相比2006年产品的总体性能提升了75倍之多。不管数据是不是真实,英特尔的集成显示核心的性能是实打实的有进步。只不过由于基准性能太低,因此即使两三倍的进步,也一直没有赶上入门级独立显卡的水平。英特尔显示核心存在的问题除了技术和架构设计外,主要还是规模。早期在北桥中集成的显示核心规模不可能大,后来和CPU合二为一后规模也一直受到控制,晶体管数量少再加上本身架构设计不够成熟、驱动表现也不够理想,因此一直都是“功能意义大于性能意义”。
Haswell中的集成显示核心分为GT1、GT2和GT3三个版本,其中GT2的规格是GT1的两倍、GT3则是GT2的两倍。不过GT3仅仅用于移动设备,桌面CPU只能使用GT1和GT2两个版本。和AMD、NVIDIA的独立显卡一样,英特尔的显示核心中也有名称为EU的流处理器簇(AMD功能相近的单元称为GCN单元,NVIDIA功能相近的单元称为SMX)。根据之前的资料,英特尔的每个EU单元有4个ALU。GT1有10个EU单元,总计40个ALU,1个曲面细分单元。GT2则拥有20个EU单元,80个ALU和2个曲面细分单元,GT3则直接翻倍到40个EU单元、160个ALU单元和4个曲面细分单元(曲面细分单元可能并未配置如此之多,因为本身集成显卡的性能也不需要配置如此“强大”的曲面细分单元)。此外,以上三种集成显示核心还支持DirectX 11.1、OpenCL 1.2通用加速运算等新技术标准。
目前GT3只会使用在顶级的移动版本中,为了解决移动显卡的带宽问题,英特尔会为GT3版本的产品配备昂贵的512bit、128MB的eDRAM缓存用作显存,带宽估计64GB/s 。这部分eDRAM将占用70平方毫米~80平方毫米的面积,大约是Haswell 210平方毫米~240平方毫米核心面积的1/3~1/4,面积不可谓不大—当然价格也不菲,使用eDRAM的型号英特尔要额外加收多达50美元(约合360人民币)左右的费用。部分未经证实的消息称这部分集成的eDRAM也可以作为L4缓存使用,不过目前看起来可能性不大。
在GT3大幅度提高规格、使用eDRAM这种昂贵的缓存后,英特尔宣称GT3高性能相比在Ivy Bridge中使用的HD 4000系列提升了接近3倍之多。如果真的有这么大的性能提升幅度,那么英特尔宣称自己的集成显卡超越诸如GeForceGT 640M之类的独立显卡也不是没有希望,不过代价也比较昂贵,除了额外增加的50美金外,TDP也上升了不少。看来性能和功耗果然不可兼得,即使是英特尔……
英特尔宣称,与早期产品相比,Haswell上的集成显示核心性能提升了75倍之多。
如图所示,Haswell处理器(左)的正面与Ivy Bridge(右)相比并无明显不同,但背面的区别很大。它的触点排布方式发生了大幅变化,总计少了5个触点,防呆口位置也设计得更高(如红框处),另外H a s we l l背面中间的陶瓷电容元件数量也少了很多。
既然集成显卡的性能大幅度提升了,继续叫做HD系列显卡就不太恰当了。英特尔为Haswell上的高性能集成显示核心起了新名字,叫做Iris,中文名为“锐炬”。目前分为Iris和IrisPro两个版本,全称是“英特尔锐炬显示芯片”和“英特尔锐炬Pro显示芯片”两种。而桌面版本的集成显示核心则延续使用HD Graphics这一前缀,即人们常说的“核芯显卡”。目前已知的Haswell集成显卡型号从高到低分别为:
GT3带eDRAM版本,TDP未知,称为Iris Pro Graphics 5200;
GT3版本,TDP28W,称为Iris Graphics 5100;
GT3版本,TDP15W,称为Iris Graphics 5000;
GT2版本,TDP未知,称为HD 4600/4400/4200;
GT1版本,TDP未知,称为HD Graphics
总的来看,英特尔对自己GPU性能的提升还是很满意的,不但大幅度加强了硬件规格、引入了eDRAM,还改了名字。虽然英特尔目前在CPU和G PU的占有率上都是全球第一并且全部超过了60%,但是高性能GPU一直是英特尔的痛处,希望英特尔这次不再让人们失望吧。
可调节更多频率 Haswell在超频上的改进
英特尔在Haswell的频率控制部分做了很多改进,在以往的K版处理器中,处理器倍频大只能提升到×63(Ivy Bridge)和×57(Sandy Bridge)。而在Haswell上,倍频上限被进一步提升到×80——这也就意味着BCLK频率在100MHz的情况下,Haswell的高理论频率可以达到8GHz,大大超出了之前6.3GHz左右的水平。同时,Intel还取消了Haswell集成显示核心部分的频率限制,其倍频高可以调节到×60即3GHz。此外,Haswell提高了内存倍频调节范围,在外频100MHz的基础上,内存频率可以调节到高DDR3 3200。
Haswell变化大的是,采用了和之前Sandy Bridge-E平台上类似的RCR(Reference Clock Ratio参考时钟比率)技术,额外增加了125MHz和167MHz两个外频设定点,频率的上下实用浮动范围是5%~7%(比如100MHz的标准频率,可以在93MHz~107MHz之间浮动。对于167MHz的外频来说,可以在155MHz~179MHz之间浮动),高上限可以达到200MHz。虽然对超频玩家来说,传统以“1MHz”为单位的超外频再也不会回来了,但至少Haswell可以再次通过大幅调节外频与倍频,两者相结合的方式来提升频率,为超频玩家带来更多玩法。不过需要注意的是,只有K版即可调节倍频的Haswell处理器支持外频调节,普通版本的产品仍只能使用100MHz外频。
首批产品面向中高端 Haswell处理器一览
Haswell处理器的桌面平台使用了新的Socket H3接口,针脚数量更改为1150个,支持35W~95W的散热解决方案。移动平台分为两部分,第一部分是Socket G3插槽,947针脚,依旧是双芯片封装,TDP范围是37W~47W之间,嵌入式产品会降低到15W;第二部分则是全新的单芯片SOC接口,TDP降低到15W。第二种SOC类型的单芯片封装是专门为超极本和一些对面积要求很严格的产品而设计的,因此玩家可能会看到基于Haswell的体积更小、更轻薄的移动设备上市。
根据英特尔的资料来看,首批上市的Haswell新品主要还是集中在Core i7和Core i5上,至于广大玩家喜闻乐见的Core i3和Pentium等中低端级别产品,则暂时没有消息。根据惯例,至少得在Haswell发布第二个甚至第三个季度后,才能看到它们的身影了。