MCPLive > 杂志文章 > GPUNVIDIA Tegra K1光环外的秘密

GPUNVIDIA Tegra K1光环外的秘密

2014-05-16张平《微型计算机》2014年4月上

很多人在谈论NVIDIA Tegra K1这款芯片的时候,都会被它192核GPU的光环所吸引,都为其PC级的图形性能而惊叹。但是,作为一颗SoC芯片,NVIDIA Tegra K1的改变绝不仅仅局限于GPU,在此之外,还有更多的秘密值得我们进一步发掘,这些秘密也将带来全新的平台体验。

在上一期杂志中,我们已经着重分析过NVIDIATegra K1在GPU方面的改变——确实,对于Tegra K1而言,192个开普勒架构CUDA Core带来的是耀眼的光环。不过,我们也应该看到,在CPU部分,NVIDIA也没有因循守旧,而是进行了大量的创新。现在,就让我们来看看,除了GPU,Tegra K1究竟还有哪些改变。

GPU之外的秘密:图像处理器和视频处理器

作为一颗ARM SoC,Tegra K1不仅仅只有CPU和GPU部分,图像处理器也是非常重要的组成部分。在之前的Tegra 4上,NVIDIA展示过Chimera 1.0图像处理引擎,它的特点是支持快速HDR拍照并且可以调用GPU进行计算加速,还可以支持720p的HDR单帧摄影。在Tegra K1上,Chimera升级到了第二代,功能大幅度强化,尤其是在使用了开普勒架构GPU后,Chimera 2.0借助更为强大的GPU性能,功能和性能都大幅度提升。

Chimera 2.0拥有两个图像处理核心,每个摄像头传感器可以支持每秒计算6亿色彩深度达到14bit的像素,总的像素处理能力高达1.2GPixels/s。除此之外,Chimera 2.0可以支持的摄像头像素高达1亿像素,支持多64×64阵列的对焦点,共计4096个对焦点。在这个技术的基础上,采用Tegra K1的设备就可以实现先拍摄、后对焦的功能。并且即使在如此多对焦点的情况下,一些重要功能比如降噪、映射、局部调和等都可以得到支持。在其他功能方面,比如临时像素组合降噪、全景拍摄支持、视频稳定技术、实时特效计算、物体追踪、HDR摄影、慢动作捕捉等功能方面,Chimera 2.0不但都支持,还做出了一定程度的加强。这些技术的加强,使得Tegra K1能够在摄影娱乐方面发挥更大的优势。

除了图像处理器外,Tegra K1的视频处理器也得到了加强,目前可以支持2160p 30fps 4K级别的视频编解码,相比Tegra 4无论是性能还是功耗都有进步。此外,Tegra K1还首次支持了H.265解码;不过从其原理来看,还需要使用NVENC和CPU联合计算,不能算彻底的硬件解码。为了展示Tegra K1的强大性能,NVIDIA在发布会上直接使用Tegra K1的平板播放了一段4K视频,整体效果非常流畅,完全没有卡顿和掉帧。在接口方面,Tegra K1的视频部分支持LVDS、HDMI 1.4b以及Display Port 1.4接口,功能方面不存在任何问题。

Tegra K1的图像处理引擎Chimera 2.0多可以同时处理4096个对焦点。
Tegra K1的图像处理引擎Chimera 2.0多可以同时处理4096个对焦点。

Tegra K1的双IPS支持功能更为先进,性能更为强大。
Tegra K1的双IPS支持功能更为先进,性能更为强大。

双芯闪耀:“丹佛”终于降临

在介绍完Tegra K1的GPU和图像部分后,再来看看有关Tegra K1 CPU部分的内容。NVIDIA在发布会上发布了两个版本的Tegra K1,第一个版本采用了Cortex-A15架构的CPU,四核心,很快就可以上市。第二个版本的CPU核心架构采用的是NVIDIA自己研发的“丹佛”架构,要到晚一些的下半年才上市。两个版本的核心针脚完全相同,厂商可以直接互换而不用重新打制PCB。

Tegra K1的两个版本,发烧友普遍表示更看好“丹佛架构”的首秀。
Tegra K1的两个版本,发烧友普遍表示更看好“丹佛架构”的首秀。

Cortex-A15 r3p3版本,新工艺和新架构改进功耗

NVIDIA在Tegra 4上首次使用了四核心Cortex-A15 r2p1架构,再加上Tegra 4的HPL工艺本身对漏电电流控制没有HPM工艺那么先进,因此终Tegra 4虽然性能上去了,不过随之而来的高功耗问题让NVIDIA伤透了脑筋。不过这次Tegra K1上,NVIDIA换用了新的28nm HPM工艺,再加上架构设计等因素,整体功耗表现可以说进步了不少。

首先来看架构,在Tegra K1上,NVIDIA在没有更好的架构选择之前,只有暂时继续使用Cortex-A15,也继承了之前Tegra4的伴核设计(不过NVIDIA没有说伴核是否也是Cor tex- A15架构的,不过从核心艺术照来看伴核的面积小了不少)。不过这次采用了新的Cortex- A15 r3p3。根据ARM官方资料来看,Cortex-A15架构诞生后,从r0p0开始到新的r4p0,曾经经过了多个版本的修正和加强。其中r2p0和r3p0都是增加了重要功能的节点,其余的版本都只有进行一些勘误和ID调整。在r2p0节点上,ARM为Cortex-A15添加了nVIRQ和nVFIQ等功能。在r3p0版本中,ARM为Cortex-A15加入了多了功耗控制功能,其中包括CPUCLKOFF(CPU时钟关闭)、可配置门控时钟、WFI和WFE模式等功能。这些功能的加入,使得Cortex-A15的功耗表现有一定改善。此外,这个版本的Cortex-A15核心也将物理寻址上限扩充到了40bit,这样处理器就可以支持大8GB的内存,而不再受到4GB内存的限制了。

接下来看工艺。NVIDIA在Tegra K1上使用了Cortex-A15r3p3以及全新的HPM工艺后,频率飙升到了高2.3GHz,比之前Tegra 4的1.9GHz提高了足足20%。此外,NVIDIA还表示自己在Tegra K1的晶体管布局和结构设计上尽可能多地做了优化,新优化可以降低发热量,提高能源利用效率。

为了进一步证明新产品的优势,NVIDIA使用了测试数据来说明功耗的改善。在Tegra 4上,SPECint2000成绩达到1200的时候,CPU功耗已经超过了2W,接近2.5W。在同样的性能输出下,Tegra K1的功耗只有不到1W。Tegra K1大可以达到SPECint2000的成绩在1400分以上,并且功耗控制在1.5W左右,在同等功耗下,Tegra 4的性能只有1000分左右。因此,NVIDIA宣称Tegra K1的每瓦特性能比Tegra 4高了40%,或者同样的性能Tegra K1消耗的功耗比Tegra 4少45%。

在绝对性能方面,四核心的Cortex-A15 Tegra K1的CPU频率高可以达到2.3GHz,与高通目前强悍的骁龙8974AC的2.46GHz基本在一个档次上,不过考虑到Cortex-A15更强悍的性能,Tegra K1的CPU部分性能至少不会落后于目前频率高、性能强的高通骁龙800。如果要看更强悍的性能,那就不得不请出NVIDIA自行研发的代号“丹佛”的CPU架构了。

“丹佛”计划:NVIDIA的自研CPU架构

NVIDIA有关丹佛计划的消息已经传了非常久。从2011年1月CES上黄仁勋宣布“Project Denver”到现在已经过去了三年之久。期间也有数次谣传NVIDIA将展示或者发布有关丹佛计划的产品。不过终的结果是在CES 2014才揭开谜底:丹佛计划的首次亮相给了Tegra K1。

Tegra K1的版本除了传统的四核心Cortex-A15外,另一个版本就是双核心的丹佛架构了。从NVIDIA给出的示意图来看,丹佛的每个核心显然比四核心的Cortex-A15要大不少,因此在比较有限的面积中,NVIDIA仅仅放置了两颗丹佛核心。虽然核心数量要少了一半,但这并不意味着双核丹佛性能会比四核心Cortex-A15要低。NVIDIA的官方数据表示,丹佛架构完全兼容ARMv8 64bit,处理器指令发射宽度高达七发射,高主频可达2.5GHz,缓存也大幅度增加到128KB指令缓存+64KB数据缓存。当然,发射数、主频和缓存容量都不意味着CPU的性能更强,考虑到NVIDIA花了长达三年的心血,不可能设计一个连Cortex-A15都比不过的核心,况且丹佛核心的面积是如此之大,其中肯定集成了更多、更充裕的计算单元,否则它很难满足七发射的数据宽度需求。

NVIDIA目前没有公布有关丹佛核心设计的任何架构性内容,因此对于这颗CPU核心的内部设计我们无法探知。仅仅从产品角度来看,NVIDIA似乎和苹果对处理器的看法是一样的,那就是更重视大核心、更重视单线程。实际上目前四核心的ARM处理器由于并行化问题,很难达到高效率运行,应用程序的并行化也一直是首要的业界难题。在这种情况下,设计一颗单线程性能强悍的大核心,降低并行化程度,提供更恰当的性能,反倒是更为正确的道路。反观国内市场,连Cortex-A7都做成八核心进行推广,不得不说这样的行为很难正确引领技术发展方向。

产品进度方面,NVIDIA在1月初成功流片了基于丹佛核心的Tegra K1,在CES发布会上已经展示了可以正常工作的产品。预计还需要大约半年时间才可以大批量上市,终双核丹佛架构的产品要到年底才能和消费者见面了。

新版Cortex-A15和新的工艺,使得这颗核心的性能功耗比大幅度提升。
新版Cortex-A15和新的工艺,使得这颗核心的性能功耗比大幅度提升。

发布会现场,NVIDIA展示才流片回来不久正常工作的丹佛核心的Tegra K1。
发布会现场,NVIDIA展示才流片回来不久正常工作的丹佛核心的Tegra K1。

台积电的几种工艺介绍

目前台积电面向28nm的工艺有多种选择,分别针对不同类型的用户,其中包括:

LP:适用于低频率低功耗低性能产品,价格为低廉。这种技术基础是硅氧化物,也就是利用硅氧化物SiON制作栅极绝缘层而不加任何额外处理。

HPL:基于高K金属栅极的低功耗版本,它的特点是电流泄漏很低,在功耗方面表现很不错,面向高性能和低功耗产品。之前Tegra 4使用的这个工艺,可是终功耗控制不够理想。

HP:同样基于高K金属栅极,但是更偏向于频率和性能表现,拥有比较好的性能功耗比。桌面GPU一般都使用了HP工艺。

HPM:专为移动产品打造的工艺,拥有超低的漏电电流和相当优秀的频率表现。HPM在高通骁龙800、Tegra K1等顶级产品上才有使用。

台积电也给出了一些典型数据用于对比HPM和HPL。比如前者的Core Vcc电压是0.9V,后者则是1.0V。相比之下电压降低了10%,功耗降低的幅度是电压的平方,这样HPM在同等性能下的功耗就只有HPL的80%,或者在功耗相同的情况下HPM的产品性能、频率可以放宽的幅度就比HPL工艺大很多。这也是NVIDIA强调新工艺带来了性能提升、功耗降低的原因。

Tegra K1的竞争对手和未来

从技术角度来说,NVIDIA的Tegra K1堪称目前强大的ARM SoC产品,不过从PPT上走出成为具体的产品还需要一段时间。去年NVIDIA发布Tegra 4后长达半年多时间都无法提供正常的芯片供应,导致NVIDIA的Tegra营收严重下滑。今年NVIDIA应该吸取了教训,Tegra K1已经开始小规模给客户出货,2014年上半年很可能就能看到具体产品的身影了。

那么,同为2014年的产品,有哪些可以和Tegra K1相提并论的呢?首先来看高通,高通已经发布了骁龙805系列,CPU从Krait 400升级到了Krait 450,高频率可以达到2.5GHz,内存方面带宽翻了一倍,达到了25.6GB/s,GPU部分也使用了新的Adreno 420,宣称比Adreno 330提升了40%。综合来看,高通骁龙805的CPU性能应该和Tegra K1的四核心Cortex-A15版本不相上下,但是GPU部分考虑到Tegra K1强大的GPU性能提升,很可能骁龙805还是短时间内难以企及的。从目前已有的性能来看,Tegra K1 GPU部分的实际性能应该不止比骁龙800强40%,骁龙805就很难在GPU性能上和NVIDIA抗衡了。

此外,PowerVR也已经发布了自己旗下新的GX6650GPU,这颗GPU集成了六个阵列,总共192个32位整数单元和384个32位浮点单元,300MHz时理论浮点性能大约115.2GFLOPS。虽然将Tegra K1的GPU降低到300MHz后也能得到类似的成绩,但不要忘记了NVIDIA官方宣称Tegra K1的浮点性能大约是365GFLOPS,这就说明Tegra K1的频率远远比300MHz要高得多,据估计在900MHz左右。这样一来,PowerVR GX6650除非频率和Tegra K1相当,否则也很难达到类似的高度。

其余的厂商诸如三星使用的ARM原生的Mali-T700x系列,高浮点性能是326.4GFLOPS,不过这是16核心的顶级产品才有的规格,一般产品中应该不会使用如此强悍的版本。因此Mali-T700系列的也很难超越Tegra K1。这样看来,Tegra K1的性能应该毫无疑问是目前甚至2014年强的ARM SoC,尤其是GPU性能更令人侧目。不过问题也来了,Tegra K1一定会有好的市场表现吗?答案是:值得期待,但推进速度有待观察。

写在后

Tegra K1无疑是强大的,甚至之前的Tegra 3、Tegra 4在刚发布时同样是业界领先;但是我们也应该看到,在SoC领域绝不是仅仅依靠技术领先就可以统治市场。NVIDIA在移动产品领域还有很多短板需要弥补:作为一个刚起步的厂商,NVIDIA缺少成熟的基带、缺少成熟的软硬件配套设计、缺少和产业链厂商配合的经验。之前在PCB、显卡、主板上的经验已经不完全适用于手机这样的高集成度产品。再加上NVIDIA的高性能追求意味着其产品价格不会太低,这就使得NVIDIA陷入了一个“高价格、低产品完成度”的尴尬境地。厂商如果选择和高通合作,在开发和设计上要轻松很多;即使是选择联发科、全志的产品,虽然性能表现不那么领先,但是整套方案开发简单、成本低廉,也比选择NVIDIA的竞争优势强大太多。

因此,这次Tegra K1发布之后,我们也看到NVIDIA开始积极改变发展策略,将之前Tegra系列产品瞄准手机等市场的做法转变过来,变为更重视平板和游戏机、机顶盒、车载娱乐等市场。这样的方向转变和NVIDIA目前在基带技术、手机等小体积设备设计上的弱势是吻合的—去自己有优势的地方,完成自己开创性的事业。当然,这并不意味着NVIDIA放弃了手机市场,搭配Tegra K1和NVIDIA自家icera或者第三方基带的手机很有可能也会出现。总的来说,NVIDIA也在每代的产品发展中,着力加强自己的短板,希望能够实现更大的突破。Tegra K1,承载着NVIDIA移动市场重定位和转型的一款重要产品,它的未来,还将等待时间来验证。

Tegra K1对CUDA的支持

NVIDIA一直想将CUDA引入移动计算平台。在Tegra 3时代,NVIDIA就提供过Kayla平台。Kayla平台外观看起来和我们目前使用的主板有点像:ARM SoC占据了主板PCB的“CPU位置”,侧边有一些诸如HDMI、USB、网卡和4Pin电源等接口。尤其值得一提的是主板上提供了一个MXM接口,用于插入显卡,Kayla平台使用了一颗规格不明的开普勒架构GPU。在ARM CPU核心和GPU的配合下,开发人员就可以在这个“Tegra 3+开普勒GPU”的平台上实验、调试有关CUDA的内容。

在Tegra K1上,NVIDIA在将真正的开普勒GPU纳入ARM SoC的同时,也带来了真正的CUDA支持。目前Tegra K1支持CUDA 6.0,CUDA 6.0已经提供了对统一虚拟内存技术的支持。这样一来,NVIDIA就可以在ARM的架构下开展自己有关异构加速的实验。尤其是NVIDIA目前还在研究“丹佛计划”并设计自己的ARM CPU核心,再加上ARM本身对服务器市场尤其是低功耗服务器市场的虎视眈眈,使得NVIDIA的这个计划颇有面向未来的意味。

NVIDIA会继续推出基于Tegra K1的公版平板产品。或者基于Tegra K1的Shield游戏掌机也会到来,名称会叫做Shield K1吗?
NVIDIA会继续推出基于Tegra K1的公版平板产品。或者基于Tegra K1的Shield游戏掌机也会到来,名称会叫做Shield K1吗?

分享到:

用户评论

用户名:

密码: