MCPLive > 杂志文章 > 看新一代智能嵌入式GPU混战

看新一代智能嵌入式GPU混战

2012-11-07张健浪《微型计算机》2012年10月下

从某种意义上说,人们对智能手机平台的关注度已经超过了传统PC,相比于PC的乏善可陈,智能手机的更新换代往往更令人兴奋。更快的CPU带来更流畅的应用体验,而更强大的图形处理能力则意味着视觉效果的显著升级,厂商之间的竞争也日趋激烈。

与PC市场只有Intel和AMD独舞的情况不同,移动终端拥有大量的方案厂商。尽管它们的解决方案同属于ARM架构,但经过二次开发和整合之后,大多具有鲜明的个性风采。尤其是在图形领域,智能平台厂商拥有更充分的发挥空间。

低功耗是智能手机的首要要求,所以无论CPU还是GPU的开发,都必须在超低功耗的指标下达成。智能GPU过去一直停留在传统的顶点、像素分离式渲染架构上,直到新一代产品中,我们才有机会看到统一渲染架构的大范围引入,这也给予智能GPU更强的通用编程能力,对于软件开发者而言是一项重要的解放。

ARM平台的图形解决方案可以分为ARM Mali、NVIDIA Tegra、Imagination PowerVR、高通Adreno等四个体系,其中ARM Mali和Imagination 的PowerVR均属于授权的性质,三星Exynos平台便采用Mali,而苹果的A5/A6智能平台则隶属于PowerVR体系。

一、ARM Mali-T600

ARM是智能平台的高统治者,它以开放式授权的方式创建了庞大的ARM帝国,并牢牢统治了市场。不过ARM除了开发CPU内核以外,还在数年前介入了图形领域,开发出Mali系列GPU用于授权,这样ARM就能够对客户提供了一套完整的智能平台方案。

Mali-T600产品线划分
Mali-T600产品线划分

Mali初是改进来自Falanx公司研发的显示芯片,经过Mali-200、Mali-300和Mali-400的升级,累计发展了三代。在2010年之前,Mali的应用范围却非常有限,PowerVR内核是这个领域的绝对主宰者,直到2010年初Mali-400发布后获得三星公司的采用,借三星之力跻身于智能GPU市场,其表现相当出众。三星在今年发布的GALAXY S Ⅲ大获成功,其所采用的Exynos 4412处理器给出了跑分成绩,它的图形性能超过现有的GPU,给业界留下深刻的印象,而这款产品采用的是四核心的Mali-400 GPU。

Mali-T600系列拥有极富弹性扩展的结构
Mali-T600系列拥有极富弹性扩展的结构

今年8月初,ARM接着发布了新一代GPU产品:第二代Mali-T600系列,它也是ARM第一款基于统一渲染架构的图形处理器,高达50%的性能提升令外界高度注意,也引起了NVIDIA、苹果等竞争对手的紧张。第二代Mali-T600系列的开发代号为“Midgard”,它由低到高型号分别是:T624、T628和T678三个型号,其中前两款主要面向智能手机、智能电视应用,T678则主要用于平板电脑市场,可满足计算摄影、多视角透视、增强现实等应用,属于二代T600系列中的高端产品。

旗舰Mali-T678的核心部署
旗舰Mali-T678的核心部署

Mali-T600系列的所有型号,在技术架构方面都完全相同,每个核心的基本结构都为:任务管理器、渲染核心、内存控制器、缓存单元和AMBA4总线接口。不同型号的区别主要在于核心的数量和缓存配置方面。其中,T624为基础型号,多可配置4个核心。T628则可部署8个核心,每个核心包括两个ALU(算术逻辑单元)、一个LSU(本地存储单元)和一个纹理单元,它的图形性能也相当于T624的两倍。

高端版本的T678同样也是基于相同的基础,核心数量多可达到8个,但每个核心的ALU数量提升到4个,因此其计算性能便能达到T624的四倍之多!T678主要针对平板电脑市场,较高的计算能力令其在负载较高的平板应用中游刃有余。

按照计划,第一代T600系列中的T601和T604等型号有望在今年年底出台,而第二代的T624、T628和T678则可能在明年年底出货,届时我们将会在三星的下一代智能手机和平板产品中见到它们的身影。

二、PowerVR:5系列与6系列

在智能GPU市场中,Imagination公司的PowerVR系列占据超过50%的市场份额,是当之无愧的霸主。作为一款长久专注于低功耗的GPU产品,PowerVR以其优良口碑获得广泛的应用,在ARM的Mali壮大以前,PowerVR可以说是横行天下。

PowerVR 5系列与GeForce的性能对比
PowerVR 5系列与GeForce的性能对比

到目前为止,PowerVR在智能GPU领域已发展了五代之多,近的产品线便是被广泛采用的PowerVR SGX5XT——它包括530/535/540/543/544等多个型号,其中性能强的当属今年初发布的544系列。

PowerVR SGX5XT图形核心的逻辑架构
PowerVR SGX5XT图形核心的逻辑架构

在基本架构方面,PowerVR SGX5XT其实仍然隶属于顶点、像素分离式渲染架构,这种架构较为传统、通用计算方面较为薄弱。优点是低能耗保证以及不错的效能,所以该系列产品多只能支持到DirectX 9 API,当然至于OpenGL 2.1,OpenGL ES 1.1/2.0,OpenGV 1.1和OpenCL 1.1这些应用API的支持倒是一应俱全。

若与上一代GPU对比,我们不难发现PowerVR SGX 5XT中的很多型号都有一个MP1-16的后缀,比如iPad 2采用的就是SGX543 MP2——这里的MP其实是Multi Processor多处理器的缩写。从SGX543型号开始,PowerVR便支持这项类似于桌面SLI/Cross Fire交火的多核弹性扩展能力,借助这种多核心的并联,达到性能翻番的目的。

分离式渲染架构一个被人诟病的缺点是,顶点单元(Vertex Shader)和像素单元(Pixel Shader)的吞吐率会存在差异。为了弥补这一点,PowerVR SGX5XT中导入了可编程的USSE单元,借助USSE,顶点和像素单元的吞吐率可以达到平衡,达到提升协作效率的效果。

PowerVR SGX5XT中还可以支持一项名为TBDR的关键技术,它主要为节约显存带宽而设计。TBDR全称为Tile-based Deferred Rendering,它的原理是将每一帧画面划分成多个矩形区域,并对区域内的所有像素分别进行Z值检查,如果发现哪些像素是终不可见的,那么就在进入渲染之前就将其剔除掉。这项机制海量地削减了终被渲染的像素数量,大幅度降低了系统对像素的处理压力,也节约了显存带宽和空间开销,客观上达到大幅度提升性能的目的。当然,类似的技术很早就出现在桌面GPU中。

在现行的各个型号中,性能强的当属双核版SGX544MP2,它的三角形填充速率达到1.7亿个每秒,压过了四核心SGX543MP4的1.3亿个。它也就是苹果在iPad2、iPhone 4S所搭载的GPU内核,SGX544MP2也因此备受期待。德州仪器在OMAP5智能平台中率先整合了这款GPU,不出意外的话,我们也有机会在下半年见到相关产品面市。

与此同时,新一代的PowerVR 6系列也浮出水面。在今年1月份的CES大展上,Imagination公开发布了全新一代PowerVR Series6系列GPU图形核心的首批产品,包括“PowerVR G6200”、“PowerVR G6400”两款型号。

PowerVR 6系列的技术特性相当先进,它将采用统一渲染架构,支持正在开发中的OpenGL ES “Halti” API——也就是OpenGL ES 3.0(暂定名);DirectX方面全部支持DirectX 10特定型号可以扩展做到完全的DirectX 11.1 WHQL兼容。而这一点只有现在的AMD Radeon HD7000系列和Intel Haswell能做到。通过计算,PowerVR 6支持新的OpenCL API,可为通用加速应用提供便利。

不过,Imagination没有详细披露PowerVR G6200、G6400的具体规格,我们仅知道前者拥有两个“计算阵列”(Compute Clusters),后者则拥有四个阵列,但更确切的流处理器数量就不得而知了。

Imagination表示,PowerVR 6其以每平方毫米/每毫瓦GF LOPS性能将处于无可匹敌的地位。而根据意法爱立信今年2月在MWC大会上公布的Nova A9600 SoC规格数据来看,它所搭载的PowerVR 6 GPU每秒钟可生成3.5亿个“真实多边形”,这一性能相当于当前旗舰SGX544MP2的两倍,相信这样的表现足够令人满意。而PowreVR 6的架构设计弹性非常强,它的高性能将突破1TFlops的浮点计算能力,这基本上是桌面显卡的实力,而这也意味着PowerVR 6将会拥有非常广阔的发展空间。

为了帮助下游厂商平滑过渡到新架构,PowerVR 6将会对现在的PowerVR 5系列保持向下兼容。当然现在的5系列也不会消亡,毕竟它有着广泛的用户基础、应用非常成熟,预计在较长的时间内这两者将会共存于市场。

PowerVR 6系列内核已经开始开放授权,首发支持者除了意法爱立信外,还有德州仪器、联发科、瑞萨电子(Renesas)以及其他两家匿名的厂商,其中瑞萨电子的产品主要应用在车载导航平台等领域。苹果公司长期以来都是PowerVR的大客户,它显然是两家匿名厂商的其中之一。不过由于Imagination公司自身并不制造任何产品,PowerVR 6产品的实际上市时间就会晚一些,早我们将在2013年看到初期版本面市。

三、NVIDIA Tegra 4:弯道大超越

NVIDIA Tegra 3以创造性的弹性多核设计为外界所瞩目,但它的实际性能表现却无法与新技术划上等号。除了CPU性能表现平平,图形性能的表现也非常一般,被众多竞争对手甩在后面。其原因在于它所采用的GeForce ULP GPU架构老化,而这一点也将在新一代Tegra 4中得到根本性的改观。

德州仪器OMA P4470处理器,集成了SGX544图形核心。
德州仪器OMA P4470处理器,集成了SGX544图形核心。

首先,我们来看GeForce ULP,它仍然基于顶点、像素分离式渲染架构,其中顶点渲染单元数量为4个,像素单元为8个,总计拥有12个ALU,支持PhysX、CUDA等高级特效。以NVIDIA一流的图形技术水平来说,GeForce ULP在这方面数一数二貌似没有什么问题,但实际结果却令人大跌眼镜。在各项测试中,基于Tegra 3的智能平台在图形性能方面都大幅落后于搭载PowerVR SGX543MP4 GPU的iPad 2和iPhone 4S,业界因此大失所望,Tegra 3的市场表现也因此未能达到预期。

Tegra 3拥有先进的技术理念,但实际表现难如人意,孱弱的图形性能更是其致命伤。
Tegra 3拥有先进的技术理念,但实际表现难如人意,孱弱的图形性能更是其致命伤。

NVIDIA计划在2013年初推出代号为“Wayne”新一代Tegra 4,除了CPU部分将改用高效率的Cortex A15核心外,GPU也将迎来跨越式的更新换代。Tegra 4将采用新的Kepler技术架构,每个Tegra 4集成64个CUDA内核,GPU核心频率在500MHz左右。在NVIDIA内部进行的理论测试中,Tegra 4表现出压倒性的性能优势,其图形性能比高通现有的APQ8064(Adreno 225)要高出6倍之多!也比德州仪器的OMAP5高出约4倍,后者搭载的是PowerVR当前强劲的SGX544 MP2核心。再加上NVIDIA自身的图形领域综合优势,例如CUDA通用计算、PhysX物理加速等功能都在业界领先并且被广泛支持,对于新一代API的支持总是非常到位,很明显,这一次PowerVR6和ARM-T600都将面对强劲的对手。

NVIDIA正在进行一场全面转向ARM的布局,除了面向智能手机和平板的Tegra产品线,同时也正在开发面向桌面电脑和笔记本的“Danver”工程,以及面向服务器市场的高性能“Boulder”工程。而Tegra将直接采用ARM的CPU核心,但后两者则由NVIDIA独立开发,并与NVIDIA自身的高性能GPU紧密结合,以合力打造面向未来的计算平台。对Tegra而言,上述工程也将起到反哺的作用。

四、前瞻

与ARM、Imagination、NVIDIA三者进行对比,高通公司在图形系统的升级方面慢了一拍,刚推出不久的骁龙S4处理器搭载了自家的Adreno 320 GPU。虽然图形性能比自己前代产品提升了三倍,综合表现也在当前产品中较为抢眼,但Adreno 320本质上仍属于上一代技术体系,性能还不如iPad2的SGX543MP4,API方面高也只是支持到DirectX 9.3。至于高通的下一代GPU产品,恐怕要等到2014年以后,要被竞争对手拉开很长距离。

我们将在2013年看到智能平台的全面升级,新一代产品将纷纷涌现,这赋予了智能手机和平板电脑更强大的计算能力,进而带来掌上应用的全面升华。无论你是否愿意接受,PC唱主角的时代开始慢慢过去,智能手机与平板电脑将成为新时代的主角。

分享到:

用户评论

用户名:

密码: