登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Crayon

只想做自己

 
 
 

日志

 
 
 
 

各大SoC详细解析  

2011-12-06 01:58:27|  分类: 手机 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
     本人在SUMCO工作,制造手机芯片/PC CPU/GPU的TSMC / GF使用的四成以上的高纯度晶圆都由我们提供,剩下的4成是信越,剩下的是全球其他厂商,台湾人/ 阿拉伯人没有材料和设备制造这东西,他们只负责买来设备和材料后制造和封装
TSMC/ GF也是半导体行业某种程度上的富士康而已,在产业链的作用就是用于降低价格和成本
真正的芯片制造核心技术在美国人和日本人手里
    先展示一些我们的黄金晶圆
    首先是cpu部分,先发一组数据,芯片面积:
    猎户座4210-118mm2,
a5-110mm2,
tegra3-89mm2,
ti4430-69mm2,
tegra2-49mm2。
    猎户座的芯片面积最大,三星shi一样的soc能力比苹果强不了多少。芯片面积大带来的后果就是发热量非常不好控制,所以gs2区有很多人反应发热过高就是这个道理。就连四核的tegra3都会比猎户座好一些。ti4430排名第三,tegra2的芯片面积最小,因而发热量最小。
     刚才有人PM我说“芯片面积最小的晶体管数量也就最少”,,这个不一定吧
那是当然的,因为新一代手机芯片基本上都是GF或者TSMC的45纳米制造工艺,,芯片面积最小的晶体管数量也就最少,所需的驱动电压小,发热量自然最少,,,HD2的高通的8250用的65NM工艺晶体管更少芯片面积比上面的都还大,但那是09年的芯片了,现在是2011年
现在的32/30纳米/和稍后的28纳米工艺只用在PC用的CPU/GPU和SSD主控芯片和NAND闪存上,,这些东西对性能的需求是机其迫切和无止境的 ( 比如网站用的服务器 )
而个人用的手机芯片则相对不是那么迫切
    发热看完了看性能,正常来讲,芯片面积越大,性能越强。由于这几片处理器的cpu部分都是购买的armv7 cortax A9架构的授权,因此cpu架构基本是一致的,不同之处在于tegra2的内存通道控制器的位宽只有32bit,而且阉割了neon加速模块,所以在某些方面,例如软解flash和视频性能不强。其他几款cpu都拥有neon,内存位宽都为64bit(双通道和单通道的区别不是很大)(tegra3还是32bit,不过支持ddr3内存),因而在flash和视频的支持上更好。所以从解flash的体验上来看,四核带neon,外加3.1/2.4系统gpu硬解的tegra3最强,猎户座和ti4430的效能不相伯仲。视频解码上由于猎户座和ti4430解码时调用的都是neon,解码能力不会有太大区别。所以说到最后ti4430和猎户座的体验基本不相上下,一样非常流畅。不过ti4430的芯片面积比猎户座小太多了。因此发热量比起猎户座也会好很多。所以论cpu的综合素质,ti4430在双核a9里面是最优秀的,没有之一。
    再看gpu,ti4430使用的是超频版的sgx540,将原来的运行频率从200mhz提升至300mhz,当然性能提升没那么夸张,只有50%左右,不过已经强过了gefoce ulp了。power vr的gpu胜在兼容性最强,除了nv独占的游戏,所有的游戏都少不了它的数据包。而gs2上的mali400,虽然比超频版sgx540的性能还要强上大概50%,但是其支持的贴图格式单一,并且不兼容许多主流特效,造成了兼容性非常差,强大的性能反倒是转变成了发热量,并变成了累赘。所以在gpu上,ti4430在双核中也是综合素质最高的仅输于四核的tegra3。
    由于高通的8260集成了基带芯片,所以封装面积达到了出奇的196mm2。不过CPU面积大概和TI4430差不多大。由于蝎子核心的同频效能不如cortax A9核心,再加上由总线结构链接双核,以及每颗单独的256K二级缓存(双核A9统一是共享1M的)。所以除了对数据流处理的方面(例如上网速度)稍快,其他的方面同双核A9有着较大差距,主要体现在通用上。但由于其集成了neon,解flash能力和tegra2差不多,稍强一点点(流畅播优酷高清)。视频解码能力和tegra2也差不多,只是支持hp的1080P,不过同样对mkv封装格式无力。
再说GPU部分,这代的adreno220的性能还是非常强劲的,但是由于HTC使用了坑爹的qHD分辨率,导致GPU在渲染时要多渲染35%的像素,拖慢了adreno220的表现,所以在游戏测试中输给了2X。不过adreno220经过几代的发展,兼容性还是不错的。
   综合看以上的情况,德州仪器的处理器最强,英伟达次之,,三星处理器兼容性最差,而高通8260毫无疑问是最杯具的双核。
  过时手机CPU:
   目前市场上过时手机的Android手机使用的几大类CPU和不外乎三星的S5PC110 (下面简称C110),Ti的OMAP 3430(36X0),高通的Snapdragon 8X50(MSM 7230/MSM 8225)。
  Ti的OMAP 3430(L1 64KB,L2 256KB,支持256M DDR)是业界第一个运用ARM7 instruction set(ARM7指令集)的CPU,Ti叫它为Cortex A8(Ti完全采用ARM公司提供的构架,没有修改,所以推出产品的速度很快),正因为是第一个采用新构架的CPU,所以性能比原先的ARM 11构架的U提高很多,一般认为同频下ARM 7性能是ARM 11的200%(顺便对诺基亚目前的旗舰机还在使用600M左右的ARM 11构架的烂U表示无力,另外HTC早期的G1,G2,G3这些也使用ARM 11构架的CPU)。也正因为OMAP 3430推出的时间早,所以就目前而言,已经有些跟不上主流了,问问使用MS的童鞋在升级到Android 2.2之后在播放Flash遇到的问题就知道了,3430CPU最高就支持256M,不是Moto吝啬,没当初给你上个512M  RAM。
    OMAP 36X0(支持512M DDR2)和OMAP 3430的区别,就在于前者采用45NM制程,后者用的65NM制程,两个的构架都是Cortex A8,并没有区别。先进的制程带来的优点就是更高的频率和更小的耗电和发热。不过说到频率又要说Ti和Moto的不厚道了,Milestone2和Droid 2采用的OMAP 3630,设计频率是800M,硬是给超频到1G在卖,Droid 2国际版采用的OMAP 3640设计频率1G,也给超频到1.2G卖。虽说CPU这类产品本来就存在超频的余地,不过不按设计频率卖,总是让人不舒服的。
    OMAP 3430和后面的OMAP 36X0都集成了SGX 530的显示核心,不过因为Cortex A8在65NM时代,并控制不了功耗问题,所以Ti在控制OMAP 3430频率的同时,无耻的把SGX 530的频率也降低了(SGX 530设计频率是200Mhz, OMAP 3430里面的SGX 530频率只有110Mhz),这个也是为什么MS游戏跑不过3GS的原因之一,虽然两者的CPU硬件构架和规格都类似。
     另外雪上加霜的是Moto在采用OMAP 3430的时候,阉割了视频硬加速模块C64x+ DSP,导致的后果就是MS在播放视频的问题极度不给力,不要说720P,连高码率的480P在默认频率下都难以承受,因为MS没有完整的视频硬解芯片,要软解,一软解,默认频率又不够了。其实原本的OMAP 3430在有完整的C64x+ DSP的情况下,解720P视频是毫无压力,另外更加可悲的Milestone2和Droid X之类的OMAP 3630同样被阉割了DSP模块,视频同样需要软解。
   至于传说中MS游戏不错,这个是因为早期的游戏全部移植自IPhone平台,而IPhone硬件平台用的就是PowerVR  (IPhone 3G 用的MBX-Lite,3GS用的SGX 530,IPhone 4用的SGX 535),占了天大的便宜。不过随着采用高通CPU的机器越来越多,这个优势越来越不明显(两者显示核心的对比后面说)。
   接下来就是三星的C110(45NM L1 64KB,L2 512KB,支持512M DDR2),此CPU是目前Cortex A8构架中最强的CPU,没有之一,采用这个CPU的有三星自家的i9000,和传魅族M9。C110同样采用Cortex A8的构架,只是修改了芯片内部的核心的排布,减少了面积(苹果IPhone 4用的A4构架和C110差不多,但是简化了不需要的组件,另外把二级缓存提高到了640KB,提高了性能和减少了功耗)。
        另外C110集成了SGX 540,而且木有阉割DSP模块,I9000播放720P之类的视频是毫无压力、魅族前身就是做多媒体的同样无压力(自家做硬件就是好,成本节省很多啊,估计Moto阉割硬解模块也是成本的问题,顺便提一下,MS的FM模块也被Moto阉割了,缺少开关电路,所以不要奢望MS能用FM了)。所以下次不要再出现啥MS性能杀i9000、M9之类的笑话了,就算是MS的哥哥Milestone2遇到I9000也是手下败将。
      最后就是手机通讯和芯片业的地霸高通了,为啥叫地霸,因为人家手握CDMA,WCDMA专利,只要手机厂家生产了手机,就需要向高通缴费(就连国内忽悠的极度厉害的TD-SCDMA,也要乖乖的向高通交钱)。Snapdragon 8X50是高通出品基于ARM7构架,重新设计的CPU,实际性能比同频的Cortex A8微高,一般认为在5%左右。而且其功耗和发热控制的很好,1G的8250相当于600M的OMAP 3430,当然因为重新设计控制功耗,Snapdragon 8X50面世要比3430晚了半年多,直接导致了江湖上出现3430**高通全家的传言(当然这个流言目前还有一定程度上存在)。实际情况是Snapdragon 8X50(65NM L1 64KB L2 640KB 支持512M DDR),视频解码方面,内置DSP,支持720P的H.264硬解,其他格式没开放codec, 同样需要软解码。但是因为默认频率高,所以软解480P之类的视频毫无压力。另外Snapdragon 8X50集成Adreno 200 ,但是因为地霸高通同样没有给出codec,所以游戏厂家优化比较困难,不过目前高通意识到这个问题,已经逐步开放了Adreno 的开发文档,当然这里面有因为WP7统一采用高通平台的原因,微软的影响力那是极度给力的。可以预见以后,高通平台的游戏优化会越来越给力,而且目前高通版的游戏也已经出现了不少。
    MSM 7230/MSM 8225 (45NM L1 64KB L2 640KB 支持768M DDR2)是高通的升级U,类似于Ti的 OMAP 3630,不过比Ti厚道显示核心升级了,内置Adreno 205显示加速核心。至于坚持Ti U性能好的,可以去看看Desire Z和MS 2的测试成绩,800M的MSM 7230已经干翻 1G OMAP 3630了,更不要说Desire HD和mytouch 4G这种1G MSM 8225出马。另外同时代Ti的U能支持RAM总是那么可怜,最高只能支持512 M 的OMAP 36X0在Android 3.0时代会不会和现在的MS OMAP 3430一样蛋疼呢。
    最后给出上面涉及的图形芯片的处理能力:
        SGX 530 多边形生成率为1400万多边形/秒,像素填充率1.25亿/秒(因为OMAP 3430的SGX 530降频到110M),所以MS的处理能力只有770万,像素填充率6875万/秒.
       Adreno 200 多边形生成率为2200万多边形/秒,像素填充率1.3亿/秒.
       SGX 535 多边形生成率为2800万多边形/秒,像素填充率1.25亿/秒.
     SGX 540 多边形生成率为2800万多边形/秒,像素填充率2.5亿/秒.
        Adreno 205 多边形生成率为4100万多边形/秒,像素填充率2.45亿/秒.
       因为目前的手机虽然已经有了硬加速的显示核心,但是没有显存的(发热和功耗控制不了),需要共享系统RAM,所以会严重依赖RAM的速度,这也是为啥MS超频之后能同时拉高显示核心的分数,虽然使用相同的显示核心,Milestone2比MS给力,就是因为Milestone2用的DDR2(另外Milestone2的SGX 530恢复到200Mhz的默认频率).
      顺便给个掌机对比下 PSP 多边形生成率为3300万多边形/秒,像素填充率6.64亿/秒.(就因为PSP集成了4M的RERAM超高速缓存用着显存,所以目前游戏方面,手机完全不能比)。
      全球多媒体与通讯晶片厂商Imagination Technologies科技公司,日前(2010 年 12 月)宣布推出了旗下高性能绘图核心POWERVR SGX554,此完全多处理器矽智财(IP)将可供内嵌设计与行动应用。
此POWERVR SGX554产品可以设置成一款高性能的八管线单核心,或设定成二至十六核心(十六至一二八管线)的多重处理器(MP:multiprocessor)。
   这次推出的POWERVR SGX554系Imagination公司旗下POWERVR Series5XT系列产品家族的新成员,其使命是要为行动与嵌入式绘图应用带来更上一层楼的境界。
   SGX554提供了完全支援DirectX 9 Feature Level 3功能层级三的能力,并对此具备了最高的硬体加速性能,使得此产品非常适合运用在平板型电脑、运算装置,以及智慧型手机等领域。SGX554不仅传承了POWERVR SGX核心的所有功能与优点,更造就了业界重视的每平方厘米性能表现(performance per mm2)以及每毫瓦性能表现(performance per mW)等新指标。
    该公司行销副总裁Tony King-Smith指出:「此新推出的POWERVR Series5XT系列产品成员矽智财核心将可提供新层次的嵌入式绘图功能,SGX554将可让那些对於功耗和成本锱铢必较的嵌入式应用提升至更为豁达的境界。而透过我们所提供之无懈可击的应用程式介面(API),将可达成跨平台的支援,不论是各种常见的嵌入式作业系统还是桌上型产品的作业系统都是如此。附带一提的是,我们已经在DX9等级的产品上连续出货达三年了,出货量可说是以百万来计算,因此,SGX554将可延用我们在过去以来对於DX9驱动程式。这对於客户厂商来说,不仅能享受到更高的性能,还可以省去许多开发上的困扰。」
   此外,SGX554还提供了早已是桌上型产品市场的业界共识的OpenGL 2.1(包括整合了DRI2、EXA,以及支援DRM的X11)、OpenGL ES 1.1与2.0、OpenVG 1.1和OpenCL 1.1 Embedded Profile嵌入式规格等,对当今任何行动或嵌入式核心来说,此产品具备了最广泛的应用程式介面支援。
    至於在软体方面,POWERVR SGX的软体堆叠(software stacks)业已通过严苛的Khronos和Microsoft微软遵循测试(conformance tests),可确保产品在开发过程中能得以快速推出,并且能兼容并蓄地畅游在最广泛的嵌入式和桌上型作业系统环境中。举凡Linux、Android、MeeGo、Palm的WebOS、Nokia的Maemo和Symbian、Windows Mobile、Samsung的Bada,甚至是当今其他的作业系统之软体设定,都能让POWERVR SGX彰显其强大的功能。
    本产品隶属於POWERVR SGX Series5XT 绘图处理器(GPU:Graphics Processing Unit)矽智财核心家族,其功能诉求就是建立在过去以来具有显著性能且非常成功的Series5架构上,这也是早已应用在许多领域的SGX矽智财核心家族。所有的Series5XT SGX核心都是立基於第二代通用可阶层化渲染引擎(USSE2:second-generation Universal Scalable Shader Engine), 比起前一代的Series5 USSE渲染引擎,将可提供更为显著的处理吞吐能力,同时还拥有了更具架构延伸性的能力,不论是单核心还是可阶层化多重处理(MP)的解决方案,都以满足低功耗的二维与三维(2D、3D),甚至是一般用途(GP-GPU)的绘图处理要求。
   显卡了解Tegra2的Geforce ULP以及SGX Series5系列构架的基本特点,并且进行了采用上述构架的iPad,iPad2以及Xoom三者的基本3D性能测试,相信大家对这两款构架的基本3D性能和特点已经有了一个大致的概念。
本期探索与发现节目中,我们除了要深入Geforce ULP和SGX Series5的构架细节,了解他们的弱点和缺陷,针对3D及flash性能等其他移动设备敏感应用进行讨论之外,还会根据这些细节深入的探讨一些关于他们背后更加核心的问题,比如说——伴随着iPad2的发布,我们是不是正在踏进另外一个比特效画质更加惊悚的无底陷阱呢?
● 我能搞定Flash硬解……么?
    Flash拥有占用空间小、因为面向对象编程而产生的极大的使用便利性以及广泛的浏览器支持度等特点,因此被广泛的使用在在线播放器,嵌入式网页广告以及动画播放领域。现代网页上大量采用Flash动画,有时一个网页上甚至可能会同时出现大大小小十几个Flash窗口。
  Flash Player软件
  由于Flash大量采用Vector(向量数据)进行图像处理,因此对硬件的运算能力,尤其是向量吞吐能力有不小的压迫。acfun或者bilibili之类在线视频类网站所播放的视频允许通过Flash加载玩家评论,实现与视频同步播放的“弹幕”效果,这类对向量操作使用到极致的Flash应用经常会将台式电脑的CPU,甚至是I7都“逼疯掉”,难怪有好事的玩家会将很多弹幕密集的bilibili视频作为测试CPU性能的一种手段。
   bilibili截取下来的弹幕
   这种对向量性能的压榨即便放在桌面平台的通用处理器上都已经难以承受了,如果把它交给需要时刻注意功耗问题而不得不牺牲性能的SoC CPU,这可以说根本就是一个不可能完成的任务。因此,摆在手机及平板电脑面前唯一的选择,就是放弃通用性的原则,将这些向量运算任务交给专门的单元来完成。
  ● Tegra2的软肋
    采用Tegra2的诸多手机及平板电脑刚出现的时候,最让用户关心的便是这些平板电脑的Flash硬件加速性能。从NVIDIA公布的构架细节来看,Tegra2是拥有硬件加速Flash的能力的,异构设计的Geforce ULP将传统桌面Geforce构架的ROP单元进行了拆解,从中分离出了独立的可编程混合单元PBU(Programmable Blend Unit),通过他来完成硬件Flash加速的工作。由于安卓系统运行在JAVA Dalvik虚拟机环境下,NVIDIA甚至利用JAVA Dalvik先天的多线程优势为Flash应用开辟了独立的线程,这样Geforce ULP的异构构架可以更好的配合CPU,充分发挥并行处理能力。
  Tegra2的硬件Flash加速
  然而,在实际应用过程中,大部分用户发现使用Tegra2的手机和平板电脑产品都没有达到NVIDIA官方宣称的流畅无压力的硬解Flash水平,某些场合下Tegra2平台的手机似乎可以完美流畅播放甚至是bilibili弹幕级得Flash应用,但大多数时候采用Tegra2的手机和平板电脑在遇到多Flash应用时或多或少的都会存在拖帧等不流畅的问题。这是为什么呢?
   答案其实并不复杂——因为Flash player 10需要处理器提供支持neon指令集。
含有neon指令集的A8处理器
   neon指令集是ARM构架下的一组SIMD浮点指令集,主要用于Vector指令的并行吞吐及加速执行,简单地说neon就是ARM CPU的SSE指令集。根据Adobe及NVIDIA公布的细节,Flash的硬件加速需要CPU对Vector指令进行吞吐以及解析,在完成编码、滤镜、对象以及材质确定等基本风格处理之后才能交由Geforce ULP进行处理。如果没有neon指令集的加速,ARM CPU以纯通用处理的形式完成上述指令的吞吐不仅极其缓慢,而且会极大地增加系统的功耗。
   egra2的Flash处理流程
   不巧,Tegra2构架的Cortex A9处理器,忘记把neon指令集带在身上了。
   Flash Player10.2的要求
   失去了neon指令集的支持,不仅Flash的硬解会受到影响,其他需要大量Vector吞吐的场合,比如高清视频的播放等都会受到极大地影响,这使得Geforce ULP的异构设计所产生的优势被极大的削弱甚至完全抵消。PBU可以高效同时低耗的解决Flash加速问题,VDP和VEP芯片也可以很好的完成视频加速,但如果没有neon指令集,这些单元的特性基本上都无法得到完全的发挥。而一般用户并不知道也无需知道这些细节,他们只会埋怨NVIDIA没有提供最为优秀的产品,这使得Geforce ULP乃至整个Tegra2构架的最终性能都蒙上了一层阴影,  ● Imagination虽好,但光有“想象力”还不够
   neon指令集的缺失让Geforce ULP的最终性能受到了很大的影响,那么作为竞争对手的SGX Series5系列构架就完美无瑕无懈可击了么?显然不是。作为GPU构架,SGX Series5系列的缺陷不仅比Geforce ULP更加致命,而且甚至还可能会导致一场波及整个手机及平板电脑界得巨大灾厄。
   Z culling过程
   这还不是最恐怖的事情,更加惊悚的是,SGX Series5系列的缺陷,竟然就是Power VR构架最引以为傲的技术特色——TBDR。
TBDR技术说明
  TBDR全称Tile-based Deferred Rendering,它是Power VR独特的TBR技术的一种延伸实现手段。TBR/TBDR通过将每一帧画面划分成多个矩形区域,并对区域内的所有像素分别进行Z值检查,在任务进入渲染阶段之前就将被遮挡的不可见像素剔除掉。由于在渲染之前进行Z-culling操作,这种充满想象力的做法极大地,甚至可以说海量的削减了最终被渲染像素的数量,不仅大幅降低了系统对像素的处理压力,更极大的节约了显存带宽及空间的开销。
TBR技术对显存的节约
   Z Occalusion检测软件——VillageMark
  尽管TBDR不再像传统的TBR那样需要通过CPU来进行Z值检查,但是TBDR过程需要对画面内所有的像素进行一次“额外”的load过程,这个过程本身无论从哪个角度来讲都是与节约显存带宽背道而驰的,尤其是在复杂度极高但Z-Occlusion(Z闭塞)并不严重的场景中更是如此。另外,尽管对画面的矩形划分越细密,GPU对像素进行Z判断的效率和准确率越高,但TBDR过程对画面的矩形切割非常机械,这种划分经常会导致很多多边形和纹理被Tiles所切割,这些多边形和纹理都必须经过2次甚至4次读取才能保持自身形态的“完整”,这无疑加重了几何和纹理处理过程的负担。如果场景的多边形数量较多,这种切割还会导致scene buffer被快速的消耗殆尽,scene buffer的溢出会直接导致Z判断延迟的急剧增大,这对整个处理过程的影响是巨大的。
   割裂多变性过程
   通俗的说,TBDR需要在屏幕上画很多很多的小格子,然后把格子里的所有像素都拿出来做某种检查,没通过检查的“坏”像素就会被丢掉。尽管丢掉这些没通过检查的像素可以让后面的工作量减小,但这个检查本身对渲染没有任何意义,所以没有被丢掉的像素就相当于走了一遍无用的过场。与此同时,划分小格子的过程会切坏很多多边形和纹理,想要让这些多边形和纹理能够从“误伤”中幸存下来,你切了它们多少刀就要重新读取它们多少次。如果多边形本身就很多,被误伤的概率就更大,这会使得系统的某种缓存被快速消耗干净,缓存没了,系统干什么都不可能快得起来。
scene buffer溢出导致的错误图像
● 善恶树上的智慧果
  在这些环环相扣的问题的综合影响之下,拥有极高理论性能的SGX Series5系列在实际表现中却并不亮眼,我们上一篇探索与发现节目的测试环节实际上已经将问题表现出来了——尽管SGX543MP2拥有吞吐shader更加高效的USSE单元,4倍于Geforce ULP的理论性能以及双倍的显存带宽,但实际表现却远远未能达到这一数值,如果SGX543MP以单芯片的形式登场,最终的性能甚至可能会负于竞争对手。在大多数常规场合中,SGX Series5系列的理论性能都要除以一个2左右甚至是3的“景深系数”才能得到最终的真实性能,换句话说,正常情况下的SGX Series5系列只能表现出理论性能一半左右的实际性能。拥有如此强悍的理论性能以及更大的显存带宽的“能够节约显存带宽”的构架最终却只能有这样的表现,我想包括Imagination自己在内的大多数人此时此刻都不知道该用怎样的表情去面对了。
既然效率有问题,而且这种问题在短时间以内甚至可以说永远都没办法解决,那该怎么办呢?
神创造的伊甸园
  神在伊甸立了一个园子,使各样的树从园子的土里长出来,树华贵美丽,其上结满了可以作为食物的甘美果子,伊甸园中有一棵名为善恶树,所结的果实名为智慧果,智慧果可以让人与神一样获得智慧,神对伊甸园中的居民说,你们不可以吃这果子,它会为你们带来灾厄。
偷吃善恶树上的智慧果的夏娃
   一个名叫Imagination的孩子行走在伊甸园中,他想获得智慧,他看善恶树上的智慧果比其他果实都漂亮,也便没有多想,将智慧果摘了下来,但又畏惧神的话,因此不敢吃它。善恶树的名字,叫桌面领域,而这颗智慧果的名字,叫multi-core。
  SGX543MP构架
  从SGX543开始,SGX Series5系列系列构架均支持多核心并联扩展模式,以SGX543为例,它支持2至16核的弹性扩展,我们可以方便地将之理解成为桌面的SLI/CrossFire,这种方式会将所有流水线任务平均发放给扩展的每一个核心,已达到性能快速提升的目的。这么做看上去很美,通过简单的多核互联,我们能够轻松的获得更强劲的性能,TBDR纵使效率再差,也可以轻松的通过多核倍增的性能提升掩盖过去。但实际上呢?
   苹果A5处理器集成了SGX543MP2
   相对于移动领域来说,桌面领域的绝对性能以及性能增长速度一直都是甜美的诱惑,能够贴近摩尔定律的实现性能提升对任何应用来说都是梦寐以求的事情。但问题是移动领域的应用环境不同于桌面,我们曾经提到过,只要有电,桌面GPU不考虑成本甚至可以做到脸盆大,所以我们可以见到诸如HD6990或者GTX590之类的拥有惊人功耗的性能怪兽,但手机和平板电脑可以么?
   GTX590显卡
    因为设备体积以及电源的限制,手机及笔记本显示芯片显然需要极其小巧和低功耗的设计才能满足需求。通过简单粗暴的堆叠方式来进行性能延展,用桌面的方式去思考移动领域的问题,显然是很愚蠢的。依旧以SGX543MP2为例,这颗GPU的芯片面积甚至超过了Tegra2整颗SoC芯片面积的两倍。简单延展会导致构架最终向巨型化方向发展,在获得性能的同时彻底丧失体积以及功耗等SoC领域非常敏感的特性。换句话说,这种将桌面的思维和解决问题的方式盲目的引入到移动领域的做法,只能带来灾厄和诅咒。
    移动设备对功耗和体积的特殊要求
   不对啊,如果这种方式真的有错,那受到惩戒的自然是Imagination自己,手机及移动厂商又不是傻子,如果Imagination的产品有问题,不选它不就完了,它怎么可能是灾厄或者诅咒呢?
   ● iPad2释放的灾厄
   iPad2在硬件方面选择了SGX543MP2,这使得iPad2成了目前为止显示性能最强的平板电脑产品。在绝对3D性能方面,无论是呼声最高的Xoom还是其他已经发售的Tegra2产品都无法与之相提并论。
    凭借IOS的封闭性所带来的针对性极强的优化,Imagination长期在SoC领域积累的优秀的电源管理经验以及苹果对Flash不支持所带来的先天“优势”,iPad2不仅没有在常规应用中将SGX543MP2的芯片尺寸过大以及相对较高能耗的问题暴露出来,相反还经常能够在各种续航环境测试中击败经验并不丰富的NVIDIA。
   iPad2的待机性能非常强悍
   安卓平台为开放性而不得不采用的JAVA Dalvik虚拟机环境在这个时候也不失时机的跳出来拖NVIDIA的后腿,JAVA Dalvik虚拟机环境最大的特点就是其硬件无关性,这使得安卓系统能够最大限度的对各种形式的硬件进行兼容以保持其“完美的开放性”,当然代价也就是几乎所有硬件的性能都无法得到充分发挥。在非针对性的环境下,任何硬件都无法取得最高的性能功耗比,这进一步影响了NVIDIA在SoC GPU竞争中的表现,同时甚至还在一定程度上影响了采用安卓搭配Tegra2方案产品的用户体验度。
  JAVA Dalvik虚拟机环境
   绝对3D性能输,常规续航输,用户体验也赢不了,还因为自己的原因把至关重要的neon也落在家里了,尽管更小的芯片面积能够为NVIDIA带来更加丰厚的利润,但Tegra2在实际性能领域的表现肯定会对厂商的选择产生影响。如果NVIDIA想要获得更多厂商的青睐,或者说不想被清理出这个领域的话,它就只剩下一种表达方式可供选择了——愤怒的反击。
  ● 快看那几头红眼的公牛
  受了刺激的NVIDIA对包括Imagination在内的竞争对手们做出了最符合其锐意进取形象的回应——在公布的roadmap上,计划中的Tegra3拥有了极其恐怖的硬件规格。代号KAL-EL的Tegra3拥有4核心CPU,支持neon指令集,12ALU的GPU能够达到Geforce ULP性能的3倍,甚至可以输出最高至1920X1200的屏幕。这份充满了火药味的roadmap仿佛就是吹响的号角,NVIDIA希望通过Tegra3向所有竞争对手及厂商表明自己的态度——我的产品才是世界上最快的手机及平板电脑显示解决方案。
Tegra发展路线图
  而Imagination也不示弱,除了继续升级现有的SGX Series5系列构架,在NVIDIA面前摆出SGX544MP1~16以及SGX554MP1~16这些怪物级的多重互联芯片之外,还积极准备着下一代的SGX Series6系列构架,通过对TBDR以及USSE单元的进一步升级来扩大自己在理论性能方面的领先优势。Imagination的PDF显示,其未来USSE单元的浮点吞吐能力将两倍于现在的USSE2,而TBDR也通过结合复杂的分割管理改进等手段提升到了翻倍的水准。PDF同时还显示,Imagination在未来依旧会将multi-core和multi-thread作为发展的重要方向,换句话说,SGX6XXMP1~16这种怪物在未来依旧会充斥在市场上。
  SGX发展路线
  甚至连沉寂了一段时间的高通也通过新一代Adreno来凑一份热闹了,根据高通密集的roadmap显示,其28nm的Adreno 305将提供第一代Adreno六倍以上的性能,而四核版的Adreno 320更是能够将这一数值提升至15倍之多。尽管我们尚不知道新一代Adreno构架的具体细节,但从数字上来看,新一代Adreno构架将同样会是一个理论性能异常强劲的图形构架。
  恩,好样的,都去拼硬件了,移动GPU领域繁华锦簇,一片灿烂碰撞的火花,大家辛勤耕耘,各个都在挥汗如雨的用桌面领域的思维方式搞着移动图形构架。电没了骂电池厂商,骂完了没用就去骂fab,还没用就去骂物理学,最后还不忘指责一下系统不利,总之就是出了问题都是别人的错,跟自己完全无关。
  28nm ARM SoC晶圆
   “好吧,没有提供核动力电池是电池厂商的不对,没在2011年第二季度造出2nm的电路是fab的不对,没有为前面两位提供必要的理论依据和技术储备作支撑是物理学的原罪,我们知道错了,请你们诸位都消消气,麻烦你们先忍一忍,把用户体验度的问题解决一下吧。”
   “什么?用户体验度?那与我们有什么关系啊?我们只负责提供硬件啊。”
    你们提供的硬件不能提高用户的体验度,要你们有什么用!
● “是他逼我拼硬件的……”
  如果你要问这些GPU厂商,是什么导致他们如此简单粗暴的直接“用桌面的理论去解决移动领域的问题”,面面相觑的他们肯定会一脸无辜的告诉你——不是我们的错啊,是他们逼着我拼硬件的啊。
代号KAL-EL的Tegra3
   NVIDIA会说:“你看,我们推出的Gefroce ULP一点都不激进,甚至还采用了落后而陈旧的VS/PS分离构架,以及设计难度极高的异构思路,目的就是为了照顾手机和平板电脑特殊的体积和功耗需求。是我们的竞争对手主动挑起了事端,完全不顾移动领域的需求,用大得离谱的X2芯片来制造性能高出我们的产品很多的假象蒙骗消费者,我们是不得以才动用自己丰富的桌面显示技术储备来应战的啊。而且即便如此,我们的回应也是极其理性和克制的,我们使用了能够使用的最先进的半导体工艺,最大限度的压制了我们产品的性能以适应移动设备的体积和功耗要求,我们甚至还联合操作系统供应商推出了全新的改善用户体验的3D界面,3D界面啊!”
  Imagination公司logo
   Imagination则会说:“一切都是NVIDIA的错,是它首先裹挟着大量火力凶残的桌面3D显示技术,声势浩大的大举入侵手机及平板电脑领域的,不信你看Tegra1代的GPU,连调整都没有就直接放出来四处开炮了。再看它对Tegra2的宣传,那里面的Geforce ULP被说成了性能超越我们前代产品一大截的大规模杀伤性武器,我们出多核心高功耗的大芯片也是万般无奈啊。它来之前一切都很好,我们自家的SGX发展一直都很节制,充分照顾了移动设备的各种特殊需求,TBDR这种极度节约显存带宽和容量的技术就是明证。可是NVIDIA来了,并且气势汹汹的要吃掉我们,我们不得已才被迫放弃了自己的发展轨迹,转而跑去跟它在纯硬件规模领域血拼的啊。麻烦你转告NVIDIA,当年在桌面领域输给它也就算了,现在它竟然又跑到移动领域来找我们的麻烦,为了生存,我们一定会血战到底的,甚至推出个SGX745MP128也绝对在所不惜!”
夹在中间的安卓
   手机及平板电脑厂商则更加无奈:“它们各个都那么冲动,动不动就青筋暴起的跑到我们面前来让我们评评谁更强谁更快,现在甚至发展到了6个月就有新品,12个月就要换构架的地步。硬塞给我们的新GPU我们哪能不用啊,可是前一个明明挺好用的GPU我们都还没有吃透呢,这样子下去我们没办法针对硬件提供适当的优化,用户体验度不可能上升啊。求求你们快劝劝它们吧,别在那么冲动啦。”
      用户的利益成了皮球
皮球踢到最后,硬件厂商为了生存以及各自的利益拼命地推陈出新,制造商则因为高速的硬件更新换代而无法进行透彻深入的软件及系统性能优化,用户体验度的问题在诸多利益之下成了无关紧要的牺牲品。
[ 本帖最后由 sevennight1989 于 2011-8-4 16:24 编辑 ]
附件
(104.64 KB)

2011-8-4 15:55

ce02X3UdIszr6.png

(28.87 KB)

2011-8-4 15:55

ce4AXCoXXVpdk.jpg

(37.35 KB)

2011-8-4 15:55

ce4jRDIKRBzhc.jpg

(145.93 KB)

2011-8-4 15:55

ce61b9oQZ3M.gif

(29.82 KB)

2011-8-4 15:55

ceD9iwPVobhwM.jpg

(76.26 KB)

2011-8-4 15:55

cedAGqgwHCU2.jpg

(42.45 KB)

2011-8-4 15:55

cedZvQSQrf9w.png

(59.27 KB)

2011-8-4 15:55

ceEdIUNyV9pgM.jpg

(61.16 KB)

2011-8-4 15:55

ceehibW7WZUeY.jpg

(27.39 KB)

2011-8-4 15:55

ceFGmb7Wpz0jU.jpg

(47.78 KB)

2011-8-4 15:55

ceh8BopXefls.jpg

(105.64 KB)

2011-8-4 15:55

cehykCElzUR6.png

(33.48 KB)

2011-8-4 15:55

ceKeTiKzGnQIA.png

(59.99 KB)

2011-8-4 15:55

cekpBSTH7nKk.jpg

(27.25 KB)

2011-8-4 15:55

ceL8UbLRIxNOU.jpg

(99.72 KB)

2011-8-4 15:55

ceLE3WI5hpsak.jpg

(19.75 KB)

2011-8-4 15:55

ceLE3WI5hpsak飞.jpg

(51.9 KB)

2011-8-4 15:55

ceN0KOGXk9KdU.jpg

(51.15 KB)

2011-8-4 15:55

ceOiPOxTKkMLc.jpg


  评论这张
 
阅读(1025)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018