Tegra4 GPU分析测试——末代GeForce ULP给力否

高通吧

阅读

  感谢文章作者ioncannon,该文章仅代表作者观点,不代表安兔兔官方态度。

  首先介绍下架构:

  简单看,T4的GPU在shader上,是Tegra3的6倍扩充,依旧采用分离的shader渲染架构,并且vertex shader和pixel shader数目保持在1:2。总的来说,就是6个VLIW4 (128bit) 顶点ALU,加上12个VLIW4(80bit)像素ALU单元。但是pixel shader部分的ALU组织采用了3-deep的形式,这个3-deep具体会咋样,我们看下面的测试。

  

 

  

 

  

 

  算是频率的提升,T4相比T3,shader性能达到了原来的8倍。像素和纹理填充率是原来的2.6倍。三角形生产率的部分则完全来自频率提升的贡献。T4i的话,规格上进一步缩水,并且VS和PS比例也不再是1:2了

  

 

  

 

  老黄偷偷把对比的T3换成了416MHz的版本。包括pixel fillrate和texel fillrate的部分,全部来自频率提升的贡献。

  

 

  shader性能看上去还是挺高

  实测的像素填充率、纹理填充率和三角形生成率

  

 

  

 

  填充率方面,相比T3的提升还是很明显的,但是考虑到频率优势,全部归一化到500MHz时,可以发现T4在像素和纹理填充率方面,基本是T3的2倍。当然,在像素填充率的测试中,Adreno 320确实能到3000M,接近3200M的理论值

  但Adreno 320的纹理填充率,实测只有像素填充率的一半,比T4和高频Mali-400 MP4都低!虽然官方说纹理填充率也是3200M(每周期8个像素或者纹理),但估计有问题。个人感觉320的render backend确实能输出8像素/周期,但TMU还是只有4个。

  

 

  三角形生成率测试:

  请注意,三角形的setup性能跟vertex shader并没有直接关系……

  

 

  尽管T4的vertex shader比起T3扩充了6倍,但三角形生成的能力,在同频下是一样的。当然我们可以看到,Mali-400是很弱的,即使跑600MHz,三角形生成率实际也只有10M——对于一个每帧画面0.6M顶点的跑分测试,Mali是无论如何都到不了20FPS的——在顶点成为瓶颈的时候,720p onscreen和1080p offscreen就无所谓了—— 这就是GLbenchamrk 2.5/2.7里的现象。

  Vertex shader性能测试

  以下测试为 每个顶点4、8、16 ... 128个Vec4计算

  测试顶点输出数量,单位为M

  

 

 

 

 

  

 

  很明显,T4同频是顶点shader性能是T3的6倍——还是很强劲的,至于Mali-400,同频下的vertex shader性能只有Tegra3的一半:既然T3的顶点是1个vec4, 那我们只能认为,Mali-400的GP的顶点ALU,是个vec2的(64bit)。所以Anandtech是对的Mali的像素部分是vec4,而顶点部分只有vec2。

  注意T4和Adreno 320曲线前面的平台,是因为Vertex shader的计算能力超出了三角形生成率,所以在计算量比较小的时候,基本是由三角形生成率来决定到底能输出多少三角形。只有当计算量较大时,vertex shader计算才会成为三角形输出的瓶颈

  当然,Mali-400无论是三角形生成率,还是vertex shader计算能力,都很弱!

  Fragment shader计算能力

  每个pixel使用1、2、3、...128的Vec4 计算,计算量逐渐增加,精度为FP16 (mediump)

  Adreno 320还使用了highp精度(FP32)

  而Tegra、Mali-400都不支持FP32, 所以不测试(用FP32测试会发现不管计算量多大,输出都是最大值——完全没算!

  

 

  

 

  画成对数坐标后容易看

  

 

  很神奇的是,Tegra4 在1-3个vec4计算/像素,其输出能力是一样的。4-6个也是一样,没有下降——(曲线上的平台)。换句话说,这个3-deep ALU,在同一条pipeline里,只能为同一个像素的计算服务。这样效率似乎并不是很高……

  同样,基本可以看到到,FP16下,adreno 320的shader输出性能是FP32的2倍……都算到1GHz的频率下

  

 

  T4的同频性能基本也是T3的6倍

  

 

  最后,我们根据这次的实测值,计算下这几个GPU的实际输出shader计算能力,并且跟理论值比较下

  

 

  统一渲染架构加上scalar shader(实际VLIW)的Adreno 320符合的还是比较好的。

  Tegra系列也还算接近,打八折吧。总的来说,Tegra4我觉得表现一般……shield满血风扇核弹都只有这样平淡的表现,还是720p屏幕,很难想象手机里的Tegra4带1080p屏幕会是啥表现——

  能比现在的S600 Adreno 320+ 1080p好多少?至于Adreno 330和Mali-T628 MP6,我想是打不过的。

原创文章,作者:hejie,如若转载,请注明出处:http://www.antutu.com/doc/106035.htm

相关推荐

登录后才能评论

评论列表 ( 条)

返回
顶部