AMD、Intel峰值浮點(diǎn)性能大戰(zhàn)
AMD和Intel一向都是性能的佼佼者,Kaveri APU帶來(lái)了推土機(jī)架構(gòu)的第三個(gè)版本“壓路機(jī)”,而眼瞅著FX、Opteron系列更新無(wú)望,APU更是極有可能成為這一架構(gòu)的唯一用武之地。那么,它的理論性能如何?所搭配的GCN GPU又是怎樣呢?下面就讓小編為您解答。
AMD、Intel峰值浮點(diǎn)性能大戰(zhàn):
一個(gè)問(wèn)題是,現(xiàn)在的CPU、GPU都支持動(dòng)態(tài)加速,很難確定峰值計(jì)算時(shí)的確切頻率。本文中CPU使用基準(zhǔn)頻率,GPU則是加速頻率,因?yàn)樵诙嗑€程、異構(gòu)計(jì)算中,CPU不太可能加速。如果有需要,你也可以根據(jù)本文的結(jié)論推算出自己所需要頻率下的相應(yīng)性能。
GPU方面最新得到官方確認(rèn)的是,Kaveri APU fp64雙精度的性能是fp32單精度的16/1,與主流的GCN架構(gòu)顯卡相同(HD7900及其上是1/4)。
CPU峰值性能取決于代碼編寫、編譯的SIMD指令集架構(gòu),這里考慮三種:SSE、AVX、AVX FMA(FMA3/FMA4)。
Intel在架構(gòu)設(shè)計(jì)上的領(lǐng)先凸顯無(wú)疑,各項(xiàng)指標(biāo)都完秒,Haswell更是優(yōu)化AVX、FMA指令集代碼的首選。
Trinity/Kaveri里的推土機(jī)架構(gòu)是兩個(gè)整數(shù)單元共享一個(gè)浮點(diǎn)單元,自然很吃虧,SSE性能甚至還不如K10老架構(gòu)的Llano,但是后者不支持AVX。
GPU峰值性能考慮了Haswell GT2、GT3e兩種核顯,后者集成了128MB嵌入式緩存,兼具四級(jí)緩存的作用。
GPU fp64的支持其實(shí)有點(diǎn)混亂,因?yàn)椴糠諫PU盡在部分API下才支持它。Intel GPU fp64的比例沒(méi)有官方公布,估計(jì)是fp16 1/4,但是Intel只在DirectCompute API下才能實(shí)現(xiàn)fp64,OpenCL下完全不行。
AMD Trinity/Richland APU更亂,OpenCL fp64的支持不符合標(biāo)準(zhǔn)規(guī)范,而是使用了私有的擴(kuò)展cl_amd_fp64,DirectCompute/MS C++ AMP下似乎也不支持fp64。
Kaveri就好多了,所有API下都標(biāo)準(zhǔn)支持fp64,是所有集顯方案中最齊全的,美中不足的就是Direct3D fp64還不如Haswell,跟獨(dú)立顯卡的差距自然也很大,但是它擁有獨(dú)特的HSA異構(gòu)系統(tǒng)架構(gòu),非常適合CPU+GPU聯(lián)合加速的應(yīng)用。
Kaveri fp64性能其實(shí)并不太好,CPU、GPU加起來(lái)也才大約110GFlops,因此做一般的加速計(jì)算還可以,特別是fp32異構(gòu)應(yīng)用超越Haswell GT2、Ivy Bridge,但是高性能應(yīng)用上不夠。
GT3e Iris Pro也有不少亮點(diǎn),特別是有強(qiáng)大的CPU輔助,比較適合Windows 8 C++ AMP的開(kāi)發(fā),但缺點(diǎn)是Linux系統(tǒng)下現(xiàn)在不支持OpenCL,驅(qū)動(dòng)還在開(kāi)發(fā)。
簡(jiǎn)單地說(shuō),Kaveri規(guī)格全面,性能均衡,Haswell部分突出,但有缺失。