比肩10代酷睿 探究“龙芯6000”真实性能

比肩10代酷睿 探究“龙芯6000”真实性能

Embed below code to your site

  日前,龙芯在官方微信发文称,新一代四核处理器龙芯3A6000流片成功,龙芯3A6000处理器总体性能与Intel公司2020年上市的第10代酷睿四核处理器相当。

  之后,有媒体对龙芯3A6000处理器提出质疑,比如未公布对标的英特尔处理器的相关数据,又比如使用SPEC CPU 2006,而非SPEC CPU 2017。另外,该文还对铁流以往文章断章取义,并以“截至发稿,该公司市值在400亿左右,相较4月份市场炒作AI算力时,已经接近腰斩”作为文章开头。言下之意已经非常明显,那就对龙芯3A6000持怀疑态度,甚至是否定性评价。

  铁流认为,龙芯3A6000是一款具有里程碑意义的处理器,个别媒体在没有实测数据的情况下胡乱猜疑,是非常值得商榷的。

龙芯3A6000与英特尔处理器实测数据对比

  由于英特尔处理器市场占有率大,网上公开测试数据很多,铁流搬运几个英特尔10代酷睿处理器SEPC2006测试成绩。SEPC测试12项定点程序和14项浮点程序,这26项程序都是很常规基础的,比较有代表性,所以用来评定CPU性能。

  测试的10代酷睿是i5-10400,测试用的操作系统是Fedora 38,编译器是gcc 13.1.1,C库是glibc 2.37。CPU自动睿频,编译器优化选项只开O2,测试成绩(base):单线程整数46.1,单线程浮点46.1;8线程整数147,8线程浮点126。由于i5-10400是6核心12线程,这里的8线程分数是通过numactl绑定前8个线程测试出来。

  从这个成绩可以看出,同样是base分值,i5-10400的整数性能比3A6000高3分,龙芯3A6000的浮点性能比i5-10400高8.5分,可以说单核性能各有千秋。在测试8线程的情况下,多线程性能则是龙芯更强。这里说明以下,I5-10400的编译器是gcc 13.1.1,龙芯用的是gcc8.3,在编译器上英特尔已经占便宜了。

  由于10代I3和龙芯一样是四核CPU,铁流就用i3-10100F与3A6000作对比。

height="274" align="" border="0"/>

  从数据对比中可以看出,龙芯3A6000比使用H510M主板,双2666内存,原装散热的i3-10100F要略强,只有在加强散热后,i3-10100F把主频提到4Ghz以上,才能在性能上超过主频为2.5Ghz的龙芯3A6000。

  一般情况下,玩家会给I7、I9加强散热,但I3这个级别的CPU往往用原装散热,龙芯在以往的PPT中称3A6000处理器可以对标英特尔10代I3,这完完全全是大实话。

  考虑到龙芯的GCC编译器和X86处理器的GCC编译器有差距,不少应用的动态指令数明显比X86偏高,未来龙芯加强软件建设,进一步优化GCC编译器,3A6000处理器的测试成绩还有一定提升空间。

  我们再来看Steam测试,这项测试主要考验访存性能,下图是i3-10100F的8线程成绩。

  上图是龙芯的成绩,从中可以看出,龙芯3A6000处理器在8线程数据带宽上全面优于i3-10100F,事实上,龙芯3A6000处理器4线程的各项数据带宽比i3-10100F 8线程高了10000MB/S以上。

  龙芯3A6000处理器4线程数据带宽比龙芯8线程的成绩更高,主要是因为更多线程访存通路冲突更厉害,导致局部性不好,下一代的3B6000只要增大缓存,访存性能会有立竿见影的提升。

  总的来说,龙芯3A6000处理器对标10代I3,或对标10代酷睿四核处理器已经是比较谦虚的措辞了,只不过很多媒体不自信,或者是潜意识中敌视自主技术,总是用有色眼镜看待龙芯。

IPC追平12代酷睿 单核性能追平10代酷睿

  在龙芯以往的宣传中,由于在IPC和主频上与英特尔都有差距,其中,IPC的差距相对小一些,因而龙芯往往用同主频性能追平英特尔的某款处理器的方式进行宣传。

  比如龙芯3A3000是同主频追平英特尔第一代酷睿,3A4000是同主频追平AMD第一代锐龙......这种宣传方式一方面是龙芯“扬长避短”,另一方面也是龙芯依靠设计能力提升CPU性能的最佳体现(主频提升很大程度依靠制造工艺)。

  不过,到了3A6000,由于同主频性能这个长版实在是太卓越了——IPC达到了定点17/G,浮点22/G,这个成绩已经追平英特尔12代酷睿。英特尔10代酷睿的IPC是见下表。

  从测试来看,由于存在边际效应,IPC会随着主频提升而下降,我们以2.5Ghz主频下的IPC数据为准,这也是龙芯3A6000的主频,方便对两者进行比较。在2.5Ghz主频下,i3-10100F的测试结果为定点12.4/G,浮点15.12/G。

  由于在IPC上龙芯相对于10代酷睿有明显优势,导致2.5Ghz的3A6000性能上优于3.5Ghz的主频的i3-10100F。即便是4Ghz主频的i3-10100F比2.5Ghz主频的龙芯3A6000也只是略占优势,定点比龙芯高6.9%,浮点比龙芯高5.5%。考虑到英特尔在编译器上占便宜,从裸CPU纯硬件的角度看,可以认为2.5Ghz的3A6000与4Ghz的i3-10100F是同一档次的CPU。

  个别媒体对铁流同主频性能追平12代酷睿的说法断章取义,并移花接木,认为龙芯3A6000只是同主频追平10代酷睿,明显是在混淆概念,强行贬低龙芯取得的进步。

  媒体抨击龙芯主频只有英特尔一半,这其实有点找茬的嫌疑,事实上,英特尔大部分CPU的主频基本在3Ghz至4+Ghz,5Ghz主频CPU功耗会非常高,基本是要上液冷了,属于发烧友的玩物,不具备普适性。诚然,14代酷睿普及之后,会有大量5Ghz主频的处理器,但就市场存量而言,几年内,3Ghz至4+Ghz依然是主流。

  另外,使用SPEC CPU 2006这款测试软件,而不是SPEC CPU 2017,也成为媒体质疑龙芯的攻击点,铁流认为,这纯属故意找茬了。

  SPEC CPU 2017测试项目比SPEC CPU 2006要多,测试项目是增加了,也确实存在差异,两者的成绩没有固定的换算比例,多任务测试和单任务测试的测试项目也有区别,单任务的 thread-1 和 多任务的 rate-1成绩也不等同,但最终结果上基本大同小异,SPEC CPU 2006测试表现好的CPU,在SPEC CPU 2017表现也好,反之亦然。

  用数据说话,从下表来看,SPEC CPU 2006测试较高的龙芯和海光,SPEC CPU 2017测试的成绩也比较高。

  之所以用龙芯3A5000来测试,是因为龙芯3A5000在电商平台很容易买到,好买好测。而3A6000目前只在龙芯的合作伙伴手里有。

  注意,龙芯3A5000是上一代CPU,在性能上只是略逊色于海光,3A6000相对于3A5000又提升60%,堪称国产CPU的标杆。有鉴于龙芯可以在电商平台以相对低廉的价格购买(3A5000,16G+512G,活动价2399元),再过几个月,爱好者可以用SPEC CPU 2017实测3A6000。

龙芯3A6000是里程碑

  从这几年的实践来看,比较成功的模式有两种:

  一种是龙芯模式,走自主路线,指令集、核心IP全部自主研发,一步一个脚印,购买境内成熟工艺,依靠自身的设计能力提升芯片性能;

  另一种是引进ARM模式,走技术引进路线,购买ARM最强IP,购买台积电尖端工艺设计手机SoC,通过融入国际产业链取得商业上的成功。

  龙芯模式的优点是自主性高、省钱、锻炼人、后劲足,不依赖国外IP和台积电尖端工艺,缺点是前中期发展慢,商业推广困难,软件生态建设难。

  引进ARM模式的优点是商业推广容易,前期就能依靠技术引进达到国际一流水平,可以使用ARM成熟生态,缺点是对资金需求大,且设计上依赖ARM的IP,制造上依赖台积电尖端工艺,当国际局势风平浪静的时候,引进ARM模式可以快速取得成功,但当国际局势风云变幻之际,引进ARM模式风险巨大。

  近年来,受贸易摩擦影响,国产ARM处理器在ARM授权和台积电工艺两个环节被卡脖子,直接导致“绝版”。媒体用“龙芯现场对比的ARM CPU,基本都是三四年前发布的产品”来质疑龙芯,事实是在被制裁后,这些ARM CPU/SOC在这几年时间里没有推出新CPU,某厂商已经在PPT上迭代了3代CPU,但根本拿不出实物芯片。这明明是ARM CPU无法自主迭代,但在媒体口中,反而成为抨击龙芯的质疑点。

  诚然,某ARM CPU厂商在2022年推出了基于境内14nm工艺打造的桌面CPU PG900,在脱离了台积电尖端工艺后,CPU性能暴跌,虽然PG900和龙芯6000采用同等级制造工艺,但SPEC2006测试只有12+分,只有龙芯3A6000的27%,由于性能太低,不适合与龙芯3A6000同台竞技进行对比。

  当下,国产CPU很难大批量的使用台积电7nm以下工艺流片,这使国产CPU的工艺普遍被“锁”在了12/14nm,在这种情况下,龙芯一贯以设计能力提升CPU性能的技术路线发挥出了威力,即便被美国列入实体清单,CPU依然有序迭代,而且性能突飞猛进。

  龙芯3A6000既是自主技术打败引进ARM的里程碑,也是在美国技术封锁下,不断自主创新的里程碑。也许正是龙芯的成绩过于耀眼,特别是其另起炉灶,独立自主的技术路线让崇洋媚外之徒非常不爽,所以往往要承受最多的非议和攻击。

  结 语

  就宣传而言,龙芯早年的宣传确实过于乐观,但这几年步入正轨后,宣传反而越来越保守,最初3A6000的PPT成绩是35-40分,结果现在实测是44分,而且官宣的测试成绩基本能被爱好者复现,有的爱好者甚至测出比官宣更好的成绩。

  相比之下,某些引进CPU的宣传则充满了语言的艺术,比如某ARM CPU鼓吹“超出业界标杆25%”,但这个所谓“超出业界标杆25%”是用64核 VS 英特尔28核才取得的成绩,在单核性能上与英特尔差距明显。

  至于一些人强调“单核不重要,多核才重要”的言论,这纯属外行,当年“I3默秒全”,就是因为AMD单核性能不行,AMD能依靠锐龙翻身,就是因为单核性能上来了。忽视单核性能的重要性,最终只会导致“1核有难,7核围观”。

  不知为何,明明龙芯的官宣数据非常真实,甚至可以说是保守,留了不少余地。我们的媒体却对自主技术非常苛刻,宁可捕风捉影,移花接木,也要在没有实测数据的情况下贬低龙芯。

  同时,这些人对引进CPU又非常宽容,哪怕其宣传中有不少水分,充满了语言的艺术,却从来没有像龙芯这样被针对。

  铁流希望,部分媒体人和行业人士莫要膝盖生根,哪怕万般不情愿,也必须学会正视自主技术的进步。



www.haizi.name
责任编辑:少府

发现了错别字? 请选中并且点击Ctrl+Enter发送!

 

 

孩子、家庭、社会。

登陆投稿

免费邮件订阅

输入您的电子邮件到下面的空格中,点击订阅,关注《海之子》的最新信息。