MCPLive > 杂志文章 > 解析新龙芯GS464E处理器架构

解析新龙芯GS464E处理器架构

2015-06-24农飞腾《微型计算机》2015年6月下

在这个Victim Cache之下,还有后一道被称为SCache的片上共享三级缓存,这一级缓存仍旧是16路组相连,每个SCache模块是1MB大小,四个核心的SCache模块拼接起来就是4MB。一般而言末级缓存系统都是切分多个Bank之后通过挂接到Crossbar上,各个独立核心通过Crossbar访问共享的末级缓存。龙芯将SCache直接挂接到GS464E核心外,可能说明龙芯已经采用了一些NoC(Network on Chip)的设计思路,在为未来扩展多核、众核做准备。

值得称道的是,龙芯的二级、三级两级缓存都维持了较大的容量和组关联度,但是访问延迟较长,二级缓存的访问延迟超过20个周期,比Intel处理器的二级缓存相比慢了几乎一倍,三级缓存需要超过50个时钟周期的时间,与Intel处理器基本持平。

同频性能接近Sandy Bridge   实测数据分析

龙芯目前公布的实测数据主要是在RTL仿真以及硬件加速仿真验证平台上取得的,设定频率为1GHz,如果实际芯片能够运行在1GHz上,并且接口时序设定正确,它们和实际芯片运行性能是没有什么差别的。

从表2可以看到,龙芯GS464E号称访存性能即内存性能提高了10~20倍。据悉前代龙芯过于注重核心微结构,内存控制器设计则过于轻视,甚至连突发传输模式的支持都没有做好,因此内存性能非常低下。而这一次流式访存性能暴涨则也是因为修正了内存控制器的bug,同时加上了激进的多级预取机制的结果。以Memcpy和Stream-Copy两个测试子项来看,龙芯的内存控制器在操作双通道DDR3-1000时,在局部性较好的流式访问上距离Ivy Bridge + 单通道DDR3 1333的平台还有20%左右的差距。

同时龙芯公布了Whetstone,Coremark,Dhrystone等几个小型benchmark的测试结果,如表3所示。一般来说这几个测试结果的可信度不如Spec,PARSEC等大型测试程序。但是这种小型测试能够轻松地在龙芯RTL测试平台上运行,该测试平台可以给定静态时序分析结果,并通过RTL代码仿真一颗芯片,而无需流片,使用更加方便。

龙芯3A2000/3B2000的设计版图
龙芯3A2000/3B2000的设计版图

在其他程序测试中,GS464E处理器架构在分支指令较多的Dhrystone,以及少量访存操作的Coremark等测试中有40%以上的性能提升。
在其他程序测试中,GS464E处理器架构在分支指令较多的Dhrystone,以及少量访存操作的Coremark等测试中有40%以上的性能提升。

所幸龙芯还公布了Spec CPU 2000的测试结果,如表4所示目前GS464E在1GHz频率下的整数性能得分为762,相对上一代涨幅104%左右,浮点性能达到1125分,提升幅度更加惊人,达到278%。其整体性能已经非常接近同为1GHz频率,采用Sandy Bridge核心的Core i5 2300。若以Spec CPU 2000的初步测试结果作粗略估计,龙芯的IPC还是比较乐观的,但从另一面看龙芯还不能提前开香槟庆祝。从新披露的消息来看,基于GS464E架构的龙芯处理器主要有3A2000、3B2000两种。其中龙芯3A2000为单路四核桌面版本,龙芯3B2000则是支持双路八核、四路十六核的服务器版本。由于是新架构的第一版产品,制造工艺仍旧是40nm,主频只有1GHz左右。考虑到频率只有当今Intel、AMD处理器的1/3,因此新一代龙芯处理器总体的绝对性能大约仅为Haswell的20%~30%左右。何时能采用更先进的28nm工艺生产,能否在新架构上大幅提升工作频率?还是一个大大的问号,龙芯仍有比较长的路要走。

结语:成功不可能一蹴而就

据笔者了解到的消息,龙芯目前已经打入了军方和航天市场,这两个市场都对安全性极为重视,性能要求则相对比较宽松,龙芯的抗辐照版本问世后也装上了北斗卫星。中国那段由国家领导人亲自出马谈判进口抗辐照芯片的过去可以宣告埋入历史尘埃了,但龙芯要在民用市场上对抗Intel和AMD还是很难,毕竟绝对性能上差距过大,在短期内恐怕仍无可能。

龙芯项目启动迄今已过十五年,有过明察秋毫拒绝使用超长指令字结构的睿智,但也同样有过不知深浅“一步到位”的狂热;有过在媒体上放话打败Intel的自负,也有过公开承认性能差距过大的诚恳,这些都已经是龙芯成长历程中被凝固的笔墨。时过境迁,笔者认为,对待今日龙芯的进步,我们需要抛开过往,保持足够冷静和理智,如计算所的前任所长李国杰院士2004年就在《科技日报》上撰文指出的那样:“我国CPU/SoC设计任重道远”,“今后若干年内,龙芯CPU的性能只能做到国外高水平CPU性能的一半左右”,要时刻清醒地认识到在这个国外已经发展超过五十年(以乱序执行发明的时间计算)。有十万至数十万顶尖水平从业者支撑的行业里面,龙芯以区区数百人的规模和几十分之一到几百分之一的投入做到几分之一的性能已经足堪自豪,至于追平和赶超,还是需要耐心。

近日中国计算机协会举办的走进龙芯活动中,龙芯项目负责人胡伟武坦诚“乞丐与龙王比宝,越比越落后”,希望“重视整机性能,在每一个局部都不如别人的情况下实现整机性能的反超”,龙芯目前已经将自己走向“支柱型CPU产业”的规划划到了2020~2030年,这将会是一场旷日持久的大战。如果成功了,中国CPU产业将多出一位内能自给自足,外能力拼英美的巨头,即便失败,以龙芯项目这些年的投入,以及作为第一个国产乱序多发射高性能CPU的先驱所贡献的经验和培养的人才来说,亦是能够有所慰籍的。

分享到:

用户评论

共有评论(1)

  • 2015.09.04 21:14
    1楼

    我的专业就是集成电路的,希望以后能参与咱们中国人自己的CPU的设计工程当中去,那一定会非常自豪

    (0) (0) 回复

用户名:

密码: