网站首页

b体育产品中心

智能终端处理器 智能云服务器 软件开发环境

b体育新闻中心

关于b体育

公司概况 核心优势 核心团队 发展历程

联系我们b体育

官方微信 官方微博
b体育·(中国)官方入口在线登录网站 > b体育新闻中心

算力芯片B体育终局之战?

发布时间:2023-12-22 22:42浏览次数: 来源于:网络

  B体育中国的芯片界同仁,不可谓不努力:充满艰难险阻的工作,数十年如一日的煎熬,直面国际巨头的竞争。在芯片具体产品层面,别人有性能优势,我们有价格优势。不敢说能打个你来我往,但至少还有还手之力。

  然而,在计算生态方面,我们则完全没有招架之力。计算生态就像一只无形的手,抹去了我们仅有的一点可能的机会,阻挡着我们前进的步伐,让我们距离世界先进越来越远。

  更令人焦虑的是未来:一方面,计算生态的作用在不断地加强;另一方面,不同领域不同处理器的计算生态有进一步融合的趋势,逐渐形成新的超级生态。两相叠加,一旦超级生态逐步建立,后进者再无翻身的可能。

  随着算力需求越来越高,同构CPU的业务场景越来越少,基于GPU或AI等DSA处理器的异构计算已经成为主流。从发展的角度看,随着大模型等算力场景的持续挑战,未来会进一步从异构计算走向异构融合计算。

  第二阶段,两个处理器,即CPU+GPU或CPU+其他专用加速处理器的异构计算阶段。

  行业在创新处理器的设计和实现方面进行了很多探索,比如存算一体、重构计算、类脑计算、量子计算等等。这些新型的计算架构设计或实现方法,从系统指令复杂度的视角,可以归属到DSA或ASIC的范畴。因此,这些创新,没有跳脱异构融合计算的大框架。

  Intel x86架构的优势,是在众多处理器架构的厮杀中逐步确立的。随着x86的优势地位确立,基于x86架构的软件生态逐渐成熟,即便是Intel自己,也无法改变这一局面。

  Intel的64位安腾(Itanium)处理器,是一个非常典型的失败的案例。安腾是Intel于2001年推出的64位架构的CPU处理器,Intel对之寄予厚望。虽然是Intel的亲儿子,虽然是功能强大的64位CPU架构,虽然安腾的架构和微架构设计非常优秀,但因为和x86的不兼容,完全一个新的生态,不可避免的走向了失败(2021年7月29日是安腾处理器最后的出货日期,英特尔正式告别了这款使用IA-64指令集的纯64位处理器)。

  与此形成鲜明对比的,是AMD64的成功。2003年,AMD推出了业界首款 64 位处理器 Athlon 64,带来了AMD64(x86-64)指令集,即x86指令集的64位扩展超集,具备向下兼容的特点。因为向下兼容,继承性地往前发展,最终成就了AMD64的成功。

  相对于Intel的x86 CPU计算生态是百家争鸣的胜者,NVIDIA GPU的CUDA生态,则是数年孤独后的一鸣惊人。

  在NVIDIA GPGPU之前,GPU真的就只是GPU,即专用于图形计算的加速卡。这一时期的GPU,符合DSA的定义规范,可以当作是专用于图像领域的G-DSAB体育。直到NVIDIA GPGPU的出现。

  2006年,NVIDIA发布GPGPU。NVIDIA发现,图像处理有很多并行处理的部件,于是决定将这些专用的处理完全改造成通用的高效能小CPU核,于是GPGPU诞生了。虽然此时,GPGPU已经足够通用,但其编程难度很高,于是NVIDIA又贴心地开发了CUDA计算框架。即便如此,早期的CUDA功能并不强大,开发仍然不够友好。很多开发者并不看好,认为CPU多核才是正确的发展道路。

  直到2012年,Alexnet的问世,深度学习时代的来临,NVIDIA GPU+CUDA才成了热门的计算平台,助推着NVIDIA市值超越一众竞争对手,成为全球市值第一的芯片公司。再紧接着,2018年,AI大模型逐渐流行。进一步把这股浪潮推向高潮,NVIDIA GPU一时间“洛阳纸贵”,同时,NVIDIA的市值突破了万亿美金大关。

  2022年初,NVIDIA正式宣布,收购ARM失败。假如,NVIDIA收购ARM成功,这场大算力芯片的“战争”,基本上可以提前给出结果:NVIDIA获胜,其他家永无出头之日。好在这件事情没有成行,算力芯片“战争”的结果,仍存在变数,这场“战争”仍在继续。

  之后,NVIDIA退而求其次,与ARM的深度合作,开发了Grace系列高性能CPUB体育,以及CPU+GPU整合的Grace Hopper系列超级芯片。

  在之前,我一直以为Transformer之所以能够脱颖而出的最大原因就是那篇论文的标题:“Attention is all you need”,优势来源于算法本身。最近一段时间,跟好几位AI领域的专家交流下来,他们的观点是:有很大一部分原因是因为,Transformer比较好的实现了并行处理,能够最大限度的利用GPU并行的算力,因此才能够实现更大参数规模的大模型,进而获得更好的智能体验。

  这个案例可以得到这样一个结论:只有NVIDIA GPU+CUDA生态亲和的模型才能最终走出来;如果不是NVIDIA GPU+CUDA架构和生态友好的模型,哪怕实际效果再好,也受限于模型效率、参数规模和成本等方面的劣势,无法脱颖而出。

  在我的个人观点里,一直以来,都是非常重视生态的难度和重要性的。但最近几年,随着认识的进一步加深,我的想法得到了进一步修正。计算生态很重要,但过去10年左右的发展,使得计算生态的重要性,比我们大家想象的要更加重要:

  一方面,业务快速发展迭代的压力,使得大家更加依赖已有生态的持续优化,而很难迁移到新的平台和生态。

  另一方面,计算从单机计算走向集群跨集群的分布式计算,计算生态的作用得到进一步放大。一是不同计算节点工作任务之间的协同,二是计算任务在集群内部不同计算节点之间可迁移,这些原因进一步强化了计算生态的“强者更强,弱者更弱”。

  还有一方面,随着异构计算和异构融合计算的发展,处理器之间的协同效应逐渐产生并进一步增大。不同处理器的单个计算生态开始发生化学反应,逐步会形成融合的超级生态。

  假设,在十几年之前,2010年前后,芯片的重要性和难度是1,计算生态的重要性和难度则为10。

  假设,随着系统规模的增大,未来5-10年,也就是2030年前后,单个处理器芯片的重要性和难度可能上升到10。受业务迭代越来越快的影响,计算生态的重要性和难度需要再增加一个数量级,其值约为1,000。

  在考虑集群/跨集群以及云网边端融合成为主流计算方式的影响下,计算生态的重要性和难度再增加一个数量级,其值进一步上升到10,000。

  再随着异构的处理器越来越多,不同处理器计算生态的协同效应凸显,计算生态的重要性和计算难度再增加一个数量级,其值达到100,000。

  最终,芯片和计算生态的重要性和难度比例变成10:100,000,或者是1:10,000。

  首先是各类处理器。CPU生态,Intel首屈一指;GPU生态,Intel也有自己的产品,也在积极的布局;DSA类的生态,Intel有IPU和IPDK进一步整合和增强。

  然后是Intel在多异构融合、跨平台,完全可编程和开放生态方面都进行了布局。Intel于2019年提出超异构计算概念,随后Intel布局了OneAPI框架、OpenVINO计算套件、IPDK计算框架,还发起了OPI开放计算联盟等。目前,Intel的多异构或异构融合的芯片解决方案还没有公开发布,拭目以待。

  Intel目前面临的挑战是:上面列出的很多内容,Intel提出之后,并没有非常有竞争力的产品去承载。

  NVIDIA在汽车CCU方面,已经布局了Thor超级芯片,其核心计算部分由数据中心架构的Grace CPU、Ampere GPU、Bluefield DPU组成。一方面算力强劲,把汽车变成了一台超级计算机;另一方面,其架构跟数据中心处理器架构完全一致,为未来云边端融合提供了坚实的物理基础。

  据说,NVIDIA在数据中心的CPU、GPU和DPU三芯片集成的、多种异构融合计算架构的超级芯片,已经在研发中。

  (在电影《复仇者联盟》里B体育,大反派灭霸一个响指,宇宙间众多生命,瞬间灰飞烟灭。

  在GPU领域B体育,NVIDIA构建了牢不可破的CUDA计算生态;在DPU领域,NVIDIA拥有全球最好的DPU芯片,以及功能强大的DOCA计算框架;高性能网络可以看做DPU的一个重要的功能子集,NVIDIA拥有全球最好的高性能网络RDMA和独一无二的Infiniband技术,高性能网络是AI大模型训练集群的核心技术;在CPU领域,NVIDIA和ARM深度合作,抢占了比较有利的生态位。

  同构计算的时代,面临的仅仅是一个计算生态的挑战;生态劣势的厂家,仍然有翻盘的可能。

  异构计算的时代,面临的则有两个计算生态的挑战,还有两个处理器协同生态的挑战;这个时候,生态劣势的厂家,面对计算生态的无形之手,已经有点力不从心。

  异构融合计算时代,计算平台预计会多达5-10个处理器,面临的不仅仅是5-10个计算生态的挑战,更要面临这些处理器组成的融合计算超级计算生态的挑战;这个时候,会进一步放大计算生态的“强者恒强,弱者恒弱”效应,生态劣势的厂家,不但无法翻盘,甚至连微小的一点市场份额都很难维持。

  在未来5-10年,随着生态的极端重要性进一步凸显,大算力芯片,即将迎来“终局之战”。

  (在电影《复仇者联盟》里,奇异博士给钢铁侠伸出了一根手指,意思是说,那一千四百多万分之一的成功可能性B体育,就在此刻。

  回到现实,大算力芯片的计算生态之争,“唯一可能”的破局之道:开放。“唯一”是说,有且仅有这一个办法;“可能”指的是,这个方法虽然存在赢的几率,但几率很低很低。

  指令复杂度越高,单个处理器引擎覆盖的场景就会越小,全场景覆盖所需的引擎种类就会越多。从CPU到ASIC,处理器引擎越来越碎片化,构建生态越来越困难。

  异构融合计算时代,集成的处理引擎类型和数量越来越多,处理引擎架构越来越多,芯片平台的数量也越来越多,所处的位置(云网边端)也越来越丰富。

  解决办法只有一个:让架构收敛。每一个类型或子类型的处理器,全球全行业能够形成标准的架构和接口。

  不确定的是,未来是走向封闭的一家通吃?还是行业形成共识,大家基于开放架构做产品,行业走向基于产品竞争力的、真正的“公平”竞争?

  开放阵营,不仅仅会包括行业里的二线、三线芯片公司,以及广大的Startup公司,还会包括目前仍处于一线大厂的众多知名公司。

  从目前看可见的未来,NVIDIA会是最后赢者通吃最有优势的那个。那么,这个阵营包括Intel、AMD、高通、博通、Marvell等知名芯片公司,也包括互联网巨头等芯片的大客户,如苹果、谷歌、微软、华为、阿里、腾讯等,也包括OpenAI等AI/AGI新贵。对抗巨头的唯一做法,唯有凝聚共识,开源开放。

  CPU领域,已经是形成共识的开放架构成为主流,比如RISCv占据90%以上市场份额;

下一篇:2023年全球芯片产业难言乐观B体育
上一篇:B体育“芯”机遇来临?首届集成芯片和芯粒大会召开 集成芯片有重大研究计划

咨询我们

输入您的疑问及需求发送邮箱给我们