B体育随着各类大模型和深度神经网络涌现,如何制造出满足人工智能发展、兼具大算力和高能效的下一代AI芯片,已成为国际前沿热点。中国科协发布的2023重大科学问题中“如何实现低能耗人工智能”被排在首位。
这枚芯片基于纯模拟光电融合计算架构,在包括ImageNet等智能视觉任务实测中,相同准确率下,比现有高性能GPU算力提升3000倍,能效提升400万倍。
实现算力飞跃并非易事,特别是当前传统的芯片架构,受限于电子晶体管大近物理极限。全新计算架构成为破局的关键。
光计算以其超高的并行度和速度,被认为是未来颠覆性计算架构的最有力竞争方案之一。
光计算,顾名思义是将计算载体从电变为光,利用光在芯片中的传播进行计算。面对以光速计算的诱人前景,数年来海内外知名科研团队相继提出多种设计,但要替代现有电子器件实现系统级应用,仍面临重大瓶颈:
一是如何在一枚芯片上集成大规模的计算单元(可控神经元),且约束误差累计程度;
三是为兼容目前以电子信号为主体的信息社会,如何提供光计算与电子信号计算的高效接口。
当前常见的模数转换功耗,较光计算每步乘加运算高出多个数量级,掩盖了光计算本身的性能优势B体育B体育,导致光芯片难以在实际应用中体现出优越性B体育。
为解决这一国际难题,清华大学团队创造性地提出了模拟电融合模拟光的计算框架,构建可见光下的大规模多层衍射神经网络实现视觉特征提取,利用光电流直接进行基于基尔霍夫定律的纯模拟电子计算,两者集成在同一枚芯片框架内,完成了“传感前 传感中 近传感”的新型计算系统。
极大地降低了对于高精度ADC的需求,消除传统计算机视觉处理范式在模数转换过程中速度、精度与功耗相互制约的物理瓶颈,在一枚芯片上突破大规模集成、高效非线性、高速光电接口三个关键瓶颈。
实测表现下,ACCEL芯片的系统级算力达到现有高性能芯片的数千倍。同时系统级能效达74.8 Peta-OPS/W,较现有的高性能GPU、TPU、光计算和模拟电计算架构,提升了两千到数百万倍。
在超低功耗下运行的ACCEL将有助于大幅度改善发热问题,对于芯片的未来设计带来全方位突破,并为超高速物理观测提供算力基础。同时对无人系统、自动驾驶等续航能力要求高的场景带来重大利好。
表1. ACCEL和现有高性能芯片的系统级实测性能指标对比(来源:Nature)非相干光直接计算
更进一步,ACCEL芯片还支持非相干光视觉场景的直接计算,如论文中演示的交通场景实验B体育。显著拓展了ACCEL的应用领域,有望颠覆目前自动驾驶、机器人视觉、移动设备等领域先将图片拍摄并保存在内存中后进行计算的思路,避免传输和ADC带宽限制,在传感过程中完成计算。
图3. ACCEL可用于电子设备超低功耗人脸唤醒示意动图(来源:清华大学)
清华攻关团队提出的新型计算架构不仅对于光计算技术的应用部署意义重大,对未来其他高效能计算技术与当前电子信息系统的融合,亦深有启发。
论文通讯作者之一,清华大学戴琼海院士介绍道,“采用全新原理研发出计算系统是一座大山B体育,而将新一代计算架构真正落地到现实生活,解决国计民生的重大需求,是攀过高峰后更重要的攻关。”
清华大学戴琼海院士、方璐副教授、乔飞副研究员、吴嘉敏助理教授为本文的共同通讯作者;博士生陈一彤、博士生麦麦提那扎买提、许晗博士为共同一作;孟瑶博士、周天贶助理研究员、博士生李广普、范静涛研究员、魏琦副研究员共同参与了这项研究。