2024920日晚,信息科学技术学院第二十四期“知存讲座”暨信息科学前沿与产业创新课程在理科教学楼107教室顺利举办。知存科技副总裁赖梁祯博士受邀进行了以“针对多模态大模型的芯片设计探索”为主题的报告。北京大学人工智能研究院、集成电路学院双聘,助理教授、研究员李萌主持了本次活动。

赖博士讲授

讲座伊始,赖梁祯博士首先简要介绍了知存科技的发展历程与其个人职业经历。从2013年创始团队启动、存内计算芯片开发,到2017年知存科技公司正式成立,再到2024年首颗存内计算视觉AI芯片WTM-8系列即将量产,知存科技已经成为全球领先的存内计算芯片企业。接着赖博士介绍了他在arm公司和Meta公司的工作经历,开发了第一版 CMSlS-NN,有参与AI加速,部署优化等工作。

讲座的第二部分聚焦于多模态大模型方面。赖梁祯博士简要讲解了模型大小和Scaling Law的概念,认为针对不同的场景需要不同大小的模型与参数量级。并依据摩尔定律所描述的计算能力提升的曲线,与带宽提升曲线的对比,点明算力呈几何级数提升,而传输带宽呈线性级数提升的事实,从而提出存储带宽增长滞后成为算力瓶颈,带宽增速必然低于算力增速的结论。

接下来,赖梁祯博士进一步介绍了存内计算架构的特点。不同于传统的冯·诺依曼架构将计算单元与存储单元分开的做法,存内计算架构直接将计算单元集成到存储器内部。这一方面直接利用存储参数的单元与输入矩阵X进行计算,极大节约内存读写,另一方面又适用于AI计算中大量乘法运算的场景,故而存内计算架构被称为“真正的神经网络架构”。然后赖博士在技术原理上简要介绍了存内计算架构中输入信号多比特DAC,输出信号多比特ADC以及向量-矩阵乘法的实现方式。

同学们认真聆听

再接着赖博士在存储阵列与存算阵列的对比中突出存内计算在激活多个WL与实现O(N^2)的输入带宽方面的优势。然后赖博士还通过曲线图形象化地展示了模型大小与功耗的关系,认为在面对相同任务量的前提下,提高模型大小能够减少损耗在输入输出方面的功率。

最后,赖梁祯博士谈到了对于存内计算的未来展望。在器件/工艺方面,赖博士以2D NOR FLASH阵列与3D NAND阵列的模型对比,生动表明了O(N^3)存储阵列单位面积储量等指标会与O(N^2)有较大差别。在系统/集成/封装方面,赖博士认为不同模态/场景系统的建构思路不同,设计空间不同,针对不同场景,需要不同的架构设计。在算法/精度方面,赖博士简要介绍了混合专家模型(MOE)。

在问答环节,同学们积极踊跃地向赖梁祯博士提问,赖梁祯博士一一作出答复。有同学提出“硬件/软件哪个对人工智能制约更大”的问题,赖博士举了TPU的某款芯片,刚进入系统和迭代到下一次时,性能提高了两倍,以及大模型在过去几年内主要的变化还是模型变大、参数变多的例子,总结并答复道“二者都非常重要,要从一个更系统的角度去看待这个问题”。

赖博士耐心回答同学提问

赖梁祯博士的报告让同学们对于多模态大模型的芯片设计探索有了更加深刻的认识。本次知存讲座以热烈的掌声圆满结束。

信息科学技术学院“知存讲座”将持续开展,邀请信息学科领域的知名人士为本科生介绍信息技术学科和产业发展热点和前沿话题,引导信科青年学子增进专业认知,确立前沿视野,寻找未来感兴趣的发展方向。