2025年10月31日晚,信息科学技术学院第四十二期“知存讲座”暨信息科学前沿与产业创新课程在理科教学楼107教室顺利举办。本次讲座以“混元大语言模型强化学习实践”为主题,特邀北京大学校友、腾讯混元大模型高级研究员刘伟杰担任主讲。刘伟杰是混元模型团队成员,曾主导开发K-Bert、FastBert等项目,相关成果获得广泛社区认可与实际应用。本次讲座由人工智能研究院李萌老师主持。

讲座围绕混元大语言模型的研发与实践展开,内容分为三部分:混元大模型的强化学习实践、混元大模型的校企科研成果,以及腾讯混元大模型的应用。刘伟杰深入浅出地分析了混元大模型的核心目标、训练策略及其在产业中的落地路径。

刘伟杰首先阐释了大模型引入强化学习的必要性。他指出,强化学习通过结合RLHF(基于人类反馈的强化学习)与RLVR(基于规则与验证的强化学习),使模型既能生成符合人类偏好的内容,也能在专业任务中保持高精度,从而为通用多模态模型奠定基础。他列举了PPO、DPO和GRPO三种方法,比较了它们在资源消耗、训练要求和算法精度等方面的差异,帮助同学们直观理解不同方法的特点。

同学们认真聆听

在介绍混元大模型训练过程中面临的挑战时,刘伟杰指出,MoE结构的大规模模型存在训推不一致、训练稳定性不足及不确定因素多等问题,并分享了相应的解决思路。

同时总结了其他有助于保障训练稳定性的重要认识与实践经验。此外,刘伟杰展示了混元大模型在算法、工程与应用等方面的重要作用,如腾讯会议AI小助手和AI搜索等,并列举了多项校企合作科研案例。例如,针对标准GRPO探索范围受限的问题,校企合作团队发现Few-shot ICL在数学推理场景中的优势,提出隐式专家驱动的混合策略GRPO、专家区域拒绝采样和退火式专家奖励塑形等方法,并通过多次实验验证其有效性。

在问答环节中,同学们踊跃提问。有同学询问模型训练三个环节的时间分布,刘伟杰回答,由于预训练可能存在失败返工的情况,其时间占比约为90%;强化学习范式相对固定且可控,约占8%。另有同学问及如何利用训练过程中的时间间隙,他表示,应在间隙中落实每一步操作,密切监控数据,及时排查并修正可能存在的问题。

最后,有同学请教如何理解问题逻辑及是否有印象深刻的事例。刘伟杰回忆道,曾遇到熵值异常现象,团队通过拆解分析发现不同token概率对熵的影响各异,从而深入理解了其背后机制并掌握了调控方法。他强调,理解问题逻辑的关键在于探究异常现象背后的原因,并从中获得新的认知与创新灵感。

同学们积极提问

讲座在热烈的掌声中圆满结束。信息科学技术学院“知存讲座”将持续开展,邀请信息科技领域的知名学者、产业领袖和优秀校友,为同学们搭建了解前沿技术和产业动态的桥梁,推动青年学子增进专业认知、寻找未来感兴趣的发展方向。

同学与刘伟杰学长在讲座结束后交流


                                                       摄影|常耘瑞

                                                       文字|覃丽