2023922日晚,信息科学技术学院第十一期“知存讲座”暨信息科学前沿与产业创新课程在理科教学楼208教室顺利举办。主要负责微信搜一搜检索算法和机器学习,主导多项微信搜一搜后端系统大型升级的微信搜一搜资深算法专家魏轶彬老师受邀进行了以“信息检索系统中的机器学习与实践”为主题的分享,400余名师生到场聆听。

讲座现场

在开始之前,魏老师先为我们简单介绍了信息检索系统。信息检索系统将query(用户提交的搜索问题)交给分析模块进行分析,然后由排序摸块排序,之后下发给检索模块检索,最后返回doc(搜索结果)并展现出来。采用满足系数可以比较各个信息的符合程度,它是相关性、权威性等各种满足性质的加权之和,比较各个信息和用户搜索的相关性,可以很好地得出用户想要的结果。

接下来,魏老师提出了机器学习的概念。对于已有系统,为了提高工作效率和结果,系统有很多的参数,机器可以很好地处理调参这种反复的工作,通过训练出一个模型,处理出更好的数据,更进一步地优化系统。但现实比想象中困难得多,我们需要进行模型训练、特征产出、数据标注、模型评测、在线预测等各个步骤,这才是机器学习全生命周期研发流程管理。更进一步地,魏老师提出:有了良好的机器学习模型,搜索的准确程度提高了不止一星半点,但是,对于某些query,满足程度较高的doc不一定是用户想要,而满足程度不那么高的doc反而是更合理的答案。为了让机器可以更近一步地优化系统,我们需要让机器深度学习。

然后,魏老师为我们讲述了深度学习。深度学习有两个思路。一个是另一种用来组合高级特征的非线性模型。这种办法确实在理论上可以提高输出的搜索结果的质量,但是效果并不可观,甚至有些非线性模型的输出还不如原来。而另一个思路是直接用模型学习相关性匹配。这个模型不再接受关键词排序之后的结果,而是直接拿到query本身,用它和输出的doc进行匹配,并在这一过程中不断地学习和优化。经过实际操作,工程师们发现思路二效果更好。由此,工程师们意识到了弱监督数据的价值,不仅强监督的数据可以交给机器处理并得到良好的结果,弱监督数据虽然正确程度比较低甚至不完整,却也可以很好的被机器所识别和处理。

魏老师讲授

在这之后,魏老师又谈到性能的提升和新硬件的使用。前者的建模方式虽然在一段时间可以满足人们的搜索需求,但是信息之间没有先后关系,用户输入的关键词没能得到合理的断句和优先级排序,就可能给出不合理的结果。于是,有了升级,通过采用卷积网络,利用卷积,将用户输入的序列保留,这样就有了顺序。然后采用建模长序列,对用户的历史行为进行建模,从而给出精准而个性化的输出和推送,此外还能找到建模序列和底层匹配关系,更好地捕获依赖关系,使搜索输入和结果输出更精准精确。但是,现实中的困难依然比想象中的多。随着模型变复杂,训练和建模变得越来越困难,训练效率问题越来越严重。而且搜索引擎很重要的一点就是时间。这时,我们就需要进行推理性能进步,如指令集优化,以空间换时间。

师生认真聆听讲座

紧接着,魏老师为我们讲述了BERT的相关知识。BERT,即Bidirectional Encader Representation from Transformers。它采用了双向编码模型,通过预训练--深入训练--双向转换--语言理解四大模块,并且引入了带mask的语言模型训练,这种训练通过不同概率的随机替换单词“逼迫”模型更快地学习原始自然语言说话的方式,进而做出合理的断句和判断并对下句进行预测。此外,预训练的语言模型使得未来所以的开发者直接继承,减少重复训练,底座提升共享,深受工程师的喜爱。自此,人们又发现了发现了无监督数据的价值,从语言训练来到了业务训练。

魏老师介绍Bert

最后的话题,魏老师带来了对GPT的介绍和评价。 无需多言,大家或多或少地都对GPT有了一下了解,搭建神经网络,可以像真人一样听懂人与人的谈话,并用自然语言做出回应,GPT背后,是千千万万个数据库的训练,是数不胜数的模型微调,是整个人类历史上的信息,是像人脑一样复杂的判断和理解系统……魏老师告诉我们:GPT带来的,是模式的进一步变革,预训练、业务预训练、任务精调、zeroshot、增强学习;是产品发展,人工智能浪潮汹涌;是搜索模式的改变,对话式搜索、模糊搜索、关键词抓取。

讲座将尽,每个人都陷入了思考。什么会改变搜索,搜索会改变什么?是否是技术临界点降临,检索系统如何更新迭代?是功能形态升级,算法模型升级,还是系统架构升级?什么工作正在被替代,又有什么工作正在兴起?在这个信息产业浪潮中,搜索显然成为了必不可少的一个环节,无论是底层逻辑,还是用户体验,是核心架构,还是处理效率,搜索的方方面面正在改变着这个世界,也改变着你我……

提问交流

讲座结束,进入提问环节,现场很多同学积极参与,提出了很多有趣的问题。魏老师也都一一做了答复,提问的同学还有精美纪念品相送,现场充满了欢声笑语。然后,同学们和魏老师上台做面对面交流。

通过这次活动,大家都了解了很多的知识,“知存讲座”后续将持续开展,邀请信息学科领域的各位知名人士为本科生介绍信息技术学科和产业发展热点和前沿话题,引导信科青年学子,增进专业认知,寻找未来感兴趣的发展方向。