在近期的计算机多媒体领域国际学术会议IEEE International Conference on Multimedia and Expo (201978-12)上,来自北京大学信息科学技术学院计算机科学技术系数字媒体所、数字视频编解码技术国家工程实验室段凌宇教授课题组的论文“TOWARDS DIGITAL RETINA IN SMART CITIES:A MODEL GENERATION, UTILIZATION AND COMMUNICATION PARADIGM (智慧城市数字视网膜的模型生成、利用和传输范式)”荣获大会最佳论文奖。论文第一作者为北京大学信息科学技术学院2015级博士生楼燚航,通讯作者为段凌宇教授。ICME是计算机多媒体领域的旗舰学术会议。本次会议共收到来自36个国家或地区的1000余篇论文投稿,论文接受率约31%                       


高文院士团队借鉴人类视网膜机理,提出了数字视网膜计算架构,实现特征实时汇聚、视频按需调取、前端软件可定义的功能。面向城市数字视网膜计算,该获奖论文首次提出了视频流、特征流与模型流的多流协作计算模式,改善了城市大脑的视觉通路,有效克服端--云协同计算的模型重用与传输瓶颈,为视频数据大规模汇聚、存储和计算提供了新思路。


段凌宇教授课题组在数字视网膜研究与实践中发现,数字视网膜计算框架的边缘节点缓存了大量表征识别模型与无标签数据。为此,课题组首次提出一种多模型重用机制,有效利用数字视网膜框架下边缘节点缓存的模型和数据,生成更具域适应性和判别力的目标模型。针对多模型重用风险,论文给出了理论证明与分析,并在实验中取得了相比传统方法更优的性能增益。在视网膜计算框架下,模型的频繁传输与部署会带来较大的通信开销;为此,该工作进一步提出了模型之间高效通信的新问题,并提出了一种新颖的差分模型压缩方法,相比传统的单模型压缩方法,可有效降低模型传输代价。该论文围绕视频流、特征流、模型流,提出了城市视觉系统中的协同计算新问题,对于未来数字视网膜理论研究与实践具有指导意义。


段凌宇教授长期从事以机器识别为目标驱动的视觉特征分析与压缩研究工作,以压缩传输视觉特征为突破口,通过汇聚大规模紧凑视觉特征,实现视觉对象精准分析与识别,克服了联网分析识别提出的实时数据汇聚挑战。课题组围绕视觉特征的紧凑表示、模式学习、高效索引三方面系统地开展了研究工作,提升了特征的紧凑性与辨识力,优化了大规模特征检索的可扩展性,并通过制定标准解决了传输压缩特征所引发的互操作问题,全面实现了特征的小、准、快、通。作为主起草人,制定了紧凑视觉特征国际标准MPEGCDVSMPEGCDVA,将多项研究成果转化成为标准规范化核心技术。MPEG-CDVS成为多媒体领域我国主导制定的首项ISO国际标准。相关成果获2017年度国家技术发明奖二等奖、2016年度教育部技术发明奖一等奖、2017年度中国专利优秀奖。整体研究成果已被著名互联网公司与安防领域重点企业采纳并投入运营。现担任新一代人工智能产业技术创新战略联盟(AITISA)视觉特征编码标准组组长,围绕数字视网膜计算框架,致力于我国自主知识产权的人工智能标准化技术。