2019年5月17日下午,在美国旧金山举行的第28届国际万维网大会会议(World Wide Web,简称WWW)上,北京大学信息科学技术学院计算机科学技术系、高可信软件技术教育部重点实验室刘譞哲副教授课题组的论文“基于互联网普适语言“绘文字”的跨语言情感分析表征学习方法 (Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification)”获得了最佳论文奖。

WWW大会是计算机和互联网领域历史最为悠久同时也最为权威的顶级学术会议之一,被中国计算机学会列为A类推荐学术会议。本次会议共有1600余篇论文投稿,只评选出2篇最佳论文。课题组获奖论文获得了审稿专家一致“强烈推荐录用”(Strong Accept)意见并最终脱颖而出。据悉,这是WWW历史上中国学术研究机构(含港澳台)首次获此荣誉。2019年,也正值万维网诞生三十周年,获得本次最佳论文奖具有特别的纪念意义。

在动态、开放和多变互联网环境下,软件系统需要深入准确地感知和理解用户情境(包括所处环境的状态和用户的行为),来更加智能地提供服务。作为用户情境感知和理解中一个重要方面,情感分析得到了包括数据挖掘、系统软件、人机交互等多个领域研究者的广泛关注,成为交叉研究的热点,并取得了一些进展。但现有工作难以解决文本数据在源语言层次上的标注不平衡问题,即大多面向有标注数据的英语文本开展,难以应用于在其他缺乏语义标注的语言文本上,尽管机器翻译技术的进步可以帮助跨语言的情感分析,但仍然难以捕捉原语言特定的特征。不同于已有任何方法,获奖论文从互联网用户最为广泛使用的交互方式—绘文字(emoji)入手,提出了一种基于emoji的增强表示学习方法,将从公开英语语料数据中学习到的情感知识迁移到其他缺乏标注语料的语言文本上,效果较现有方法有显著提升,为互联网上持有不同语言的用户之间搭建了一座“情感桥梁”。

2016年开始,刘譞哲副教授课题组在研究移动互联网系统与服务时发现,emoji正在成为一种新的“普适”语言,是用户最为广泛使用的交互方式(大多数输入法都已内置emoji)。课题组认为,emoji不仅可以让表达更加生动,而且可以作为一种新的“软”传感器(Soft Sensor)来感知和理解用户的情境。特别地,随着用户数据的安全隐私问题日益得到关注,如欧盟《通用数据保护条例》(GDPR)等法律法规的推出,传统方法可能因涉及用户隐私数据而无法应用;而emoji可以在一定程度上避免涉及这些敏感数据,并在用户画像、情感理解等方面被验证具有良好的效果。以emoji作为理解和分析用户情境的切入点,课题组在过去三年形成了一系列研究成果,已陆续发表于WWW和UbiComp等国际顶级会议,为用户情境分析理解并进行服务推荐开辟了全新的研究视角。

本文第一作者为北京大学信息科学技术学院2018级博士生陈震鹏,通讯作者为刘譞哲副教授,论文作者还包括北京大学信息科学技术学院2014级本科生沈晟、胡子牛,2016级博士生陆璇,以及密歇根大学梅俏竹教授。

近五年来,刘譞哲副教授课题组在WWW大会发表共计8篇长文,其中2019年有3篇长文获得录用,表明北京大学在计算机与互联网领域的研究水平持续处于国际前沿。

背景链接:WWW大会由万维网发明人、2016年度图灵奖获得者Tim Berners-Lee爵士等人于1992年发起并创办,是计算机与互联网领域的顶级学术会议,也被列为《中国计算机学会推荐国际学术会议和期刊目录》中的A类学术会议,录用率常年维持在14%17%2019WWW大会于513日-17日在美国旧金山召开。

获奖证书.jpg