今年三月份,我在计算机所刘家瑛老师的指导下,在计算机语音和视觉顶级会议International Conference on Acoustics, Speech and Signal Processing(ICASSP2017) 上发表一篇名为Online Action Detection and forecast via multitask deep recurrent neural networks的工作。并有幸在学院的支持下赴美国新奥尔良参加了这次会议。
ICASSP是由IEEE(国际电气和电子工程师协会)举办的语音学、声学的顶级会议,同时是信号处理领域的国际著名会议。在这次会议中,我展示了关于3D动作识别和预测所做的相关工作。我们提出了一种全新基于3D骨架信息的实时在线框架。在通过一个端对端训练的循环神经网络对视频信息进行分析和建模的基础上,我们设计了多任务神经网络模块,使得该算法可以实时的对当前发生的动作进行分类和判断,并确定动作的开始和结束。同时,该框架还可以实时对动作的发生和结束进行预测。
这是我第一次在国际会议中做相关报告,我的报告类型为2小时展板。在报告前我进行了充分的准备,对可能会被提出的问题提出了思考。在报告当天,我的工作吸引了很多业内人士的关注,大家对动作识别问题和端对端多任务神经网络表达了浓厚的兴趣。同时,他们还对实验的细节问题与我进行了交流和询问,同时也给我的进一步工作提出了一些新的启发和建议,让我受益匪浅。同时,我在ICASSP会场见识到了很多来自全世界的优秀的工作,这些工作有的关注于底层的数学模型,也有的致力于研发的全新的计算机视觉和语音领域的优秀的算法。这些全新的工作极大的开阔了我的视野,在与这些优秀工作的作者交流的时候我也感到深受启发。
同时,我还与赴会的美国华人华侨进行了深入的线下交流,我们就当前计算机视觉的发展状况、机器学习的优势与问题、各个行业和大学内部的研究方向和研究情况进行了深入的交流和探讨。这些人有的就是毕业于北京大学并在美国的大学或公司中做研究学者,这些优秀的科研工作者极大地拓宽了我的眼界,并对我进一步地科研道路提出了中肯的经验和建议。作为一个刚刚涉足科研的本科生,这些经验和交流对我的帮助是十分巨大的。
最后,这次与会经验让我增长了见识,为我未来的科研道路打下了基础,也激励着我继续努力。我要感谢北京大学信息科学技术学院对我的大力资助,感谢董晓晖老师在办理有关手续上的帮助,也感谢刘家瑛老师对我的帮助和指导。也希望自己深自砥砺,不忘初心。