2013级本科生张伯翰  1300013025

    2015年暑假, 我有幸受到学院资助来到CMU进行两个多月的暑期科研,这是一个难得的经历,从中我收获很大。 

    我进入了Andy Pavlo 的数据库组,他是个非常年轻、有趣和聪明的美国人。CMU的计算机学院很大,但是真正做数据库系统的可能只有Andy Pavlo。 我的工作是参与到组里的一个博士生Dana 的项目中, 完成一个用机器学习进行数据库自动调参的系统。由于数据库的参数很多,不同的参数控制着数据库的方方面面(如table_size 控制着数据库中表的最大大小)。对于不同的workload,需要的参数也不同, 以达到最好的效果。 我们的项目OtterTune 就是通过机器学习的方法,用之前收集的数据,为用户推荐数据库的参数。

    我的工作有两部分, 一部分是用django celery框架做一个可视化的网站,这个网站作为用户和我们机器学习系统的中间件,用户将自己数据库收集的信息发到网站作为请求, 网站将这些文件发给我们的机器学习系统,又在得到推荐的参数后, 将这些结果返回给用户。同时将这些结果用图形在网站可视化出来。 网站也用celery框架将任务并行分配给我们的机器学习系统。 该工作的另一个目的就是将作为我们系统的Demo进行展示。 

 

    我的工作的另一部分便是用Tensorflow实现我们的机器学习算法, 包括用Coordinate Descent 实现Lasso, 以及实现Projected Gradient Descent 进行推荐。 最终将各个算法和网站进行pipline,已完成我们的系统。由于Dana同时受机器学习部门的Geoffrey Gordon教授的指导, 我也有幸能和 Gordon教授进行交流 , 讨论Lasso算法的并行实现。 该工作会以research paper demo paper 的形式投往数据库顶级会议。

    同时在CMU我还有幸和Majd教授进行合作。由于他知道我主要在Andy组工作,所以给我的工作量也相对较小,主要是为他的云计算课设计一个项目,用Tensorflow进行Twitter的情感分析,由于之前没有深度学习的背景,我阅读了LSTMRNN的相关资料,并在Tensorflow上进行实现。 之后每周的见面便是在他面前讲这些内容,以及写一些课程文档。 和马老师(Prof. Majd) 每周的交流都很愉快,同时也提高了自己的英语听说水平。 最后马老师为我介绍了CMU的硕士和博士项目,以及与他相关的MCDS硕士项目,很有收获。

    最后来说说CMU科研之余的生活,Andy真是一个超级好的老师。经常带我们数据库组出去活动。 我在的两个多月里,有带我们一起去吃tacco, 临走前带我们去吃冰淇淋, 还有一次在学校的草坪上BBQ。 最难忘的一次是开车带我们组去室内打枪射击, 第一次打真枪还是挺有趣的。 还有Andy把自己的头像挂在了靶子上打,他真是个很搞笑的美国人,不信的话你去看他的github头像。

 


 

北京大学信息科学技术学院版权所有 Copyright © 2010-2016