学院概况

深切缅怀俞士汶先生:中文信息处理的引领者

发布时间:2021-11-08

信息来源:计算机科学技术系

俞士汶先生(1938.12-2021.11)是北京大学信息学院计算机科学技术系教授,原计算语言学研究所副所长,是中文信息处理领域的主要开创者与引领者之一,主要研究成果“综合型语言知识库”获得教育部科技进步一等奖、国家科学技术进步二等奖,为中文信息处理技术研究奠定了坚实的基础。俞先生一生淡泊豁达,甘为人梯,提携后学,堪为学界君子。


数十载春风夏雨 一夜间秋露冬霜


2021 年 11 4 日下午 5 9 分,俞士汶先生在北京大学医院与世长辞,驾鹤西去,走完了自己平凡而又辉煌的 83 年岁月。

美丽的秋天,突遇寒潮降临,没有任何先兆,冬天就来了。



大多数人都是在深夜听到俞先生逝世的消息,所有人的第一反应都是:这怎么可能?!

先生的同事、学生、海内外各界的朋友,都有一个共同的先生形象:身体健康、精力充沛。年事虽高,但笔耕不辍,游刃有余。

然而,谁也不想发生的事情,就这样突然发生了……俞先生留给大家的最后一句话是:我还是不想惊动更多的朋友。我想,默默地离去,留给这个世界以安宁。

平淡的语句,真真切切就是那个我们熟悉的俞先生。

先生的遗愿是平静离去,不打扰大家,不举行追悼会。但所有人都无法接受这个事实。116日,不少人依然自发地与先生告别,送先生最后一程。傍晚,立冬前夜,北京下起了大雪,仿佛老天也在悲痛先生的离去……



不矜不伐君子安道 乐山乐水仁者童心


跟俞老师打过交道的人,肯定会留下一个深刻的印象,那就是:俞老师总是乐呵呵的。他曾说自己是一个“快乐的小老头”,他遇到高兴的事时就捂着自己的脸颊开心地笑,像极了一个单纯的孩子。他前些年刚查出病症时,总是积极地配合治疗,甚至有一次连续做了两个手术,他也是坚强挺过,该吃吃该睡睡,看不出一点病人的样子。医生说他“只有五年了”,他只是淡然一笑,并不以为意。当医生说只有36个月的时间时,他仍然保持乐观地过好每一天;甚至当他决定住进医院,知道自己进去就不会再出来,依然微笑着和家属、学生们道别。

2013年6月 摄于台北


乐天派的俞老师,和朱老师的爱情故事其实也堪称人间典范。二老可以说是青梅竹马,初中一年级就认识,大约高中时就“早恋”了。俞老师夫妇退休后仍然每天去北大办公室工作,几乎是风雨无阻,甚至在疫情前那几年,周六日也能在办公室见到他们。在去北大的路上,他们乘坐的公交车刚好就在北大东南门外的那座行人过街天桥下面有一个停靠站,因此,同事和学生们常会看到个子不高的两位老人手牵着手不疾不徐地从那里经过,那幅画面很容易会定格在每个见过的人的脑海里,仿佛歌词所唱:“我能想到最浪漫的事,就是和你一起慢慢变老……” 有学生曾经问俞老师和朱老师:“你们生活中会争吵吗?”俞老师回答:“很少”。“那如果发生争吵,谁先让步呢?”俞老师略带顽皮地回答:“朱老师让步多”。


俞老师和朱老师伉俪2015年2月于北京褐石园


今年10月初,计算语言所部分老师利用国庆假期去俞先生家中看望时,他和大家在客厅里坐着聊着,而朱老师一个人在阳台偷偷落泪。俞老师起身,走到阳台,像小孩子一样牵着朱老师的手走出来,不停地安慰。他住院时间一拖再拖,最放心不下的人,也是朱老师。

俞老师一直无畏于生死,他曾说“人哭着来到这个世界,总还要回归自然”。1023日俞老师住进医院那天,也是所里几位老师最后一次见到俞老师,他已经非常虚弱,但还是坚持拄着拐杖,微笑和大家道别:“我走到马拉松的终点了”。大家曾多次想将俞老师病重的消息告诉他的老朋友和更多的学生们,但怕给大家添麻烦的俞老师,每次都谢绝了。

俞老师个子不高,但身上却蕴藏着巨大的能量。他天性乐观,温良谦和,与世无争,处事认真。他面对病痛时的坚强,远远超出了一般人的承受能力,超出了大家的想象。


2021年9月俞老师在家中与团团下棋输了两盘后笑得很开心


敢教机器通人语 善结学缘度金针


俞士汶先生1938128日出生于安徽省宣城县。母亲不识字,父亲识字不多。家里希望能出个有文化的人,于是父亲给他取名。由姓联想到鱼离不开水,于是给加上三点水,成了。尽管读书多的人可能知道“汶”的正音是去声(音同“问”),但从小到老,俞士汶字,似乎就没有人读过“问”,而是一直读阳平的。父母的朴素愿望激励他一生渴求知识,学到老,问到老。

1946年至1957年俞先生在宣城读小学和中学。上大学之前,他没见过火车,大约猜想火车是赶路用的,曾经造句“他骑着火车上学来了”,引起课堂上一片哄笑。算术应用题、几何证明题等数理学科的训练培养了他的逻辑思维能力。同时他兴趣广泛,也喜欢欣赏古诗、作文吟句等文科类课程。中学时代的学习,冥冥之中,也为他日后从事文理结合的计算语言学研究奠定了基础。

俞先生1957年考上北京大学数学力学系。不料,进大学之后,身体不好,耽误了一年学业。他在北京大学接受了数学分析、线性代数这一类数学基础课程的严格训练,强化形成了探求事物本质及其内在规律的思维模式。他认识到做学问需要想象力,更需要实事求是的精神,来不得半点虚假。他对科学始终存有敬畏之心。他深知主观的已知同客观的未知相比较永远是微不足道的。北京大学本科的学习熏陶,形成了俞先生日后进行科研实践的风格。

1964年自北京大学数学力学系计算数学专业毕业之后,俞士汶先生留校任教,历任助教、讲师、副教授、教授,为我国高等教育事业做出了突出贡献,自1993年起享受国务院特殊津贴。

1986年是俞先生学术生涯的分水岭。在此之前,他完全是一名计算机科研工作者。1964年刚参加工作时,参与编制了验证红旗机(当时北大自主研制每秒一万次定点运算的电子管计算机)各条指令功能的检查程序。1970年至1973年,俞先生参加全国第一台百万次集成电路计算机多道运行操作系统的研制。1973年至1978年,他在北京大学汉中分校从事北京大学研制的6912计算机及其高级程序设计语言的维护推广工作,编写了两本讲义,在当时的条件下,铅印2000册,为计算机应用的推广发挥了重要作用。1978年至1985年,参加计算机-激光汉字照排系统分时操作系统的研制,获国家经委颁发的荣誉证书。总结这些国产系统软件的研制和维护经验,同时发挥长期积累的理论优势,他配合杨芙清院士撰写了专著《操作系统结构分析》。这期间,在工作之余,他注意了解重大科学问题、学科发展方向以及国家战略需求,为独立进行科学研究做准备。

1986年,时任北大副校长的朱德熙先生认识到,语言学和信息技术的结合,能为社会急需的中文信息处理技术发展作出贡献,同时北大又天然具备文理学科的传统优势, 于是联合几位来自数学、计算机、中文等不同院系的学者,组建北京大学计算语言学研究所。俞先生就是在这个背景下,进入计算语言所的研究团队,在年近五十的“知天命”之际,走上了计算语言学的研究道路。俞先生曾经回忆这段仿佛真有“天意”在起作用的经历:1974年,俞先生无意中读到一篇介绍数理语言学的文章(作者是冯志伟,后来也成为俞先生一生的学术挚友)。文中认为数学方法可以用于语言学研究,这对俞先生是个启发。1979年,俞先生参加了一位美国专家在清华大学举办的自然语言处理系列讲座,历时半个学期。这两件事为日后俞先生投身计算语言学这个文理跨学科领域的研究起到了重要的助推作用。

对于研究方向的巨大改变,俞先生说:我们这一代人,一生难得有几回自主的选择,而报考北京大学和研究自然语言处理技术是我的自主选择,终生不悔。从1986年起,他作为负责人承担了大大小小的科研项目20余个,包括国家重点基础研究项目(973计划)课题、国家高技术研究发展计划(863计划)项目、国家科技攻关计划项目、国家自然科学基金项目、国家社会科学基金项目以及国际、两岸合作项目等。他为这些项目的完成付出了智慧和辛劳。作为七五攻关项目负责人,1991年为北京大学获得了国家计委、国家科委、财政部颁发的和机电部颁发的两份集体荣誉证书,同时因其突出贡献也获得了机电部颁发的个人荣誉证书。他先后承担了4项国家自然科学基金项目,结题后的匿名评审结果均为。经过20多年的努力,他在语言信息处理领域特别是在语言知识资源建设方面,积累了一系列厚重的成果,在海内外学术界和信息产业界,都产生了广泛而深远的影响。

 

俞士汶先生著书封面


俞先生一开始研究计算语言学,便敏锐地领悟到语言知识资源对自然语言处理系统的重要意义,又吸取开发应用系统的实践经验,在北京大学文理学科均有优势的大环境下,俞先生果断地将研究重点确定为语言知识库的建设。集十余年之努力研制成功的《现代汉语语法信息词典》,是面向自然语言信息处理的语言知识库大厦第一块基石。1998年,这项成果获教育部科技进步二等奖。中国工程院编《20世纪我国重大工程技术成就》将汉字信息处理与印刷革命列为第二项,专门有一段话介绍这一成果:“《现代汉语语法信息词典》是一部面向语言信息处理的大型电子词典。它按照语法功能和意义相结合的准则收录了7.3万余词语。依照语法功能分布的原则,建立了词类体系,完成了这7.3万词语的归类。并在此基础上,分类描述每个词语的各种语法属性。”清华大学出版社分别于1998年、2003年出版了俞士汶先生作为第一作者的专著《现代汉语语法信息词典详解》第一版和第二版。以《现代汉语语法信息词典》为核心的一系列语言知识库研究成果广泛传播到世界各地,大大促进了中文信息处理技术的研究,同时也通过转让软件使用许可权的方式,为北京大学赢得了经济收益。2011年,在《现代汉语语法信息词典》基础上进一步发展形成的《综合型语言知识库》荣获国家科技进步二等奖。

2011年俞士汶先生获国家科技进步二等奖


计算语言学不仅是跨学科,而且是跨语言学和计算机科学这两个文、理大学科,这个学科的最高研究目标,是教会计算机通晓人类的语言。要想在这片土地上耕耘收获,需要的是能文能武的复合型人才。无论是计算机学界,还是语言学界,在1986年那个时候,敢来这个领域探险的人,寥寥可数。而俞先生因为机缘巧合,在时代的风云际会中闯入了这片无人区。从此坚持不懈,时时以“行百里者半九十”来勉励自己和周围的人,筚路蓝缕、披荆斩棘,从构建《现代汉语语法信息词典》打下坚实基础,到《综合型语言知识库》获得国家科技进步二等奖收关,俞先生带领北京大学计算语言学研究所的师生们,在中文信息处理的基础资源建设方面,取得了影响广泛而深远的成果。2011年,俞先生获得中国中文信息学会首届终身成就奖。这是学界对俞先生一生学术工作的高度认可!


士风万里星辰共 汶水长伴岱岳流


俞士汶先生靠着坚持不懈的勤奋钻研,带领北大计算语言所师生在语言知识库基础资源建设方面,开创了文理结合的研究模式和一个重要研究方向。回顾先生的学术经历,可以看到先生学术人生不同阶段的鲜明特点。在上世纪80年代末90年代初,俞先生刚踏入计算语言学领域的初期,研究课题主要是偏重工程和技术应用的。在当时国内学术环境还相对闭塞的情况下,俞先生很早就展示了积极参与国际学术交流的进取心和研究能力,并充分重视中文特色在自然语言信息处理中的重要性。比如这个时期先生发表的研究成果有1988年与日本学者野口喜洋合作的《中国话入力にぉけろ》(汉字输入法,收入《日本情报处理学会研究报告》,88-NL-68-91988916日);199110月参加在日本福冈举办的Japan-Australia Joint Symposia on Natural Language Processing (JAJSNLP '91)上发表论文A Technique of Kanji-to-Kana Conversion and its Application(汉字假名变换技术及其应用)等,都是关于汉字输入法技术的研究。1993年发表在国际学术刊物《Machine Translation》上的论文Automatic Evaluation Output Quality for Machine Translation System,是关于机器翻译自动评测技术的早期重要研究成果。

随着研究经验的积累,俞先生逐渐形成了两个重要的认识来指导计算语言所的科研工作。一是将有限的研究力量集中到一点发力。中文信息处理研究之路道阻且长,最缺乏的是知识库基础资源。因此,借助北大文理结合的环境优势,聚焦现代汉语词语语法信息数据库的建设,这是最佳选择;二是计算语言学是跨学科研究,交流和合作特别重要。要在自身研究扎稳夯实的基础上,广泛地跟国内外相关学术领域的一流专家学者进行交流,形成适合的可以共同协作的研究课题,这可以为计算语言所的学术发展,以及人才培养带来长远的好处。在这样的思想指导下,计算语言所全体师生在俞先生带领下,多年来坚持围绕语言资源建设这一个大题目做文章,形成了北大计算语言学学科的鲜明特色。与此同时,俞先生也长期活跃在学术前沿,与海内外学术界多个相关领域的知名学者专家形成了广泛的联系。

https://icl.pku.edu.cn/images1/image2881.jpg

2007年8月,与白莎博士(E. Kaske)在法兰克福大学中文系图书馆


https://icl.pku.edu.cn/images1/image3811.jpg

2007年4月,俞士汶、朱学锋应ABBYY之邀访问莫斯科,参加“汉语言形式模型”研讨会

进入新千年之后,俞先生的学术研究活动从专注语言知识库建设拓展出去,涉及到更多领域,其中比较重要也是先生用力较多的工作大致有三个方面:一是计算语言学领域学术会议的组织和推广;二是将计算语言学技术和方法跟中国古代文学研究和典籍研究相结合,开创人文传承与数字典藏研究;三是支持推动少数民族语言文字信息处理的研究工作。

在学术会议方面,特别值得一提的是,2000年俞先生与国际著名汉语语言学家美国伊利诺大学讲座教授郑锦全先生、著名计算语言学家香港理工大学讲座教授黄居仁先生联合创办了“汉语词汇语义学国际学术会议”。这个会议每年召开,到2021年已经开到第22届,吸引了计算语言学、理论语言学、应用语言学与语言教学、计算词典学等多个相关领域的研究者关注和参与。以词汇语义计算为主题和纽带,形成了一个影响广泛、跨学科的国际学术研讨平台,积极推动了计算语言学的学术交流。

在计算语言学与传统人文研究的结合方面,俞先生协调北京大学计算语言所和中文系的研究力量,与台湾、香港的学者组成了较大规模的研究团队,在中国诗歌意象的计算分析、历代文学作品语言知识库建设等领域进行了许多探索。

在开拓少数民族语言文字信息处理研究方面,俞先生毫无保留地将在汉语知识库建设方面积累的宝贵经验、技术方法等介绍给少数民族高校的研究人员,为他们提供来北大访问学习的机会,派学生到对方单位提供技术支持,开展合作研究,更重要的是,俞先生一直支持少数民族语言文字信息处理的学术会议,而且每次都认真准备会议报告,参与会议交流。

在上述涉及面很广的学术交流和合作过程中,俞先生给大家留下的永远是和风细雨、暖人暖心的美好印象。这个“快乐的小老头”有着神奇的人格魅力。他在待人处事时,始终如一地展现了“认真做事、谦和为人”的品格。可能在很大程度上,因为俞先生这样的人格魅力,北大计算语言学研究所在北大校内,一直能够得到学校和院系管理部门、领导在各项工作上的关照和支持;而在校外的学术界,也不断得到海外内同行的帮助和扶持。

2006年,俞先生在计算语言学研究所成立20周年时写了一副对联作为纪念:规则与统计共舞,语言随计算齐飞,这句话后来被用作2010年在北京召开的第23届国际计算语言学大会COLING2010的主题语。在深情回顾计算语言所一路走来的过程时,俞先生表示:“计算语言所从起初只是一个四五个人的小型课题组,发展到集合了一大批拥有博士学位的计算语言学精英,成为国内外颇负盛名的计算语言学研究重镇。靠的是内部团结与对外合作这两个车轮。”

海纳百川,有容乃大;“士”风和畅,“汶”水长流!


2001年第7届句法分析技术国际研讨会(IWPT-2001)在北大举行


2001年第二届汉语词汇语义学研讨会(CLSW)在北京大学举办


2017年第18届汉语词汇语义学国际研讨会(CLSW2017)


2015年俞老师在第16届汉语词汇语义学国际研讨会(CLSW2015)上做大会报告


2021年5月,俞老师和朱老师在家中通过视频会议参加第22届CLSW会议


2011年8月,俞士汶与陆俭明、蒋绍愚、罗凤珠、陆勤、砂冈合子等

在北大召开“历代语言知识库”课题组研讨会


2008年09月第一届多语言知识库研讨会,内蒙古大学蒙古学学院

2018年12月,西北民族大学藏语信息处理专家多拉教授为俞老师和朱老师献上哈达

“路漫漫其修远兮,吾将上下而求索”

俞士汶先生特别喜欢屈原的名句:“路漫漫其修远兮,吾将上下而求索。”他把这句话作为自己的学术座右铭。

俞先生曾说:“我希望我的人生,一直是逗号,承上启下,最后是个删节号。当不允许我再继续我所喜爱的研究时,一定还有来不及完成的工作,很多,很多,……我寄希望于年轻的一代,寄希望于同行的伙伴,祝愿你们到达更光辉的顶峰。”

高山仰止,景行行止。

先生安息!先生千古!


                                               2021年117

                                               北京大学信息科学技术学院

计算机科学技术系

计算语言学研究所

附:生平简历

1938128 出生于安徽省宣城县。

1958年—1964 在北京大学物理系、数学力学系学习,毕业于计算数学专业。

1964年—1979 任北京大学数学力学系和计算机研究所助教。

1979年—1985 任北京大学计算机研究所讲师。

1982年—1983 日本大阪大学电子工学科访问学者。

1985年—1990 任北京大学计算机研究所副教授。

1990年—2004 任北京大学计算机科学技术系和信息科学技术学院教授。

1990年—2004 任北京大学计算语言学研究所负责人、副所长。

2005年—2010 任北京大学计算语言学研究所返聘教授。

2021114 逝世

俞士汶先生个人主页:https://icl.pku.edu.cn/cy/ysw/index.htm