研究所的宗旨是:
致力于计算语言学与中文信息处理技术研究与教学。
研究方向包括:
计算语言学理论、语言信息处理基础资源、及其应用技术三方面的研究,包括如下方向:语言分析技术、语料库语言学、计算词典学、计算语义学、机器翻译的理论与技术、信息提取与检索技术、术语学与术语标准化、自然语言处理系统评价技术等。
人员组成:
目前研究所有在职研究人员12名,其中教授2名、副教授6名。另有博士后研究人员6名,博士生和硕士生30多位。
研究所主要科研成果包括:
■综合型语言知识库已初具规模,包括了现代汉语语法信息词典、大规模标注语料库、面向机器翻译的语义词典和面向信息检索与信息提取的中文概念词典等。它已在语言信息处理界发挥了积极作用。
■中文语料库基本切分与标注、中文自动注音、汉英机器翻译(合作)、古诗词计算机辅助研究和中文信息提取等工具软件或应用系统有一定影响。已经取得了属于国家科技攻关、国家自然科学基金、“863”高技术项目的“机器翻译译文质量评估软件”、“日汉机器翻译系统”(合作)、“机器翻译与自然语言处理的自动评价”等成果。
■计算语言所的科究成果获得政府部委级与北京大学的多项奖励,部分成果已传播到世界各地,包括美国、日本、德国、法国、韩国、新加坡、瑞典以及香港、台湾和内地等,有超过100家研究机构用户(如Microsoft、IBM、Xerox、Intel、Fujitsu、NTT、松下、Saillabs、Enpia、佳能、东芝、青鸟、联想、北佳等)已从北大购买了科研成果的许可使用权,或同北大计算语言所共享合作研究成果。北大计算语言学研究所已成为具有广泛影响的语言信息处理研究基地。

第7届自然语言分析技术国际研讨会在我所召开
简介:学院成立以后计算语言所的重要成果“综合型语言知识库”
综合型语言知识库及应用系统是北京大学计算语言学研究所近年来建设的一个重要的集成性成果,包括基础资源和应用系统两部分内容,积累了自1986年以来研究所在语言知识库建设这块土地上的收获和积累。其中基础资源包括:现代汉语语法信息词典(Grammatical Knowledge Base, GKB)、汉语短语结构知识库(Phrase Structure Bank, PSB)、中英文概念词典(Chinese-English Concept Dictionary,CCD)、现代汉语大规模基本标注语料库(POS tagging corpus)和篇章级/句子级对齐双语语料库(Bilingual Aligned Corpus, BAC);应用系统包括信息提取系统(含词语切分和词性标注软件)和双语词典编纂平台。整个系统的结构如下图所示:

其中,(1)《现代汉语语法信息词典》为基础,通过现代汉语词语切分和标注软件对原始语料《人民日报》进行加工,得到大规模基本标注语料库;利用大规模基本标注语料库,可以提取新词及例句以扩充《现代汉语语法信息词典》,并且通过统计词在语料库中的真实分布情况,可以得到词的概率属性。(2)基于《现代汉语语法信息词典》,以词组本位语法体系为指导,构建汉语短语结构知识库,包含600余条汉语短语规则。(3)通过大规模基本标注语料库可以为汉语短语结构知识库提取例子,并验证其规则。(4)《中英文概念词典》依据《现代汉语语法信息词典》得到词类规范。(5)《中英文概念词典》通过大规模基本标注语料库抽取词的搭配关系。(6)《中英文概念词典》从双语语料库中提取双语例句以及搭配关系。(7)信息提取系统以《现代汉语语法信息词典》为基础对文档进行预处理。(8)信息提取系统利用《中英文概念词典》为概念级的消歧提供必要的词汇语义知识,以提高结果准确率。(9)通过双语处理工具集软件对中英文生语料进行加工,可以得到篇章级和句子级的对齐语料。(10)双语词典编纂平台以篇章级/句子级对齐的双语语料为资源,加工得到双语词典。(11)大规模基本标注语料库可以作为双语词典编纂平台的补充。
通过这项成果,北大计算语言所在资源、理论和应用方面进行了综合探索,坚持了理论探讨同大规模语言工程实践相结合,并强调了语言知识表示的整体性和理论应用的针对性。该成果已在语言信息处理界发挥了积极作用。
|