2021年10月29日,北京语言大学信息科学学院院长,语言智能研究院院长荀恩东教授应邀为外语学院带来题为“BCC语料库设计及应用”的精彩讲座,此次讲座也是我院语言学研究中心组织的“智能时代的语言学研究系列讲座”第1讲,讲座由外语学院卞建华院长主持,外院师生、“英语大数据虚拟教研室”成员单位以及其他高校师生200余人线上参加,2019级英语大数据班本科生和部分语言学研究生线下集中听讲学习。
首先,荀教授介绍了语料库的设计思想。语料库是加工过的语言生活采样数据。语料库的质量主要从三个方面衡量:是否来源于真实语言生活,是否能准确反映语言的分布,和是否能满足时效性的动态要求。荀教授正是基于提高语料库质量,提高语言研究能力而设计出了BCC语料库。
之后,荀教授从语料库构建技术和语料库检索技术两个方面介绍了BCC语料库的实现思路。在语料库的构建方面,荀教授讲述了数据采集,语料采样和语料加工技术;在语料库检索方面,荀教授则对检索语言,检索方式和统计功能三个角度做出了说明。
最后,荀教授介绍了BCC语料库在语言学和知识获取方面的应用。BCC语料库的语料库类型丰富,包括语料的原始形态,带有属性标记的单元序列,带有语法标记的层次结构树等。语料类型充实,包括报刊,口语等多语料类型。检索功能丰富,共时检索,历史检索,自定义检索和对比检索都是BCC语料库的检索功能。
荀教授凭借对语言研究的热爱,在没有其他支持的情况下带领学生建设了全球规模最大、在线服务功能最强的中文语料库系统,为语言学习者和研究者提供了一个检索学习平台和服务支持,为广大语言学习者和汉语语料库研究做出巨大贡献,值得我们借鉴和学习。同时,荀教授的这次讲座也吸引了青岛大学之外其他对语言和技术结合方向感兴趣的老师和学者。语言与技术,语言与智能的结合是一个新的方向,我们需要业界学者专家一起分享智慧和经验交流,共同促进智能时代新学科的发展,为国家培育更多新型创新性人才。