首页>新闻中心>新闻资讯>正文

CCL 2020,北大方正集团数字出版技术国家重点实验室展示新成果

近日,方正集团旗下数字出版技术国家重点实验室参加了第十九届中国计算语言学大会(The Nineteenth China National Conference on Computational Linguistics, CCL 2020),并在大会上展示了实验室在中文多轮对话问答、中文智能审校、中文媒体事件抽取等领域的多项创新性研究成果,为后续成果的开放共享、技术转化及产业化落地发挥前沿性支撑作用。

中文多轮对话问答研究成果展示

多轮对话问答是机器阅读理解方向近几年来一个新的研究任务。鉴于目前基于机器阅读理解的多轮对话问答研究中采用的数据集大多为英文数据集(如SQuAD, CoQA, QuAC等),且数据规模不大,非常缺乏中文的问答数据。为了开展相关研究,实验室课题组设计并搭建了向社会开放的多轮对话问答数据采集平台。

在实验室的最新研究中,提出一种印象特征,用于提升多轮对话问答性能。从不同的维度学习对话历史,同时做特征选择,并将有用信息集成于当前问题和文章中。

多轮对话问答数据采集平台

中文智能辅助审校研究成果展示

为了提升图书期刊等出版物的出版效率,实验室将机器学习和自然语言处理技术引入出版物的审校环节,对"待出版"文本中的语法、语义和知识类等各种错误进行自动检查和纠正,实现了数字出版领域的技术创新和产业化应用。智能审校平台目前集成的功能包括单位符号检查,错别字检查,标点符号检查,以及属于语法检查任务的叠字叠词检查和搭配不当检查。

在实验室的最新研究论文中,提出了一种基于数据增强和语言学特征多任务训练方法来提升中文语法错误检测的效果。该方法在NLPTEA CGED评测任务数据集进行测试,性能优于其他中文语法检测模型。

智能审校系统的错别字纠错示例

中文媒体事件抽取研究成果展示

作为信息抽取领域一个重要的研究方向,事件抽取旨在从非结构化的文本中抽取出事件信息,并以结构化的形式呈现出来。实验室的最新研究提出了一种基于预训练语言模型,通过定义事件三元组(触发词,事件要素角色,事件要素)构建的事件抽取联合模型以解决事件要素重叠问题,且该方法在国际评测任务ACE2005中文事件抽取数据集上进行测试,有效提高了中文事件抽取的效果。

中文事件抽取联合模型框架图

第19届中国计算语言学大会

"第十九届中国计算语言学大会"(The Nineteenth China National Conference on Computational Linguistics, CCL 2020)由中国中文信息学会主办。CCL是中国中文信息学会(CIPSC)的重要会议,是中国最大的自然语言处理学者和专家的社区。经过二十多年的发展,CCL被广泛认为是最权威的,全国最具影响力、规模最大的NLP会议。随着计算机语言处理在中国的发展,CCL已经成为在全国范围内传播计算语言新学术和技术工作的主要论坛。

×

扫一扫关注 方正集团官方微信