售前电话
135-3656-7657
售前电话 : 135-3656-7657
| 中文临床医学文本分词与命名实体挑战赛开启报名-珠海名科电子科技有限公司
中文临床医学文本分词与命名实体挑战赛,是由北京爱数智慧和香港中文大学(深圳)联合主办,并获得英特尔团队的大力支持。挑战赛于9月2日正式开启注册报名,整个赛程持续到10月28日止,颁奖典礼将在由中国计算机学会(CCF)主办的2021中国计算机大会(CNCC)技术论坛“多模态在人机交互场景下的思考与挑战”现场举行。
本次NLP竞赛围绕中文临床医学文本内容,对医疗文本的分词和命名实体进行自然语言处理任务,以医疗问答为切入点,推动NLP技术创新,努力扩展到更多应用场景。
本次竞赛奖金丰厚,面向社会各界开放,欢迎全国高校学生、AI科技型企业和自然语言处理爱好者报名参加!
赛题背景
和众多行业一样,医疗行业是人工智能重要落地行业,人工智能将转变传统医疗服务模式并走向智能化。现在新医改大背景下,智慧医疗水平不断提升,服务能力不断增强,患者与医务人员、医疗机构之间的沟通互动愈加频繁化和信息化。在实现智慧医疗过程中,人工智能对辅助治疗、医疗文本分类等领域发挥着重要作用。使得最终提升治疗效率、降低医疗成本、个性化医疗服务的目标成为可能。
人工智能对医学文本的识别离不开自然语言处理(NLP)技术,自然语言处理是人工智能领域的一个重要方向,科研领域一直没有停止在NLP技术上创新步伐。自然语言处理主要应用于机器翻译、舆情监测、观点提取、文本分类、语音识别等方面。其中命名实体识别是文本挖掘系统中的一个重要的基础步骤,命名实体识别的准确程度是其他文本挖掘技术如信息提取或文本分类等的先决条件。
赛题任务
本次大赛的任务是参赛者对主办方提供的中文临床医学病例样本,进行医学文本分词和命名实体的自然语言处理任务。数据类型均为中文临床医学病例文本数据,该文本数据是已被标注好的结构化文本。希望参赛者结合当下前沿自然语言处理和深度学习技术,有效推动人工智能在医学文本领域应用。
数据简介
本次比赛使用的原始医疗数据来源于中文医疗问答语料库。该医疗问答语料库包含约20万组从互联网资讯平台获取的医患问答,涵盖内科、外科等共计15个科室,共计约4500万字。其中,每组问答包括标题、患者问题、所属科室、关键词、以及平台注册医生的回答等信息。该数据集可用于包括智能医疗问答、自动分诊、关键词抽取等多项中文自然语言处理任务。关于该语料库的使用和下载等更多信息,请参考
。
在本次比赛中,比赛项目组织方从最基础的自然语言处理任务出发,关注医疗分词和医疗术语标注这两个最基础的自然语言处理任务。比赛项目组织方采用人工方式标注了1000组医患问答中患者问题和医生回答部分的分词和医疗术语,共计约22万字,5500余句。其中医疗智能问答,分词部分基本采用宾州中文树库(即 Penn ,CTB5)的分词规范,并在其基础上针对中文医疗领域的语言特点对其稍加改进。医疗术语部分,比赛项目组织方在借鉴了现有主流的中文医疗命名实体识别的标注规范的基础上,结合实际医疗诊断中存在的需求,定义了近20个类别的医疗术语(例如疾病、症状、病情程度、身体部位、科室、治疗方案等),并以此为基础标注数据,成为现存公开中文医疗术语标注数据中包含医疗术语类别最多的数据集。
本次比赛使用的样本数据集和测试数据集将分批次发放,参赛选手需提交模型在最终的开放测试集上的预测结果,用于评测模型的性能。
组队规则
1. 原则上,本次竞赛以团队形式参与,每个团队不超过4个人。
2. 参赛团队在比赛过程中被要求提供个人身份信息,如邮箱、姓名、电话等,参赛者须保证提供信息真实性。
3. 竞赛所使用的数据必须是主办方提供的数据集医疗智能问答,不得使用外部数据。
竞赛议程
竞赛分前期报名准备,正式竞赛、公布结果和最后颁奖几个环节。前期报名完成后,参赛者会加入竞赛微信群,比赛中遇到任何问题都可通过微信群进行咨询。