结合多头自注意力机制与BiLSTM-CRF的中文临床实体识别
作者:罗熹 夏先运 安莹 陈先来
来源:《湖南大学学报·自然科学版》2021年第04期
摘 要:命名实体是电子病历中相关医学知识的主要载体,因此,临床命名实体识别(Clinical Named Entity Recognition,CNER)也就成为了临床文本分析处理的基础性任务之一. 由于文本结构和语言等方面的特殊性,面向中文电子病历(Electronic Medical Records,EMRs)的临床命名实体识别依然存在着巨大的挑战. 本文提出了一种基于多头自注意力神经网络的中文临床命名实体识别方法. 该方法使用了一种新颖的融合领域词典的字符级特征表示方法,并在BiLSTM-CRF模型的基础上,结合多头自注意力机制来准确地捕获字符间潜在的依赖权重、语境和语义关联等多方面的特征,从而有效地提升了中文临床命名实体的识别能力. 实验结果表明本文方法超过现有的其他方法获得了较优的识别性能.
关键词:中文电子病历;命名实体识别;长短期记忆;多头自注意力
中图分类号:TP391 文献标志码:A
Chinese CNER Combined with Multi-head
Self-attention and BiLSTM-CRF
LUO Xi1,2,XIA Xianyun2,AN Ying1,CHEN Xianlai1
(1. Big Data Institute,Central South University,Changsha 410083,China;
2. Key Laboratory of Network Crime Investigation of Hunan Provincial Colleges,
Hunan Police Academy,Changsha 410138,China)
Abstract:Named entity is the main carrier of relevant medical knowledge in Electronic Medical Records (EMRs),so clinical named entity recognition(CNER) has become one of the basic and crucial tasks of clinical text analysis and processing. Due to the particularity of medical text structure and Chinese language,the recognition of clinical named entities for Chinese EMRs still faces great challenges. In this paper, a Chinese clinical named entity recognition method based on multi-head self-attention neural network is proposed . In this method, a character-level feature representation method combined with a
domain dictionary is presented. Moreover, based on the BiLSTM-CRF model, a multi-head self-attention mechanism is incorporated to accurately capture the multiple features from different aspects, such as dependency weights between characters and contextual semantic relationships, thereby effectively improving the ability of Chinese clinical named entity recognition. Experimental results demonstrate that the proposed method outperforms other existing methods and has the best recognition performance.
Key words:Chinese electronic medical record;named entity recognition;long short-term memory;multi-head self-attention
隨着医疗信息化的快速发展,医疗机构中积累了大量的电子病历数据. 这些电子病历是病人在医院就诊及治疗过程中所产生的重要记录,包含了临床文本、医学图表、医学影像等多种类型的临床记录数据. 其中,诸如主诉、诊断结果、入院/出院记录和治疗过程等临床文本中蕴含着极为丰富的临床经验知识以及与病人健康状态紧密相关的临床信息,但是,这些以非结构化自由文本形式存储的信息很难直接加以分析和利用,需要首先通过自然语言处理技术进行必要的信息抽取,准确地识别出文本中的相关概念、属性和语义关系等重要信息. 命名实体(Named Entity,NE)是电子病历中相关医学知识的主要载体,因此,临床命名实体识别也就成为了临床文本分析处理极为关键的基础性任务之一.
近年来,关于临床命名实体识别的研究得到了研究人员大量的关注,并在英文临床文本领域产生了一系列的研究成果,其中基于统计机器学习方法的条件随机场(CRF)[1]和基于深度学习方法的长短时记忆网络与条件随机场(BiLSTM-CRF)[2]应用最为广
泛. 然而,由于在语言结构和表达形式等方面的特殊性,面向中文电子病历的临床命名实体识别依然存在着巨大的挑战.
随着深度学习技术的发展,很多研究人员尝试使用基于循环神经网络(RNN)的深度学习模型解决中文临床命名实体识别任务,该模型将中文文本中的一个句子看作是一条由汉字词语或者字符组成的序列,然后执行循环遍历,利用RNN中的隐藏单元来学习文本中的上下文信息. 但是,已有的研究方法仍然存在着很多的欠缺. 首先,传统的RNN学习长序列中的依赖关系的能力不足,当文本序列较长时容易损失大量有用信息. 其次,现有的方法大多仅将一个文本序列映射为单一的表示,缺乏获取多角度文本序列特征的能力. 此外,这些基于深度学习模型的方法的识别性能很大程度上依赖于大量的标注训练数据集,而且未能对已有的领域特征加以有效的利用. 再加上中文临床文本中存在的很多语法及表述方面的问题,如大量的医学专有名词、非标准化的名词缩写以及由于书写或表达错误导致的噪声,都严重地影响了中文临床文本命名实体识别的性能.
为了解决以上的这些挑战,本文提出了一种结合多头自注意力机制与BiLSTM-CRF的深度网络模型(Multi-Head self-Attention BiLSTM-CRF,MHA-BiLSTM-CRF). 该模型将中文文本字符特征和临床领域知识特征进行融合,以获得更全面的字符级嵌入表示. 然后使用BiLSTM网络从输入序列中捕获相关的时序特征和上下文关系,同时引入多头自注意力机制,从多个角度获得中文临床文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,从而有效地提升中文临床命名实体的识别能力.
1 相关工作
1.1 中文临床命名实体识别
命名实体识别(Named Entity Recognition,NER)本质上可以看成是一个多标签序列分类问题. 它以由多个字符或词语构成的文本序列为输入,旨在识别文本中的专有名词、数字信息和其他重要名词并将其分类为预先定义的类别,例如人员名称、组织、位置、时间表达等. 多年来,研究人员针对该问题开展了广泛的研究并提出了许多命名实体识别的相关方法[3]. 这些方法大致可以分为三种类型:基于规则和词典匹配的方法、基于传统特征工程的机器学习的方法[4-6]以及目前比较流行的基于深度学习的方法[2,7-9].
在临床领域中,命名实体识别的目标是从给定的临床文本中提取出那些与医疗过程密切相关的实体指代,并将它们准确地划分为疾病、症状、检查、身体部位以及治疗等特定的实体类别. 目前,研究人员针对英文临床文本的命名实体识别已经开展了大量的研究[3]. 而且,得益于英文语言所具有的以空格作为分割符、专业术语的字母大写特征等天然优势,使得许多命名实体识别方法在英文临床文本中得到了较为成功的应用. 然而,由于不同语言在句法结构、表达方式等方面的特殊性,针对其他语言的临床文本,特别是中文临床文本的命名实体识别依然是一项极具挑战性的任务.
为了推动中文临床命名实体识别技术的发展,2017年由中文信息学会组织的全国知识图谱与语义计算大会(CCKS2017)首次设立了中文临床文本命名实体识别相关的测评任务,吸引了大量研究人员的积极参与并产生了一系列较为有效的中文命名实体识别方法. 例如,Li等人[10]将中文临床命名实体识别看作一个词级别的序列标注任务,提出了一个基于BiLSTM-CRF的深度模型,并通过使用额外的医疗词典及数据集作为补充来得到更加丰富的、具有领域特征的词向量,从而有效地提高识别的准确率. Ouyang等人[11]
结合分词特征、词性特征以及医疗词典特征,提出了一种基于n-gram字符表示策略的BiLSTM-CRF模型. Xia等人[12]则在BiLSTM-CRF模型的基础上引入自学习和主动学习策略,充分利用未标注数据来增强模型的识别能力. 此外,Hu等人[13]还提出了一种基于投票的混合模型,将基于规则的方法、基于CRF的方法以及融合特征的RNN方法进行结合,以有效地实现中文临床文本中的實体识别.
近年来,研究人员在之前工作的基础上对CNER方法进行了大量的改进. Wang等人[14]将数据驱动的深度学习方法与知识驱动的词典方法结合起来,提出了一种融合领域词典的深度神经网络模型,并利用一种改进的词典特征表示方法,在中文临床文本上获得了较高的命名实体识别性能. Qiu等人[15]采用了一个带条件随机场的残差卷积神经网络模型(RD-CNN-CRF)来解决中文临床命名实体识别的问题. 该方法首先将汉字和字典特征映射为对应的向量表示,然后将其输入到RD-CNN-CRF模型中以捕获相关的上下文特征. 由于CNN出色的并行执行能力,该方法在识别能力和训练时间等方面获得了与现有其他基于RNN的方法相当或更高的性能. Tang等人[16]则提出了一种基于注意力机制的CNN-LSTM-CRF模型. 该模型通过引入CNN层和注意力层来更好地捕获词语的局部上下文信息以及词间关联强度,从而有效地扩展和增强了BiLSTM-CRF模型的学习能力. 尽管上述改进方法在提升中文临床命名实体识别性能方面取得了一定的效果,但它们大多没有充分利用中文文本序列中重要的全局特性,而且往往忽略了数据集中临床实体分布的不均衡性,从而严重影响了其实体识别的准确性.
因此,为了弥补现有方法的上述缺陷,本文提出了一种基于多头自注意力机制的BiLSTM-CRF模型,通过有效地捕获和融合临床文本中字符自身特征、字符间的依赖关系、文本序列中的语义和上下文信息以及词典特征等多层面的文本特征来提升中文临床命
名实体的识别能力.
1.2 多头自注意力机制
Google机器翻译团队在2017年发表的论文中提出了一种包含自注意力以及多头自注意力机制的神经网络架构,并在机器翻译任务中取得了较为出色的效果[17].自注意力机制是一种特殊的注意力机制,它通过计算单个文本序列中不同位置字符间的关联关系,以便获得序列的交互表示. 而多头自注意力机制则是通过结合多次并行的自注意力计算来捕获同一序列在不同表示子空间上的信息,进而从多角度多层面得到更全面的相关特征. 自注意力机制自其被提出开始就在自然语言处理相关的诸多领域得到了大量应用,例如,自动文本摘要、自然语言推理、机器翻译及语言理解等.
随着深度学习技术的发展,很多研究人员尝试使用基于循环神经网络(RNN)的深度学习模型解决中文临床命名实体识别任务,该模型将中文文本中的一个句子看作是一条由汉字词语或者字符组成的序列,然后执行循环遍历,利用RNN中的隐藏单元来学习文本中的上下文信息. 但是,已有的研究方法仍然存在着很多的欠缺. 首先,传统的RNN学习长序列中的依赖关系的能力不足,当文本序列较长时容易损失大量有用信息. 其次,现有的方法大多仅将一个文本序列映射为单一的表示,缺乏获取多角度文本序列特征的能力. 此外,这些基于深度学习模型的方法的识别性能很大程度上依赖于大量的标注训练数据集,而且未能对已有的领域特征加以有效的利用. 再加上中文临床文本中存在的很多语法及表述方面的问题,如大量的医学专有名词、非标准化的名词缩写以及由于书写或表达错误导致的噪声,都严重地影响了中文临床文本命名实体识别的性能.
为了解决以上的这些挑战,本文提出了一种结合多头自注意力机制与BiLSTM-CRF的深度网络模型(Multi-Head self-Attention BiLSTM-CRF,MHA-BiLSTM-CRF). 该模型将中文文本字符特征和临床领域知识特征进行融合,以获得更全面的字符级嵌入表示. 然后使用BiLSTM网络从输入序列中捕获相关的时序特征和上下文关系,同时引入多头自注意力机制,从多个角度获得中文临床文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,从而有效地提升中文临床命名实体的识别能力.
1 相关工作
1.1 中文临床命名实体识别
命名实体识别(Named Entity Recognition,NER)本质上可以看成是一个多标签序列分类问题. 它以由多个字符或词语构成的文本序列为输入,旨在识别文本中的专有名词、数字信息和其他重要名词并将其分类为预先定义的类别,例如人员名称、组织、位置、时间表达等. 多年来,研究人员针对该问题开展了广泛的研究并提出了许多命名实体识别的相关方法[3]. 这些方法大致可以分为三种类型:基于规则和词典匹配的方法、基于传统特征工程的机器学习的方法[4-6]以及目前比较流行的基于深度学习的方法[2,7-9].
在临床领域中,命名实体识别的目标是从给定的临床文本中提取出那些与医疗过程密切相关的实体指代,并将它们准确地划分为疾病、症状、检查、身体部位以及治疗等特定的实体类别. 目前,研究人员针对英文临床文本的命名实体识别已经开展了大量的研究[3]. 而且,得益于英文语言所具有的以空格作为分割符、专业术语的字母大写特征等天然优势,使得许多命名实体识别方法在英文临床文本中得到了较为成功的应用. 然而,由
于不同语言在句法结构、表达方式等方面的特殊性,针对其他语言的临床文本,特别是中文临床文本的命名实体识别依然是一项极具挑战性的任务.
为了推动中文临床命名实体识别技术的发展,2017年由中文信息学会组织的全国知识图谱与语义计算大会(CCKS2017)首次设立了中文临床文本命名实体识别相关的测评任务,吸引了大量研究人员的积极参与并产生了一系列较为有效的中文命名实体识别方法. 例如,Li等人[10]将中文临床命名实体识别看作一个词级别的序列标注任务,提出了一个基于BiLSTM-CRF的深度模型,并通过使用额外的医疗词典及数据集作为补充来得到更加丰富的、具有领域特征的词向量,从而有效地提高识别的准确率. Ouyang等人[11]结合分词特征、词性特征以及医疗词典特征,提出了一种基于n-gram字符表示策略的BiLSTM-CRF模型. Xia等人[12]则在BiLSTM-CRF模型的基础上引入自学习和主动学习策略,充分利用未标注数据来增强模型的识别能力. 此外,Hu等人[13]还提出了一种基于投票的混合模型,将基于规则的方法、基于CRF的方法以及融合特征的RNN方法进行结合,以有效地实现中文临床文本中的实体识别.
近年来,研究人员在之前工作的基础上对CNER方法进行了大量的改进. Wang等人[14]将数据驱动的深度学习方法与知识驱动的词典方法结合起来,提出了一种融合领域词典的深度神经网络模型,并利用一种改进的词典特征表示方法,在中文临床文本上获得了较高的命名实体识别性能. Qiu等人[15]采用了一个带条件随机场的残差卷积神经网络模型(RD-CNN-CRF)来解决中文临床命名实体识别的问题. 该方法首先将汉字和字典特征映射为对应的向量表示,然后将其输入到RD-CNN-CRF模型中以捕获相关的上下文特征. 由于CNN出色的并行执行能力,该方法在识别能力和训练时间等方面获得了与现有其他基于RNN的方法相当或更高的性能. Tang等人[16]则提出了一种基于注意力机制
的CNN-LSTM-CRF模型. 该模型通过引入CNN层和注意力层来更好地捕获词语的局部上下文信息以及词间关联强度,从而有效地扩展和增强了BiLSTM-CRF模型的学习能力. 尽管上述改进方法在提升中文临床命名实体识别性能方面取得了一定的效果,但它们大多没有充分利用中文文本序列中重要的全局特性,而且往往忽略了数据集中临床实体分布的不均衡性,从而严重影响了其实体识别的准确性.
因此,为了弥补现有方法的上述缺陷,本文提出了一种基于多头自注意力机制的BiLSTM-CRF模型,通过有效地捕获和融合临床文本中字符自身特征、字符间的依赖关系、文本序列中的语义和上下文信息以及词典特征等多层面的文本特征来提升中文临床命名实体的识别能力.
1.2 多頭自注意力机制
Google机器翻译团队在2017年发表的论文中提出了一种包含自注意力以及多头自注意力机制的神经网络架构,并在机器翻译任务中取得了较为出色的效果[17].自注意力机制是一种特殊的注意力机制,它通过计算单个文本序列中不同位置字符间的关联关系,以便获得序列的交互表示. 而多头自注意力机制则是通过结合多次并行的自注意力计算来捕获同一序列在不同表示子空间上的信息,进而从多角度多层面得到更全面的相关特征. 自注意力机制自其被提出开始就在自然语言处理相关的诸多领域得到了大量应用,例如,自动文本摘要、自然语言推理、机器翻译及语言理解等.
随着深度学习技术的发展,很多研究人员尝试使用基于循环神经网络(RNN)的深度学习模型解决中文临床命名实体识别任务,该模型将中文文本中的一个句子看作是一
条由汉字词语或者字符组成的序列,然后执行循环遍历,利用RNN中的隐藏单元来学习文本中的上下文信息. 但是,已有的研究方法仍然存在着很多的欠缺. 首先,传统的RNN学习长序列中的依赖关系的能力不足,当文本序列较长时容易损失大量有用信息. 其次,现有的方法大多仅将一个文本序列映射为单一的表示,缺乏获取多角度文本序列特征的能力. 此外,这些基于深度学习模型的方法的识别性能很大程度上依赖于大量的标注训练数据集,而且未能对已有的领域特征加以有效的利用. 再加上中文临床文本中存在的很多语法及表述方面的问题,如大量的医学专有名词、非标准化的名词缩写以及由于书写或表达错误导致的噪声,都严重地影响了中文临床文本命名实体识别的性能.
为了解决以上的这些挑战,本文提出了一种结合多头自注意力机制与BiLSTM-CRF的深度网络模型(Multi-Head self-Attention BiLSTM-CRF,MHA-BiLSTM-CRF). 该模型将中文文本字符特征和临床领域知识特征进行融合,以获得更全面的字符级嵌入表示. 然后使用BiLSTM网络从输入序列中捕获相关的时序特征和上下文关系,同时引入多头自注意力机制,从多个角度获得中文临床文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,从而有效地提升中文临床命名实体的识别能力.
1 相关工作
1.1 中文临床命名实体识别
命名实体识别(Named Entity Recognition,NER)本质上可以看成是一个多标签序列分类问题. 它以由多个字符或词语构成的文本序列为输入,旨在识别文本中的专有名词、数字信息和其他重要名词并将其分类为预先定义的类别,例如人员名称、组织、位
置、时间表达等. 多年来,研究人员针对该问题开展了广泛的研究并提出了许多命名实体識别的相关方法[3]. 这些方法大致可以分为三种类型:基于规则和词典匹配的方法、基于传统特征工程的机器学习的方法[4-6]以及目前比较流行的基于深度学习的方法[2,7-9].
在临床领域中,命名实体识别的目标是从给定的临床文本中提取出那些与医疗过程密切相关的实体指代,并将它们准确地划分为疾病、症状、检查、身体部位以及治疗等特定的实体类别. 目前,研究人员针对英文临床文本的命名实体识别已经开展了大量的研究[3]. 而且,得益于英文语言所具有的以空格作为分割符、专业术语的字母大写特征等天然优势,使得许多命名实体识别方法在英文临床文本中得到了较为成功的应用. 然而,由于不同语言在句法结构、表达方式等方面的特殊性,针对其他语言的临床文本,特别是中文临床文本的命名实体识别依然是一项极具挑战性的任务.
为了推动中文临床命名实体识别技术的发展,2017年由中文信息学会组织的全国知识图谱与语义计算大会(CCKS2017)首次设立了中文临床文本命名实体识别相关的测评任务,吸引了大量研究人员的积极参与并产生了一系列较为有效的中文命名实体识别方法. 例如,Li等人[10]将中文临床命名实体识别看作一个词级别的序列标注任务,提出了一个基于BiLSTM-CRF的深度模型,并通过使用额外的医疗词典及数据集作为补充来得到更加丰富的、具有领域特征的词向量,从而有效地提高识别的准确率. Ouyang等人[11]结合分词特征、词性特征以及医疗词典特征,提出了一种基于n-gram字符表示策略的BiLSTM-CRF模型. Xia等人[12]则在BiLSTM-CRF模型的基础上引入自学习和主动学习策略,充分利用未标注数据来增强模型的识别能力. 此外,Hu等人[13]还提出了一种基于投票的混合模型,将基于规则的方法、基于CRF的方法以及融合特征的RNN方法进行结合,以有效地实现中文临床文本中的实体识别.
近年来,研究人员在之前工作的基础上对CNER方法进行了大量的改进. Wang等人[14]将数据驱动的深度学习方法与知识驱动的词典方法结合起来,提出了一种融合领域词典的深度神经网络模型,并利用一种改进的词典特征表示方法,在中文临床文本上获得了较高的命名实体识别性能. Qiu等人[15]采用了一个带条件随机场的残差卷积神经网络模型(RD-CNN-CRF)来解决中文临床命名实体识别的问题. 该方法首先将汉字和字典特征映射为对应的向量表示,然后将其输入到RD-CNN-CRF模型中以捕获相关的上下文特征. 由于CNN出色的并行执行能力,该方法在识别能力和训练时间等方面获得了与现有其他基于RNN的方法相当或更高的性能. Tang等人[16]则提出了一种基于注意力机制的CNN-LSTM-CRF模型. 该模型通过引入CNN层和注意力层来更好地捕获词语的局部上下文信息以及词间关联强度,从而有效地扩展和增强了BiLSTM-CRF模型的学习能力. 尽管上述改进方法在提升中文临床命名实体识别性能方面取得了一定的效果,但它们大多没有充分利用中文文本序列中重要的全局特性,而且往往忽略了数据集中临床实体分布的不均衡性,从而严重影响了其实体识别的准确性.
因此,为了弥补现有方法的上述缺陷,本文提出了一种基于多头自注意力机制的BiLSTM-CRF模型,通过有效地捕获和融合临床文本中字符自身特征、字符间的依赖关系、文本序列中的语义和上下文信息以及词典特征等多层面的文本特征来提升中文临床命名实体的识别能力.
1.2 多头自注意力机制
Google机器翻译团队在2017年发表的论文中提出了一种包含自注意力以及多头自注意力机制的神经网络架构,并在机器翻译任务中取得了较为出色的效果[17].自注意力
机制是一种特殊的注意力机制,它通过计算单个文本序列中不同位置字符间的关联关系,以便获得序列的交互表示. 而多头自注意力机制则是通过结合多次并行的自注意力计算来捕获同一序列在不同表示子空间上的信息,进而从多角度多层面得到更全面的相关特征. 自注意力机制自其被提出开始就在自然语言处理相关的诸多领域得到了大量应用,例如,自动文本摘要、自然语言推理、机器翻译及语言理解等.
随着深度学习技术的发展,很多研究人员尝试使用基于循环神经网络(RNN)的深度学习模型解决中文临床命名实体识别任务,该模型将中文文本中的一个句子看作是一条由汉字词语或者字符组成的序列,然后执行循环遍历,利用RNN中的隐藏单元来学习文本中的上下文信息. 但是,已有的研究方法仍然存在着很多的欠缺. 首先,传统的RNN学习长序列中的依赖关系的能力不足,当文本序列较长时容易损失大量有用信息. 其次,现有的方法大多仅将一个文本序列映射为单一的表示,缺乏获取多角度文本序列特征的能力. 此外,这些基于深度学习模型的方法的识别性能很大程度上依赖于大量的标注训练数据集,而且未能对已有的领域特征加以有效的利用. 再加上中文临床文本中存在的很多语法及表述方面的问题,如大量的医学专有名词、非标准化的名词缩写以及由于书写或表达错误导致的噪声,都严重地影响了中文临床文本命名实体识别的性能.
为了解决以上的这些挑战,本文提出了一种结合多头自注意力机制与BiLSTM-CRF的深度网络模型(Multi-Head self-Attention BiLSTM-CRF,MHA-BiLSTM-CRF). 该模型将中文文本字符特征和临床领域知识特征进行融合,以获得更全面的字符级嵌入表示. 然后使用BiLSTM网络从输入序列中捕获相关的时序特征和上下文关系,同时引入多头自注意力机制,从多个角度获得中文临床文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,从而有效地提升中文临床命名实体的识别能力.
1 相关工作
1.1 中文临床命名实体识别
命名实体识别(Named Entity Recognition,NER)本质上可以看成是一个多标签序列分类问题. 它以由多个字符或词语构成的文本序列为输入,旨在识别文本中的專有名词、数字信息和其他重要名词并将其分类为预先定义的类别,例如人员名称、组织、位置、时间表达等. 多年来,研究人员针对该问题开展了广泛的研究并提出了许多命名实体识别的相关方法[3]. 这些方法大致可以分为三种类型:基于规则和词典匹配的方法、基于传统特征工程的机器学习的方法[4-6]以及目前比较流行的基于深度学习的方法[2,7-9].
在临床领域中,命名实体识别的目标是从给定的临床文本中提取出那些与医疗过程密切相关的实体指代,并将它们准确地划分为疾病、症状、检查、身体部位以及治疗等特定的实体类别. 目前,研究人员针对英文临床文本的命名实体识别已经开展了大量的研究[3]. 而且,得益于英文语言所具有的以空格作为分割符、专业术语的字母大写特征等天然优势,使得许多命名实体识别方法在英文临床文本中得到了较为成功的应用. 然而,由于不同语言在句法结构、表达方式等方面的特殊性,针对其他语言的临床文本,特别是中文临床文本的命名实体识别依然是一项极具挑战性的任务.
为了推动中文临床命名实体识别技术的发展,2017年由中文信息学会组织的全国知识图谱与语义计算大会(CCKS2017)首次设立了中文临床文本命名实体识别相关的测评任务,吸引了大量研究人员的积极参与并产生了一系列较为有效的中文命名实体识别方法. 例如,Li等人[10]将中文临床命名实体识别看作一个词级别的序列标注任务,提出了
一个基于BiLSTM-CRF的深度模型,并通过使用额外的医疗词典及数据集作为补充来得到更加丰富的、具有领域特征的词向量,从而有效地提高识别的准确率. Ouyang等人[11]结合分词特征、词性特征以及医疗词典特征,提出了一种基于n-gram字符表示策略的BiLSTM-CRF模型. Xia等人[12]则在BiLSTM-CRF模型的基础上引入自学习和主动学习策略,充分利用未标注数据来增强模型的识别能力. 此外,Hu等人[13]还提出了一种基于投票的混合模型,将基于规则的方法、基于CRF的方法以及融合特征的RNN方法进行结合,以有效地实现中文临床文本中的实体识别.
近年来,研究人员在之前工作的基础上对CNER方法进行了大量的改进. Wang等人[14]将数据驱动的深度学习方法与知识驱动的词典方法结合起来,提出了一种融合领域词典的深度神经网络模型,并利用一种改进的词典特征表示方法,在中文临床文本上获得了较高的命名实体识别性能. Qiu等人[15]采用了一个带条件随机场的残差卷积神经网络模型(RD-CNN-CRF)来解决中文临床命名实体识别的问题. 该方法首先将汉字和字典特征映射为对应的向量表示,然后将其输入到RD-CNN-CRF模型中以捕获相关的上下文特征. 由于CNN出色的并行执行能力,该方法在识别能力和训练时间等方面获得了与现有其他基于RNN的方法相当或更高的性能. Tang等人[16]则提出了一种基于注意力机制的CNN-LSTM-CRF模型. 该模型通过引入CNN层和注意力层来更好地捕获词语的局部上下文信息以及词间关联强度,从而有效地扩展和增强了BiLSTM-CRF模型的学习能力. 尽管上述改进方法在提升中文临床命名实体识别性能方面取得了一定的效果,但它们大多没有充分利用中文文本序列中重要的全局特性,而且往往忽略了数据集中临床实体分布的不均衡性,从而严重影响了其实体识别的准确性.
因此,为了弥补现有方法的上述缺陷,本文提出了一种基于多头自注意力机制的
BiLSTM-CRF模型,通过有效地捕获和融合临床文本中字符自身特征、字符间的依赖关系、文本序列中的语义和上下文信息以及词典特征等多层面的文本特征来提升中文临床命名实体的识别能力.
1.2 多头自注意力机制
Google机器翻译团队在2017年发表的论文中提出了一种包含自注意力以及多头自注意力机制的神经网络架构,并在机器翻译任务中取得了较为出色的效果[17].自注意力机制是一种特殊的注意力机制,它通过计算单个文本序列中不同位置字符间的关联关系,以便获得序列的交互表示. 而多头自注意力机制则是通过结合多次并行的自注意力计算来捕获同一序列在不同表示子空间上的信息,进而从多角度多层面得到更全面的相关特征. 自注意力机制自其被提出开始就在自然语言处理相关的诸多领域得到了大量应用,例如,自动文本摘要、自然语言推理、机器翻译及语言理解等.
随着深度学习技术的发展,很多研究人员尝试使用基于循环神经网络(RNN)的深度学习模型解决中文临床命名实体识别任务,该模型将中文文本中的一个句子看作是一条由汉字词语或者字符组成的序列,然后执行循环遍历,利用RNN中的隐藏单元来学习文本中的上下文信息. 但是,已有的研究方法仍然存在着很多的欠缺. 首先,传统的RNN学习长序列中的依赖关系的能力不足,当文本序列较长时容易损失大量有用信息. 其次,现有的方法大多仅将一个文本序列映射为单一的表示,缺乏获取多角度文本序列特征的能力. 此外,这些基于深度学习模型的方法的识别性能很大程度上依赖于大量的标注训练数据集,而且未能对已有的领域特征加以有效的利用. 再加上中文临床文本中存在的很多语法及表述方面的问题,如大量的医学专有名词、非标准化的名词缩写以及由于书写或表达
错误导致的噪声,都严重地影响了中文临床文本命名实体识别的性能.
为了解决以上的这些挑战,本文提出了一种结合多头自注意力机制与BiLSTM-CRF的深度网络模型(Multi-Head self-Attention BiLSTM-CRF,MHA-BiLSTM-CRF). 该模型将中文文本字符特征和临床领域知识特征进行融合,以获得更全面的字符级嵌入表示. 然后使用BiLSTM网络从输入序列中捕获相关的时序特征和上下文关系,同时引入多头自注意力机制,从多个角度获得中文临床文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,从而有效地提升中文临床命名实体的识别能力.
1 相关工作
1.1 中文临床命名实体识别
命名实体识别(Named Entity Recognition,NER)本质上可以看成是一个多标签序列分类问题. 它以由多个字符或词语构成的文本序列为输入,旨在识别文本中的专有名词、数字信息和其他重要名词并将其分类为预先定义的类别,例如人员名称、组织、位置、时间表达等. 多年来,研究人员针对该问题开展了广泛的研究并提出了许多命名实体识别的相关方法[3]. 这些方法大致可以分为三种类型:基于规则和词典匹配的方法、基于传统特征工程的机器学习的方法[4-6]以及目前比较流行的基于深度学习的方法[2,7-9].
在临床领域中,命名实体识别的目标是从给定的临床文本中提取出那些与医疗过程密切相关的实体指代,并将它们准确地划分为疾病、症状、检查、身体部位以及治疗等特定的实体类别. 目前,研究人员针对英文临床文本的命名实体识别已经开展了大量的研
究[3]. 而且,得益于英文语言所具有的以空格作为分割符、专业术语的字母大写特征等天然优势,使得许多命名实体识别方法在英文临床文本中得到了较为成功的应用. 然而,由于不同语言在句法结构、表达方式等方面的特殊性,针对其他语言的临床文本,特别是中文临床文本的命名实体识别依然是一项极具挑战性的任务.
为了推动中文临床命名实体识别技术的发展,2017年由中文信息学会组织的全国知识图谱与语义计算大会(CCKS2017)首次设立了中文临床文本命名实体识别相关的测评任务,吸引了大量研究人员的积极参与并产生了一系列较为有效的中文命名实体识别方法. 例如,Li等人[10]将中文临床命名实体识别看作一个词级别的序列标注任务,提出了一个基于BiLSTM-CRF的深度模型,并通过使用额外的医疗词典及数据集作为补充来得到更加丰富的、具有领域特征的词向量,从而有效地提高识别的准确率. Ouyang等人[11]结合分词特征、词性特征以及医疗词典特征,提出了一种基于n-gram字符表示策略的BiLSTM-CRF模型. Xia等人[12]则在BiLSTM-CRF模型的基础上引入自学习和主动学习策略,充分利用未标注数据来增强模型的识别能力. 此外,Hu等人[13]还提出了一种基于投票的混合模型,将基于规则的方法、基于CRF的方法以及融合特征的RNN方法进行结合,以有效地实现中文临床文本中的实体识别.
近年来,研究人员在之前工作的基础上对CNER方法进行了大量的改进. Wang等人[14]将数据驱动的深度学习方法与知识驱动的词典方法结合起来,提出了一种融合领域词典的深度神经网络模型,并利用一种改进的词典特征表示方法,在中文临床文本上获得了较高的命名实体识别性能. Qiu等人[15]采用了一个带条件随机场的残差卷积神经网络模型(RD-CNN-CRF)来解决中文临床命名实体识别的问题. 该方法首先将汉字和字典特征映射为对应的向量表示,然后将其输入到RD-CNN-CRF模型中以捕获相关的上下文
特征. 由于CNN出色的并行执行能力,该方法在识别能力和训练时间等方面獲得了与现有其他基于RNN的方法相当或更高的性能. Tang等人[16]则提出了一种基于注意力机制的CNN-LSTM-CRF模型. 该模型通过引入CNN层和注意力层来更好地捕获词语的局部上下文信息以及词间关联强度,从而有效地扩展和增强了BiLSTM-CRF模型的学习能力. 尽管上述改进方法在提升中文临床命名实体识别性能方面取得了一定的效果,但它们大多没有充分利用中文文本序列中重要的全局特性,而且往往忽略了数据集中临床实体分布的不均衡性,从而严重影响了其实体识别的准确性.
因此,为了弥补现有方法的上述缺陷,本文提出了一种基于多头自注意力机制的BiLSTM-CRF模型,通过有效地捕获和融合临床文本中字符自身特征、字符间的依赖关系、文本序列中的语义和上下文信息以及词典特征等多层面的文本特征来提升中文临床命名实体的识别能力.
1.2 多头自注意力机制
Google机器翻译团队在2017年发表的论文中提出了一种包含自注意力以及多头自注意力机制的神经网络架构,并在机器翻译任务中取得了较为出色的效果[17].自注意力机制是一种特殊的注意力机制,它通过计算单个文本序列中不同位置字符间的关联关系,以便获得序列的交互表示. 而多头自注意力机制则是通过结合多次并行的自注意力计算来捕获同一序列在不同表示子空间上的信息,进而从多角度多层面得到更全面的相关特征. 自注意力机制自其被提出开始就在自然语言处理相关的诸多领域得到了大量应用,例如,自动文本摘要、自然语言推理、机器翻译及语言理解等.
随着深度学习技术的发展,很多研究人员尝试使用基于循环神经网络(RNN)的深度学习模型解决中文临床命名实体识别任务,该模型将中文文本中的一个句子看作是一条由汉字词语或者字符组成的序列,然后执行循环遍历,利用RNN中的隐藏单元来学习文本中的上下文信息. 但是,已有的研究方法仍然存在着很多的欠缺. 首先,传统的RNN学习长序列中的依赖关系的能力不足,当文本序列较长时容易损失大量有用信息. 其次,现有的方法大多仅将一个文本序列映射为单一的表示,缺乏获取多角度文本序列特征的能力. 此外,这些基于深度学习模型的方法的识别性能很大程度上依赖于大量的标注训练数据集,而且未能对已有的领域特征加以有效的利用. 再加上中文临床文本中存在的很多语法及表述方面的问题,如大量的医学专有名词、非标准化的名词缩写以及由于书写或表达错误导致的噪声,都严重地影响了中文临床文本命名实体识别的性能.
为了解决以上的这些挑战,本文提出了一种结合多头自注意力机制与BiLSTM-CRF的深度网络模型(Multi-Head self-Attention BiLSTM-CRF,MHA-BiLSTM-CRF). 该模型将中文文本字符特征和临床领域知识特征进行融合,以获得更全面的字符级嵌入表示. 然后使用BiLSTM网络从输入序列中捕获相关的时序特征和上下文关系,同时引入多头自注意力机制,从多个角度获得中文临床文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,从而有效地提升中文临床命名实体的识别能力.
1 相关工作
1.1 中文临床命名实体识别
命名实体识别(Named Entity Recognition,NER)本质上可以看成是一个多标
签序列分类问题. 它以由多个字符或词语构成的文本序列为输入,旨在识别文本中的专有名词、数字信息和其他重要名词并将其分类为预先定义的类别,例如人员名称、组织、位置、时间表达等. 多年来,研究人员针对该问题开展了广泛的研究并提出了许多命名实体识别的相关方法[3]. 这些方法大致可以分为三种类型:基于规则和词典匹配的方法、基于传统特征工程的机器学习的方法[4-6]以及目前比较流行的基于深度学习的方法[2,7-9].
在临床领域中,命名实体识别的目标是从给定的临床文本中提取出那些与医疗过程密切相关的实体指代,并将它们准确地划分为疾病、症状、检查、身体部位以及治疗等特定的实体类别. 目前,研究人员针对英文临床文本的命名实体识别已经开展了大量的研究[3]. 而且,得益于英文语言所具有的以空格作为分割符、专业术语的字母大写特征等天然优势,使得许多命名实体识别方法在英文临床文本中得到了较为成功的应用. 然而,由于不同语言在句法结构、表达方式等方面的特殊性,针对其他语言的临床文本,特别是中文临床文本的命名实体识别依然是一项极具挑战性的任务.
为了推动中文临床命名实体识别技术的发展,2017年由中文信息学会组织的全国知识图谱与语义计算大会(CCKS2017)首次设立了中文临床文本命名实体识别相关的测评任务,吸引了大量研究人员的积极参与并产生了一系列较为有效的中文命名实体识别方法. 例如,Li等人[10]将中文临床命名实体识别看作一个词级别的序列标注任务,提出了一个基于BiLSTM-CRF的深度模型,并通过使用额外的医疗词典及数据集作为补充来得到更加丰富的、具有领域特征的词向量,从而有效地提高识别的准确率. Ouyang等人[11]结合分词特征、词性特征以及医疗词典特征,提出了一种基于n-gram字符表示策略的BiLSTM-CRF模型. Xia等人[12]则在BiLSTM-CRF模型的基础上引入自学习和主动学习策略,充分利用未标注数据来增强模型的识别能力. 此外,Hu等人[13]还提出了一种基于
投票的混合模型,将基于规则的方法、基于CRF的方法以及融合特征的RNN方法进行结合,以有效地实现中文临床文本中的实体识别.
近年来,研究人员在之前工作的基础上对CNER方法进行了大量的改进. Wang等人[14]将数据驱动的深度学习方法与知识驱动的词典方法结合起来,提出了一种融合领域词典的深度神经网络模型,并利用一种改进的词典特征表示方法,在中文临床文本上获得了较高的命名实体识别性能. Qiu等人[15]采用了一个带条件随机场的残差卷积神经网络模型(RD-CNN-CRF)来解决中文临床命名实体识别的问题. 该方法首先将汉字和字典特征映射为对应的向量表示,然后将其输入到RD-CNN-CRF模型中以捕获相关的上下文特征. 由于CNN出色的并行执行能力,该方法在识别能力和训练时间等方面获得了与现有其他基于RNN的方法相当或更高的性能. Tang等人[16]则提出了一种基于注意力机制的CNN-LSTM-CRF模型. 该模型通过引入CNN层和注意力层来更好地捕获词语的局部上下文信息以及词间关联强度,从而有效地扩展和增强了BiLSTM-CRF模型的学习能力. 尽管上述改进方法在提升中文临床命名实体识别性能方面取得了一定的效果,但它们大多没有充分利用中文文本序列中重要的全局特性,而且往往忽略了数据集中临床实体分布的不均衡性,从而严重影响了其实体识別的准确性.
因此,为了弥补现有方法的上述缺陷,本文提出了一种基于多头自注意力机制的BiLSTM-CRF模型,通过有效地捕获和融合临床文本中字符自身特征、字符间的依赖关系、文本序列中的语义和上下文信息以及词典特征等多层面的文本特征来提升中文临床命名实体的识别能力.
1.2 多头自注意力机制
Google机器翻译团队在2017年发表的论文中提出了一种包含自注意力以及多头自注意力机制的神经网络架构,并在机器翻译任务中取得了较为出色的效果[17].自注意力机制是一种特殊的注意力机制,它通过计算单个文本序列中不同位置字符间的关联关系,以便获得序列的交互表示. 而多头自注意力机制则是通过结合多次并行的自注意力计算来捕获同一序列在不同表示子空间上的信息,进而从多角度多层面得到更全面的相关特征. 自注意力机制自其被提出开始就在自然语言处理相关的诸多领域得到了大量应用,例如,自动文本摘要、自然语言推理、机器翻译及语言理解等.
随着深度学习技术的发展,很多研究人员尝试使用基于循环神经网络(RNN)的深度学习模型解决中文临床命名实体识别任务,该模型将中文文本中的一个句子看作是一条由汉字词语或者字符组成的序列,然后执行循环遍历,利用RNN中的隐藏单元来学习文本中的上下文信息. 但是,已有的研究方法仍然存在着很多的欠缺. 首先,传统的RNN学习长序列中的依赖关系的能力不足,当文本序列较长时容易损失大量有用信息. 其次,现有的方法大多仅将一个文本序列映射为单一的表示,缺乏获取多角度文本序列特征的能力. 此外,这些基于深度学习模型的方法的识别性能很大程度上依赖于大量的标注训练数据集,而且未能对已有的领域特征加以有效的利用. 再加上中文临床文本中存在的很多语法及表述方面的问题,如大量的医学专有名词、非标准化的名词缩写以及由于书写或表达错误导致的噪声,都严重地影响了中文临床文本命名实体识别的性能.
为了解决以上的这些挑战,本文提出了一种结合多头自注意力机制与BiLSTM-CRF的深度网络模型(Multi-Head self-Attention BiLSTM-CRF,MHA-BiLSTM-CRF). 该模型将中文文本字符特征和临床领域知识特征进行融合,以获得更全面的字符级嵌入表示. 然后使用BiLSTM网络从输入序列中捕获相关的时序特征和上下文关系,同
时引入多头自注意力机制,从多个角度获得中文临床文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,从而有效地提升中文临床命名实体的识别能力.
1 相关工作
1.1 中文临床命名实体识别
命名实体识别(Named Entity Recognition,NER)本质上可以看成是一个多标签序列分类问题. 它以由多个字符或词语构成的文本序列为输入,旨在识别文本中的专有名词、数字信息和其他重要名词并将其分类为预先定义的类别,例如人员名称、组织、位置、时间表达等. 多年来,研究人员针对该问题开展了广泛的研究并提出了许多命名实体识别的相关方法[3]. 这些方法大致可以分为三种类型:基于规则和词典匹配的方法、基于传统特征工程的机器学习的方法[4-6]以及目前比较流行的基于深度学习的方法[2,7-9].
在临床领域中,命名实体识别的目标是从给定的临床文本中提取出那些与医疗过程密切相关的实体指代,并将它们准确地划分为疾病、症状、检查、身体部位以及治疗等特定的实体类别. 目前,研究人员针对英文临床文本的命名实体识别已经开展了大量的研究[3]. 而且,得益于英文语言所具有的以空格作为分割符、专业术语的字母大写特征等天然优势,使得许多命名实体识别方法在英文临床文本中得到了较为成功的应用. 然而,由于不同语言在句法结构、表达方式等方面的特殊性,针对其他语言的临床文本,特别是中文临床文本的命名实体识别依然是一项极具挑战性的任务.
为了推动中文临床命名实体识别技术的发展,2017年由中文信息学会组织的全国
知识图谱与语义计算大会(CCKS2017)首次设立了中文临床文本命名实体识别相关的测评任务,吸引了大量研究人员的积极参与并产生了一系列较为有效的中文命名实体识别方法. 例如,Li等人[10]将中文临床命名实体识别看作一个词级别的序列标注任务,提出了一个基于BiLSTM-CRF的深度模型,并通过使用额外的医疗词典及数据集作为补充来得到更加丰富的、具有领域特征的词向量,从而有效地提高识别的准确率. Ouyang等人[11]结合分词特征、词性特征以及医疗词典特征,提出了一种基于n-gram字符表示策略的BiLSTM-CRF模型. Xia等人[12]则在BiLSTM-CRF模型的基础上引入自学习和主动学习策略,充分利用未标注数据来增强模型的识别能力. 此外,Hu等人[13]还提出了一种基于投票的混合模型,将基于规则的方法、基于CRF的方法以及融合特征的RNN方法进行结合,以有效地实现中文临床文本中的实体识别.
近年来,研究人员在之前工作的基础上对CNER方法进行了大量的改进. Wang等人[14]将数据驱动的深度学习方法与知识驱动的词典方法结合起来,提出了一种融合领域词典的深度神经网络模型,并利用一种改进的词典特征表示方法,在中文临床文本上获得了较高的命名实体识别性能. Qiu等人[15]采用了一个带条件随机场的残差卷积神经网络模型(RD-CNN-CRF)来解决中文临床命名实体识别的问题. 该方法首先将汉字和字典特征映射为对应的向量表示,然后将其输入到RD-CNN-CRF模型中以捕获相关的上下文特征. 由于CNN出色的并行执行能力,该方法在识别能力和训练时间等方面获得了与现有其他基于RNN的方法相当或更高的性能. Tang等人[16]则提出了一种基于注意力机制的CNN-LSTM-CRF模型. 该模型通过引入CNN层和注意力层来更好地捕获词语的局部上下文信息以及词间关联强度,从而有效地扩展和增强了BiLSTM-CRF模型的学习能力. 尽管上述改进方法在提升中文臨床命名实体识别性能方面取得了一定的效果,但它们大多没有充分利用中文文本序列中重要的全局特性,而且往往忽略了数据集中临床实体分布的
不均衡性,从而严重影响了其实体识别的准确性.
因此,为了弥补现有方法的上述缺陷,本文提出了一种基于多头自注意力机制的BiLSTM-CRF模型,通过有效地捕获和融合临床文本中字符自身特征、字符间的依赖关系、文本序列中的语义和上下文信息以及词典特征等多层面的文本特征来提升中文临床命名实体的识别能力.
1.2 多头自注意力机制
Google机器翻译团队在2017年发表的论文中提出了一种包含自注意力以及多头自注意力机制的神经网络架构,并在机器翻译任务中取得了较为出色的效果[17].自注意力机制是一种特殊的注意力机制,它通过计算单个文本序列中不同位置字符间的关联关系,以便获得序列的交互表示. 而多头自注意力机制则是通过结合多次并行的自注意力计算来捕获同一序列在不同表示子空间上的信息,进而从多角度多层面得到更全面的相关特征. 自注意力机制自其被提出开始就在自然语言处理相关的诸多领域得到了大量应用,例如,自动文本摘要、自然语言推理、机器翻译及语言理解等.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- stra.cn 版权所有 赣ICP备2024042791号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务