心电图(ECG)是一种非侵入的方法,它利用心电图仪从皮肤表面记录每个心动周期中心脏电活动的变化,是心脏病专家诊断异常心率的最重要手段。
使用长期连续可穿戴心电监护仪,更容易在第一时间发现短暂而有价值的心律失常片段。由于日常人类活动,可穿戴ECG比标准ECG更容易出现伪影,这些伪影包括肌电伪影、运动伪影和电极脱落。
下图为清晰平滑的高质量ECG和具有伪影的ECG。肌电伪影表现为不规则的高频噪声。运动伪影表现为具有大幅值的非正常移位。电极脱落信号为一条直线。

心脏科医生可以根据伪影污染的心电图中清晰的部分进行诊断,然而,伪影的存在对计算机智能分析提出了挑战。为了提高模型的鲁棒性,作者针对以上可能存在的伪影提出了四种数据增强操作:随机频率丢失、随机周期屏蔽、随机裁剪调整大小和随机通道屏蔽。

在本研究中,作者收集了来自76482个参与者的658486个12导联ECG记录,其中164538个已被标注,493948个未被标注,每个ECG的记录时间为15s,采样率为500Hz。作者设计了一种多尺度卷积模型对窦性心律、8种心跳波形变化和50种常见心律失常进行分类。设计的四种数据增强方法用于提高模型的鲁棒性。
收集的ECG数据集的标注过程如下:每个ECG记录由两名心脏病专家独立诊断和标注,随后由另外三名高级心脏病专家进行审查,他们比较不一致的标注并提交最终诊断。
数据集的67.3%由男性参与者组成,剩余的32.8%为女性。这76482人的年龄从8岁-94岁不等,平均年龄为51岁。
作者使用两个测试集:离线数据集和额外的在线数据集。首先根据ID将164538个ECG随机分为157,538个样本的训练集和7000个样本的离线测试集,以确保同一个体的ECG对应于单个数据集。此外,将网络部署到服务器,并为2023年1月至2月使用同一可穿戴心电图设备的用户上传的12,521个心电图提供实时人工智能诊断。
作者使用两组评价指标来评估分类性能:基于标签的度量和基于样本的度量。
基于标签的度量(Label-based) 以标签或者类别的方式分别评估模型对每个类别的分类性能。分别为:AUROC,AUPRC,,,
由于每个样本可能有多个标签,基于样本的度量以样本的方式评估模型对于每个ECG的分类性能。分别为:,,
作者使用改进的多尺度ResNet18作为主干网络,使用所有未标注ECG和标注ECG中的训练集,通过动量对比学习预训练一个Siamese卷积网络,然后使用学习到的权重作为下游分类网络的初始化权重。使用二进制交叉熵和成对排名损失作为多标签分类任务的损失函数。
在实验环节,作者进行了:
消融实验,以分析预训练权重、数据增强操作和多尺度卷积对所提出方法的分类性能的贡献。
此外,作者分别使用10%-100%的训练集验证了预训练权重的表现是否优于随机权重,并发现当数据数量很少时,预训练权重极大地增强了模型的分类性能。
使用不同的超参数实现数据增强,以探索不同数据增强方法对模型分类性能的贡献。根据心电图质量将测试集分为高质量数据集和低质量数据集以分析数据增强方法对模型鲁棒性的影响。
此外,作者还分析了如何将基于12导联的模型扩展到市场上常见的1- 3导联ECG设备,以及这样做的好处。
模型在离线数据集上分别取得了0.975、0.646、0.575的平均AUROC、AUPRC和F1分数。对于在线数据集,平均敏感性、特异性和F1分数分别为0.736、0.954和0.468.
在线测试集的心电诊断分布更接近真实世界的分布,阳性样本远少于离线测试集。此外,在线测试集的ECG存在由于可穿戴设备的日常使用而造成的伪影,而训练集和测试集中的数据被人工检查和挑选,数据质量好于在线测试集。以上两点原因导致应用于真实生活时模型性能的下降,但是仍然保持可以接受的灵敏度和特异性水平。
真实的临床环境中的ECG的智能诊断是多标签分类任务,其中心脏病学家可以将多个标签注释到单个ECG。因此,作者以样本的方式评估分类模型的性能。作者的模型能够检测和分类60个ECG诊断术语。如表2所示,在大规模在线测试中,每个ECG平均有3.3个标签,智能诊断模型能够检测到其中的2.7个,遗漏0.6个,同时带来2.5个可接受的假阳性。这表明作者的模型能够正确诊断大多数标签。

对于每一个心律,模型都需要一个阈值来定义智能诊断结果是否为阳性。以房颤为例,通常推荐的操作点是盈亏平衡点(Break even point)或最佳F1点(Optimal F1 point),但是作者在考虑召回率和准确率后选择了微调点(Fine-tuned point),该点的召回率较高,并且准确率和F1分数也是可以接受的。

如表3所示,即使假阳性是真阳性病例数的若干倍,但与大量阴性病例相比,这个数量级是微不足道的。特异性为0.900表明大量真阴性ECG未被误诊。在灵敏度方面,0.795的值表明大多数阳性样品被检出。因此,作者认为所提出的模型实际上可以减轻心脏病专家的负担,在实时诊断和远程诊断方面具有很大的作用和潜力。

三种策略:预训练权重、多尺度卷积和数据增强操作在建模中同时工作。为了研究它们的影响,作者在离线测试集上进行消融实验。AUROC和AUPRC直接使用网络的预测值和真实值进行计算,而敏感性、特异性和F1分数在基于预选阈值的预测值二值化后计算。在两个AUC中,AURPC对数据不平衡更敏感,因此将AURPC作为主要评价指标。
作者设计了五个实验:
五个实验的平均AUPRC分别为0.578、0.582、0.593、0.637和0.646。

多尺度卷积层中的四个并行卷积核的长度是3、5、9和17,而不是固定值17。这有两个优点:一个是获得多尺度感受野,这有助于分析细微的电生理波形;另一个是将每个卷积层的参数数量减半。
将网络层数由34减少到18,这使得MSDNN的参数是DNN的1/4.这不仅提升了模型的表现,还为将来部署到移动终端提供了技术支持,能够满足实时监控和小计算资源的需求。
使用预训练权重比随即初始化权重的AURPC增加了1.1%。这说明从大数据集对比学习得到的特征使用ECG本身包含的知识有助于网络解释未知的数据。
数据增强的AURPC增加了5.5%。作者设计了四种数据增强操作,其中两种操作模拟了可穿戴心电图可能出现的肌电伪影和导联失效,其余两种操作分别随机屏蔽了每个心跳和缩放心电图的固定片段,大大提高了可穿戴心电图的检测性能。
当同时使用预训练权重和数据增强时,模型的分类性能优于只是用预训练权重,但是提升并不明显。
为了探究需要多少ECG数据才能使得模型能够实用,作者随机选择10-100%的训练集ECG作为子训练集,并使用预训练权重初始化模型,来观察自监督学习是否能够增强模型的分类性能。
随着ECG数量的增加,两个曲线分别收敛在0.582和0.593。根据这一趋势,作者认为所提出的模型的分类性能主要受到分类任务本身难度的限制,而不是缺乏数据,即使有额外的ECG,智能诊断性能也不太可能有显著改善。预训练的分类性能改善在10%的注释ECG中最为显著,AUPRC提高了3.1%。预训练的优势随着数据量的增加而减少,当使用所有带注释的ECG时,它会下降到1.1%。这表明我们目前的ECG数量足以使模型实用,并且自监督方法有助于提高模型的泛化能力。

使用四组不同的ECG增强方法训练模型,并将结果与它们的组合进行比较。如Fig. 2c 所示,每种数据增强方式都有效地提升了AUPRC,并且它们的组合在分类性能具有最显著的改进,与基线模型相比,AUPRC改善了5.5%。
频率丢弃(Frequency Dropout):
首先对心电信号进行离散余弦变化(DCT)变换到频域,然后将一定数量的离散余弦分量随机置零,最后进行离散余弦逆变换(IDCT)变换到时域
裁剪缩放(Crop resize):
随机裁剪ECG信号片段并将其重新采样为原始长度,随机选择裁剪位置
循环掩码(Cycle mask):
检测心电图中R峰的位置,并将每次心跳中的同一位置的一段信号置零
通道屏蔽(Channel mask):
随机选择几个通道,将其信号值置为零

为了探究数据增强是否增加了模型的鲁棒性,作者根据数据质量将离线测试集分为含有5209个ECG的优质数据集和含有1791个ECG的劣质数据集。结果显示,优质数据集的AUPRC最高,离线测试集居中,劣质数据集最差。这表明了干扰或者伪影确实影响了模型的分类性能。数据增强带来的AUPRC提升对于离线测试集来说是5.5%,对于优质数据集是4.9%,对于劣质数据集是7.1%。这说明ECG数据增强对于改善模型鲁棒性来说是有效的。

市场上广泛使用的ECG设备大多数为1-3导联,而本文的研究对象是12导联可穿戴设备。因此,为了将所提出的模型扩展到1-3导联,作者使用导联I仿真单导联设备;使用II,VI和V5导联仿真3导联 Holter 设备;使用I,AVF和V2导联仿真 3导联 Frank正交导联ECG设备。
将以上三种情况的分类性能与12导联进行了比较,得到的平均AUPRC分别为0.464,0.586,0.584和0.646.
单导联信号的信息量明显低于3导联和12导联,3导联ECG的信息量也不如12导联ECG。作者认为导联数越多,观察到的信息越丰富,诊断结果越准确。

作者使用类激活图分析提出的模型对于输入ECG的注意力以及网络是否学习到了相关ECG诊断术语的知识。
下图紫色虚线圈出的部分是人类专家定义的与心律失常相关的心跳,模型对这部分的关注度最高。

为了验证所提出方法对于额外数据集的有效性和通用性,作者在2018中国胜利信号挑战数据集上进行了实验。该数据集包含9种心律,分别为窦性心律,AF,I-AVB,LBBB,RBBB,PAC,PVC,STD和STE。作者进行了10-fold交叉实验,并取得了最高的F1 分数为 0.839.
存在的问题:
ECG中超过90%的能量集中在0.5- 35 Hz之间,该频段包含了来自信号的大部分诊断信息。ECG干扰主要有三种类型:工频干扰,一般在50 Hz或60 Hz;肌电干扰,一般在30至300 Hz;基线漂移,一般<0.5 Hz。受益于可穿戴设备硬件的电磁安全设计,我们的数据集中基本没有工频干扰。总的来说,低频基线漂移对模型训练有害,而中频和高频分量应该保留。因此,我们用5阶巴特沃斯高通滤波器对数据进行预处理,其截止频率下限为0.5 Hz。
SE表示压缩-激发块(squeeze-and-excitation block),用于实现通道注意力机制。Conv 表示卷积层, k 为卷积核的宽度,s 为卷积的步长。 MSConv 为多尺度卷积模块,使用四个核大小分别为3,5,9和17的并行卷积代替常用的17宽度卷积核,最后的特征逐通道连接起来。每个MSConv包括两个下采样模块,总共使用8个这样的MSConv模块。每个残差连接中的卷积核通道数为64+16k,k从0开始,每个残差块递增1,dropout设为0.2。
网络结构如图所示:
