在全球范围内,心肺疾病是导致死亡的主要原因,每年夺去数百万人的生命。听诊作为诊断心肺疾病的重要手段,其核心在于捕捉和分析心音与肺音中蕴含的丰富生理与病理信息。然而,传统听诊器受限于声音的微弱与环境干扰,且高质量、标注清晰的心肺音数据集十分稀缺,这严重制约了人工智能技术在自动化心肺疾病检测、分类和信号分离方面的研究与应用。现有公开数据集往往只包含单一类型的声音(如仅有心音或肺音),或虽有心肺混合音但非同步采集,难以满足开发先进信号处理算法(如盲源分离)对“干净”ground truth的需求。此外,真实临床环境中采集数据面临患者隐私、噪声干扰以及病理多样性难以全覆盖等挑战。
为了解决上述问题,McMaster大学的Yasaman Torabi、Shahram Shirani(IEEE高级会员)和James P. Reilly(IEEE终身会员)在《IEEE Data Descriptions》上发表了一项研究,介绍了一个全新的高质量心肺音数据集HLS-CMDS。该研究团队创新性地利用高保真临床模拟人(CAE Juno? nursing skills manikin)和先进的数字听诊器(3M? Littmann? CORE Digital Stethoscope),在受控环境中系统性地采集了包含多种正常与异常状态的心音、肺音及其混合音。
研究人员为开展此项数据采集工作,主要运用了以下几项关键技术方法:首先,利用CAE Maestro软件精确控制临床模拟人,模拟不同性别(男/女)患者并播放源自真实患者的预录心音和肺音,确保声音的临床真实性;其次,采用具备主动降噪、高达40倍放大能力及三种频率滤波模式(Bell、Diaphragm、Midrange)的数字听诊器,根据目标声音类型(心音、肺音或混合音)选择相应模式进行高质量录音,采样率为22050 Hz;再者,严格遵循临床听诊标志点,在模拟人胸部的12个不同解剖位置(如心尖A、胸骨旁区等)进行录音,以捕捉声音的空间变异;最后,通过专业护理人员协助定位、在安静环境中操作以及录音后的人工波形检查等多重措施,确保数据集的准确性与可靠性。数据集包含535个音频文件(.wav格式),并附有详细的元数据CSV文件。
数据采集系统架构与流程
研究团队设计了一套完整的数据采集、存储与分析工作流。
整个过程始于在专业实践协作实验室的安静环境中进行数据收集,包括设置模拟人、控制录音过程和标注数据。采集到的信号通过蓝牙传输至移动设备上的Eko软件,并进一步存储到云服务器。最后的数据分析阶段包括预处理、可视化和验证,以确保数据的质量和可靠性。录音时,模拟人呈坐姿,以模拟真实的临床场景。
胸部听诊标志点
为确保采集的声音具有解剖学代表性,录音在胸部的特定标志点进行。
肺音记录点包括左右胸的前部上、中、下区(如RUA, LLA),而心音记录点则覆盖了经典听诊区,如主动脉瓣区(RUSB)、肺动脉瓣区(LUSB)、三尖瓣区(LLSB)和二尖瓣区(心尖A)以及左右肋缘(RC, LC)。这种多位置录音有助于AI模型理解听诊位置对声音感知的影响。
临床模拟人与控制系统
研究使用的CAE Juno?护理技能模拟人是一种高保真患者模拟器,具备可互换的男女胸部皮肤,并能通过CAE Maestro软件实时控制和定制各种患者声音。
模拟人通过多个解剖学定位的扬声器播放预先录制的真实患者心音和肺音,这些声音与心动周期和通气同步。对于混合录音,研究团队同时启用心音和肺音进行录制,并且对于每个混合录音,都单独录制了其对应的心音和肺音成分,为源分离算法提供了精确的ground truth。
数字听诊器与录音
3M? Littmann? CORE数字听诊器是数据采集的核心设备。
该听诊器提供Bell模式(用于低频心音)、Diaphragm模式(用于高频肺音)和Midrange模式(用于同时录制心音和肺音),并具备放大和主动降噪功能,有效减少了环境噪声干扰。录音通过Eko应用程序存储,并上传至云端供后续分析。
数据可视化与质量验证
为了直观展示数据集的特征,研究人员对录音进行了时域波形和时频谱图的可视化分析。
例如,图7展示了房颤心音、S3心音与捻发音的混合音以及哮鸣音肺音的时域波形。
图8则显示了相应录音的时频谱图,可以清晰看到不同声音在频率和时间维度上的能量分布差异,例如心音的周期性结构和肺音的连续噪声特性。这些可视化结果验证了数据集包含了丰富的声学特征。通过使用经过质量保证的预录声音、在安静环境中操作、精确定位听诊点以及录音后的人工核查,数据集的质量得到了有效保障。
记录与存储
最终的数据集包含535个音频文件,分为三类:50个纯心音(HS.zip)、50个纯肺音(LS.zip)以及145组混合音及其对应的心、肺源声音(Mix.zip,共3x145个文件)。数据集涵盖了10种心音类型(如正常NH、房颤AF、第三心音S3、第四心音S4、各种杂音)和6种肺音类型(如正常NL、哮鸣音W、细湿啰音FC、粗湿啰音CC等),并在不同性别和听诊位置间保持了均匀分布。文件命名遵循结构化规则,并辅以详细的CSV元数据文件。
见解与说明
该数据集为心肺音分析研究提供了宝贵的资源,特别适用于盲源分离、分类、异常检测等机器学习和信号处理任务。其优势在于高质量、多类型、包含混合音以及精确的ground truth。然而,研究也指出了数据集的局限性:模拟人环境无法完全复现真实临床场景中的噪声、患者运动伪影、生理耦合以及人口统计学多样性。因此,直接将基于此数据集训练的模型应用于临床需谨慎,建议采用迁移学习或与真实患者数据结合的混合数据集方法来提高模型的泛化能力。尽管存在局限,HLS-CMDS数据集作为结构化、高质量的数据源,对于训练AI模型、特征提取以及医疗教育(如听诊技能培训)都具有重要价值,丰富了当前有限的心肺音公共数据集。
综上所述,Torabi等人创建并描述的HLS-CMDS数据集,通过结合高保真临床模拟人和先进数字听诊器,成功地提供了一个包含多种正常与异常心音、肺音及其混合音的高质量、结构化数据集。该数据集解决了该研究领域对高质量、多类型、包含精确ground truth的混合心肺音数据的需求缺口。其重要意义在于为开发和应用先进的信号处理算法(如NMF、ICA、PCA、SVM、CNN等)以及无监督学习方法(如盲源分离)提供了可靠的实验基础,有望显著推动人工智能技术在心肺疾病自动诊断、声音分类和信号分离方面的研究进展。同时,作者公开了数据处理脚本,增强了研究的可重复性。尽管模拟数据与真实临床数据存在差异,但此数据集作为互补性资源,在推动AI辅助听诊技术的发展中扮演着关键角色。