胸腺恶性肿瘤尤其是肺癌和食管癌构成重大全球健康负担。肺癌是全球癌症相关死亡的首要原因,2022年新发病例近250万,死亡超过180万。尽管治疗手段进步,五年生存率仍低于20%,主要归因于晚期诊断。食管癌预后同样严峻,五年生存率低于20%,2022年全球新发病例51.1万,死亡44.5万。胸腺瘤虽罕见(全球发病率0.13-0.26/10万),但可导致重症肌无力等严重并发症,显著影响患者生活质量。当前诊断方法包括影像学和活检等侵入性操作存在局限性,无法可靠区分良恶性病变且伴随并发症风险。传统血液肿瘤标志物检测灵敏度有限,60-70%病例在晚期确诊,因其无法检测早期生物学变化及区分重叠临床特征,导致干预延迟。因此亟需开发更精确、非侵入性且高灵敏的工具以改善胸腺肿瘤早期检测和诊断准确性。
呼出气挥发性有机化合物(VOCs)是碳基分子,主要来源于内源性代谢过程和系统循环。已识别超过3000种VOCs,反映人体内复杂代谢活动。疾病过程(如氧化应激、炎症)或病原体(如细菌和病毒)可扰动正常代谢途径(包括脂质过氧化、氨基酸代谢和碳水化合物代谢),导致VOCs谱独特改变,产生疾病特异性特征。这些从血液扩散到呼吸中的VOCs作为动态生物标志物,能够检测与疾病发生和进展相关的细微变化。呼吸VOCs分析因此为早期疾病检测提供非侵入性实时方法。既往研究证明呼吸VOCs作为生物标志物在识别多种癌症(包括肺癌、乳腺癌和胃肠道恶性肿瘤)中的潜力。Gordon等首次使用气相色谱-质谱(GC-MS)鉴定肺癌患者呼吸中的烯烃。Kumar等报道使用profile-3选择离子流管质谱仪检测12种VOCs组可区分食管癌与正常对照,在初步分析和验证集中分别达到AUC 0.97和0.92±0.01。然而研究主要集中于区分癌症患者与健康对照,对区分良性疾病与癌症患者的重视有限。此外,迄今尚无研究调查VOCs作为胸腺瘤识别生物标志物。这种区分在胸腺肿瘤中尤为重要,因为肉芽肿或错构瘤等良性疾病在医学影像上可能模仿恶性肿瘤,导致诊断不确定性及潜在不必要的侵入性操作。
本研究引入新型机器学习模型,采用GC-MS分析的全面呼吸衍生VOCs生物标志物组实现肺癌、食管癌和胸腺瘤的同时早期检测——这是首个基于呼吸组学的多胸腺癌诊断策略。通过评估术前/术后预测,评估其实时术后监测潜力。值得注意的是,还将比较这种呼吸方法与常规血液肿瘤标志物的灵敏度,旨在为胸腺癌早期检测和术后监测提供非侵入性解决方案。
这项横断面研究于2021年11月至2022年1月在中山大学附属第一医院东院(中国广州)进行,获中山大学附属第一医院伦理委员会批准(编号2022-016)。所有受试者签署知情同意书。纳入标准为18-80岁成人参与者,临床怀疑恶性胸腺肿瘤,有影像证据(CT/PET-CT)和组织学确认前多学科团队(MDT)评估。合格参与者包括未治疗、新诊断计划手术切除进行诊断评估的胸腺癌患者,以及有治疗史或复发胸腺恶性肿瘤患者(需提供完整治疗记录)。排除标准包括不愿或不能提供现场知情同意、提供不合格呼吸样本、复发疾病且治疗史不完整、患其他恶性肿瘤、严重支气管哮喘或确诊结核病、严重肝损伤或肾脏疾病者。每位参与者接受切除手术并经病理证实分为以下组别:肺癌、胸腺瘤、食管癌和良性疾病对照。细致记录和收集人口统计和临床信息。本研究在中国临床试验注册中心注册(注册号:ChiCTR2200061264)。
所有样本按相同标准化程序收集。收集前,受试者用纯水漱口并休息15分钟以稳定呼吸模式。所有受试者需在收集前至少12小时禁食禁饮(水除外)和禁烟。为减少昼夜代谢变化影响,所有收集安排在上午7:00至9:00。受试者保持坐姿正常呼吸面罩3分钟。呼气期间,呼吸样本通过呼吸采样器(CXBC-Alpha, ChromX Health Co., Ltd)同时抽取,含内部采样泵和流量控制模块。900 mL呼吸样本以300 mL/min速率收集并导入热脱附管。这些管用99.9%氮气预处理确保清洁惰性环境,含Carbopack X和Carbopack B用于样本富集,浓缩目标化合物供后续分析。所有收集样本立即用惰性端帽密封,-20°C保存保持完整性,7天内通过热脱附-气相色谱-质谱(TD-GC-MS)分析确保及时准确结果。
呼吸样本通过TD-GC-MS分析,系统整合高通量自动进样器、热脱附器(TD100-xr, MARKES)和7890B-5977A GC/MSD(Agilent Technologies)。分离在HP-5MS毛细管柱上用氮载气进行。质谱仪在70 eV电子电离(EI)模式下运行,全扫描模式(m/z 33-450)采集数据。详细仪器参数见补充材料。
原始GC-MS数据使用MSDial v5.4进行峰检测、定量和对齐。软件生成峰面积(VOC面积矩阵)和信噪比(SNR矩阵)。统计分析前,在Python 3.9.18中实施数据预处理和过滤协议确保数据稳健性。首先,使用信噪比(SNR)矩阵评估响应可靠性。VOC测量值若SNR值超过10则分类为有效;低于此阈值测量值因显著噪声干扰被排除。对于个体样本,响应率计算为有效VOC测量值相对于样本总测量值的百分比。响应率≥80%的样本保留进一步分析。类似地,通过计算所有样本中有效测量值比例确定化合物特异性响应率。为确保分析稳健性,仅响应率≥50%的VOCs纳入验证数据集,指定为“有效VOC面积矩阵”。其次,有效VOC面积矩阵进行log10转换解决异方差性,随后归一化以解释仪器响应和样本加载变化。这些步骤实现样本间VOC丰度有意义比较。
132名恶性或良性胸腺病变参与者数据集用于本研究,含97恶性和35良性样本。生物标志物发现和模型开发中,数据集随机分为发现集(60%,n=79;59恶性,20良性)和测试集(40%,n=53;38恶性,15良性)。发现集(训练集)用于特征选择和模型训练,测试集用于独立模型评估。
为识别恶性和良性胸腺病变间差异表达VOCs,采用两种互补方法。首先,Wilcoxon秩和检验评估两组间个体VOCs分布,生成相应p值。其次,正交偏最小二乘判别分析(OPLS-DA)评估VOCs对分类的集体贡献并计算变量重要性投影(VIP)分数。满足p值<0.05和VIP分数>1标准的VOCs选为候选生物标志物。随后使用Agilent MassHunter Qualitative Analysis 10.0软件和NIST 17质谱库进行推定生物标志物鉴定。最后,文献报道的代谢途径相关VOCs选为候选生物标志物纳入诊断模型开发。
鉴于组学数据固有复杂性,需确定最适合数据集的模型。为此,系统评估五种常用机器学习算法:逻辑回归(LR)、随机森林(RF)、k近邻(KNN)、极限梯度提升(XGBoost)和支持向量机(SVM)。其中逻辑回归算法在发现和测试数据集中均表现最高稳健性和有效性,基于其优越性能,部署逻辑回归模型进行诊断预测。
为最小化过拟合,采用渐进特征选择方法。生物标志物按受试者工作特征曲线下面积(ROC-AUC)分数排名。使用5折交叉验证和分层抽样训练逻辑回归模型,从最高排名生物标志物开始迭代添加一个特征。此过程持续直到模型性能无显著改善。
确定最优特征子集后,使用网格搜索和分层抽样调整逻辑回归超参数。考虑以下超参数:正则化方法、正则化强度、早停标准和类别权重。选择产生最高AUC分数的参数组合进行最终模型训练。
最终逻辑回归模型结合优化特征子集和超参数,在训练数据集上训练。模型最终确定,使用Youden指数确定分类阈值。随后在验证数据集上独立评估模型性能。使用五个指标评估性能:F1分数、准确度、灵敏度、特异度和AUC,及各自置信区间。使用此最终化模型进行进一步分析。
使用Python(版本3.9.18)进行统计分析。连续变量以均值±标准差或中位数[最小值,最大值]呈现。分类变量以计数和百分比呈现。Wilcoxon秩和检验用于比较独立组间(如恶性vs良性)连续变量。卡方检验用于比较分类变量。使用scikit-learn python(v1.5.1)进行ROC分析。使用二项分布计算AUC、F1分数、灵敏度、特异度和准确度的95%置信区间(95% CI)。所有统计检验均为双侧,显著性水平α=0.05,除非另有说明。
145名参与者入选本研究。应用排除标准排除年龄18至80岁以外个体、拒绝参与者及提供无效呼吸样本者,最终132名合格参与者纳入分析。其中77例确诊肺癌,13例胸腺瘤,7例食管癌,35例良性疾病,经病理结果确认。这些参与者的人口统计和临床数据呈现。对病例和对照组基本人口统计特征(包括年龄、性别、体重指数(BMI)、吸烟饮酒状况和家族癌症史)进行统计比较。如表1详述,这些因素无显著差异。
初始统计筛选使用Wilcoxon秩和检验和OPLS-DA揭示27种VOCs,在比较恶性和良性组呼出气样本时展现差异丰度(p<0.05)和高VIP分数(VIP>1)。这些候选VOCs随后进行化合物鉴定和进一步细化,排除与药物代谢、环境污染物或无关疾病病理学者。此严格过滤过程最终产生18种潜在疾病相关VOCs最终集(补充表S1)。
为识别区分良恶性胸腺病变最优诊断模型,使用预选18种VOCs组训练五种机器学习算法包括逻辑回归、SVM、随机森林、KNN和XGBoost。模型比较显示逻辑回归在训练和验证集中均表现稳健性能,分别达到AUC 0.85(95% CI:0.82,0.89)和0.83(0.80,0.89)。DeLong检验表明逻辑回归在两组中显著优于KNN、XGBoost和SVM模型(p<0.05)。此外,与随机森林模型相比,逻辑回归在验证集中表现优越性能(p<0.01)。因此选择逻辑回归模型进行进一步分析和性能评估。
最终特征选择使用逻辑回归算法优化模型性能。分析AUC作为顶级特征数量函数揭示超过13特征后收益递减。由于纳入额外特征未实质性改善AUC,选择前13特征进行模型开发。这些鉴定化合物代表多样化烃类,包括甲基环己烷、莰烯和d-柠檬烯,以及含氧物种如丁醛、1-丁醇、丙酸和对甲酚。表2提供这些化合物及其相应判别值全面列表。缩放VOC峰面积分析证明所有13种VOCs在恶性组中水平升高(p<0.05)。恶性和良性样本中13种VOCs代表性色谱图显示。
在训练集(n=80)中,13-VOC模型展现优异性能,AUC 0.86(0.83,0.90),准确度0.83(0.73,0.89),灵敏度0.86(0.76,0.93),特异度0.71(0.50,0.86)。在验证集(n=52)中,13-VOC模型达到AUC 0.85(0.81,0.90),准确度0.79(0.66,0.88),灵敏度0.82(0.67,0.91),特异度0.71(0.45,0.88),确认其普适性和临床适用性。
为进一步评估检测模型对个体癌症类型性能,对各种恶性胸腺病变进行亚组分析。胸腺瘤(n=13)和食管癌(n=7)分析因样本量有限为探索性, serve as hypothesis-generating observations。在训练集中,肺癌、胸腺瘤和食管癌的AUC分别为0.88(0.85,0.90)、0.81(0.75,0.88)和0.80(0.70,0.96)。在验证集中,相应AUC为肺癌0.84(0.80,0.90)、胸腺瘤0.86(0.79,1.00)、食管癌0.91(0.83,0.95)。为进一步可视化模型性能,绘制每位参与者预测值对其实际疾病状态(肺癌/胸腺瘤/食管癌vs良性)。使用分类阈值0.64,模型在训练集中实现高准确度,正确识别87.2%(75-94%)肺癌、87.5%(53-98%)胸腺瘤和75%(30-95%)食管癌病例。在验证集中,模型保持高准确度,正确分类80%(63-91%)肺癌、80%(38-96%)胸腺瘤和100%(44-100%)食管癌病例。此外,模型对良性病变展现良好特异度,在训练和验证集中正确识别71.4%(50-86%,45-88%)此类病例。这些发现强调模型在检测各种恶性胸腺病变中的稳健性能和普遍适用性。重要的是,其区分良性病变能力凸显其最小化不必要干预和过度治疗潜力,支持其临床应用。
基于先前发现,进一步研究模型区分恶性和良性肺部病变能力。在训练集(n=59)中,13-VOC模型达到AUC 0.82(0.68,0.95),灵敏度0.89(0.77,0.95),特异度0.58(0.32,0.81)。在验证集(n=38)中,模型展现AUC 0.79(0.57,0.98),灵敏度0.80(0.63,0.91),特异度0.63(0.31,0.86)。
肺癌早期检测在临床实践中至关重要,允许及时干预和治愈性切除,显著提高患者生存率。为评估模型在诊断早期肺癌中的功效,使用模型区分各种肺癌分期和良性结节。通过绘制个体参与者预测值对其相应地面真实分类(肺癌分期或良性结节)图形证明模型预测性能。使用预定分类截断点0.64,13-VOC模型在识别早期肺癌中表现强劲性能,对0+I+II期肺癌达到高准确度85.7%(70.6-93.7%),III+IV期肺癌88.9%(56.5-98%),但良性结节准确度相对较低58.3%(32-80.7%)。在验证集中,模型对0+I+II期肺癌保持稳健性能81.8%(61.5-92.7%),良性结节准确度提高66.7%(35.4-87.9%),但III+IV期肺癌准确度略有下降71.4%(35.9-91.8%)。这些发现凸显模型在早期检测和及时治疗肺癌方面的潜力,以及其减少不必要干预和过度治疗的能力——临床决策中 essential consideration。然而,需进一步优化以增强其准确区分良性结节能力并解决诊断晚期肺癌变异性。
为确定模型是否代表肿瘤诊断进步,比较其预测准确度与四种既定临床肿瘤标志物:CA125、ProGRP、CEA和CFRA21-1。在36名肺癌患者中,CA125、ProGRP、CEA和CFRA21-1的判别灵敏度分别为0.061、0.121、0.152和0.242,而13-VOCs模型显示配对判别灵敏度0.895(p<0.001)。鉴于临床实践常组合这四种标志物以增强特异度,假设若任何血清肿瘤标志物超出正常范围(即CA125:0–35 KU/L、ProGRP:0–46 ng/L、CEA:0-5μg/L、CFRA21-1:0–3 ng/L)则将个体分类为肺癌阳性可 yield 改善灵敏度。特别值得注意的是,我们的13-VOCs模型显著优于4-血清肿瘤标志物组,达到灵敏度0.895对比0.394(p<0.001)。重要的是,这种优越性能不归因于升高假阳性率。这些发现表明13-VOCs模型代表更稳健诊断工具,可能为早期检测提供特殊优势,传统血清标志物在此领域效用有限。
为评估模型是否准确反映疾病状态动态变化并进一步验证其捕获特征与疾病活动或负荷密切关联,分析和比较模型评分在术前评估和术后时间点(手术后7天至1个月)之间的变化。在癌症患者(n=54)中,术后预测概率显著低于术前概率(p<0.01),表明手术干预后预测疾病负荷可测量减少。亚组分析确认此趋势在肺癌(p<0.05)和胸腺瘤(p<0.05)中均存在,术后评分在这些恶性肿瘤中保持持续较低。食管癌术后减少无统计学意义(p>0.05),可能 due to 有限样本量。值得注意的是,良性疾病术后和术前组间预测概率无显著差异(p>0.05)。 collectively,这些发现证明模型有效反映肺癌手术后疾病负荷减少,凸显其评估切除完整性和检测术后复发早期迹象的潜在效用。
本研究旨在开发和验证使用呼出气VOCs作为生物标志物用于胸腺恶性肿瘤早期诊断的新型机器学习模型。据我们所知,我们的发现首次证明采用单一VOCs谱组区分良恶性胸腺病变(尤其是肺、食管和胸腺肿瘤)的可行性。
为确定代谢组学数据分析最优分类器,评估五种机器学习算法:逻辑回归、随机森林、k近邻、XGBoost和支持向量机,在训练和验证数据集上。逻辑回归在两组均表现稳健性能,使其成为基线模型理想选择。虽然随机森林和XGBoost等算法显示一些 promise,但未 pursue due to 其增加复杂性和计算需求,且测试集性能无显著改善。鉴于其简单性、可解释性、效率和强大泛化能力,逻辑回归成为代谢组学数据分析最优模型。逻辑回归算法构建的13-VOC模型在分类胸腺肿瘤中实现高准确度,AUC 0.85,灵敏度82%,特异度71%,代表对现有临床标志物(仅达到灵敏度39.4%)的临床显著进步。值得注意的是,模型在区分早期肺癌中展现稳健性能,表明其作为非侵入性筛查工具的潜力。
十三种VOCs被识别为区分恶性和良性胸腺病变的潜在生物标志物,其中许多与各种癌症代谢和发病机制有 established or emerging links。几种VOCs,包括1-丁醇、丙酸、甲基环己烷、仲丁乙酸酯、莰烯、D-柠檬烯、6-甲基-5-庚烯-2-酮和对甲酚,既往报道在肺癌和其他恶性肿瘤中升高。
新兴证据表明这些VOCs可能反映癌症发病机制特征性关键代谢改变。反-2-癸烯醛(一种在烹饪油烟雾中发现的烯醛诱变剂)已被证明通过活性氧物种形成促进氧化DNA损伤,这是肺癌发生中公认机制,表明频繁暴露个体风险增加。甲基环己烷(在区分结直肠癌与健康对照中也 implicated)可能指示恶性肿瘤中更广泛代谢重编程。6-甲基-5-庚烯-2-酮(可能 linked to 增加脂肪酸氧化,癌症细胞代谢标志)据报道在 various gastrointestinal cancers中升高,包括结直肠和胃癌。
丁醛(在食管胃癌中升高)可能积累 due to 其代谢途径遗传失调或作为脂质过氧化副产物——此过程常由肿瘤微环境中慢性炎症放大。这与氧化应激在癌症进展中公认作用一致。此外,食管癌中常见肠道微生物组改变可调节丁醛生产和代谢,凸显癌症中宿主代谢与微生物群落相互作用。
对甲酚(其复杂代谢受肠道和口腔微生物组、肝脏过程和疾病状态影响)已被识别为各种癌症(包括食管、胃、甲状腺、乳腺、口腔和肺癌,甚至 some non-malignant conditions)中潜在呼吸生物标志物。这种广泛关联表明对甲酚和其他VOCs可能作为代谢失调或恶性肿瘤的一般指标。
相比之下,乙酸异丁酯、反-1,2-环戊二醇和顺-2-己烯-1-醇目前缺乏与癌症发病机制的 well-established links。乙酸异丁酯主要报道为微生物( specifically Candida albicans)活动标志物, particularly in respiratory infections。它可能通过氧化应激和神经炎症间接贡献代谢紊乱如肥胖和糖尿病,并通过ROS介导代谢失调潜在贡献心血管疾病。进一步研究应包括代谢组学和途径富集分析(如KEGG)以阐明其代谢起源并探索潜在来源如脂质过氧化或微生物失调。
几种VOCs与多种癌症类型相关的观察表明它们可能作为恶性肿瘤的一般指标或反映共享代谢途径。将这些VOCs组合成诊断模型是合理的, due to 其多样化起源和与各种癌症相关途径(包括遗传失调、氧化应激、脂质过氧化和微生物组改变)的链接, enabling 捕获更全面胸腺恶性肿瘤代谢指纹, potentially 改善诊断准确度。然而,需进一步机制研究以阐明这些VOCs如何 specifically 与癌症发病机制相关并验证其作为生物标志物的临床效用。
此外,模型跟踪VOCs谱随时间变化的能力(如手术后预测风险显著降低所证明)凸显其监测疾病进展和治疗反应的潜力。Wang等证明使用围手术期动态呼吸组学识别VOCs组作为肺癌潜在生物标志物的可行性。通过比较手术前后VOCs谱,他们鉴定16种在肺癌患者中显著改变的VOCs,基于这些VOCs的机器学习模型在区分肺癌患者与健康对照中达到高准确度86.9%。Nardi-Agmon等探索呼吸分析监测晚期肺癌患者抗癌治疗反应的潜力。通过利用三种被识别为治疗结果显著指标的VOCs组,此方法可能提供快速非侵入性方法评估治疗反应, potentially enabling 比传统成像技术更早检测治疗失败。这些发现凸显支持呼吸分析作为肺癌管理有价值工具的 growing evidences,其检测治疗前后VOCs谱动态变化能力表明其作为现有诊断和监测策略补充方法的潜力。
然而,应承认本研究 several limitations。首先,尽管我们的队列前瞻性入选,样本量(n=132)和亚型分布(肺癌79.4%,胸腺瘤13.4%,食管癌7.2%)反映胸腺恶性肿瘤基础流行病学。此分布 enabling 恶性和良性病变稳健区分,但罕见亚型小数目限制胸腺瘤和食管癌结论强度。这些分析为探索性, serve as preliminary, hypothesis-generating observations。在更大、多中心队列( particularly through 与国际罕见胸腺肿瘤联盟合作)中进行外部验证对于确认这些发现和支持更广泛临床应用 essential。其次,依赖GC-MS进行VOCs分析 presents 临床实施挑战。GC-MS是复杂、耗时且昂贵技术,需要专门设备和专业知识,使其在常规临床使用中 less feasible。为 address this,未来研究应聚焦使用床旁检测(POCT)设备(如微GC系统、电子鼻或可穿戴VOCs传感器)验证这些发现,这些设备提供实时、床边呼吸分析用于快速临床决策。然而挑战 remain,包括实现足够传感器灵敏度和选择性、最小化传感器漂移和环境干扰、标准化协议。材料科学和AI驱动数据分析进步, along with 跨学科合作,将是解决这些问题的 crucial。在临床环境中进行试点研究 also needed 以评估实用性、成本效益和用户接受度, ultimately supporting 呼吸分析在常规医疗中采用。使用此类技术的大规模验证研究可能为呼吸分析在临床实践中广泛采用铺平道路。第三,本研究仅聚焦肺癌、胸腺瘤和食管癌,限制其对其他胸腺恶性肿瘤的适用性。未来研究应包括间皮瘤、纵隔肿瘤和其他罕见胸腺癌以开发更 comprehensive模型,这可能改善呼吸分析用于诊断和监测 across the entire spectrum of thoracic oncology。第四,尽管研究证明VOCs分析潜力,需进一步研究以阐明潜在生物学机制并 address 呼吸样本收集和分析相关技术挑战。最后,尽管LDCT广泛用于肺癌筛查,其携带高成本和显著假阳性率,可能导致不必要随访测试和增加患者焦虑。相比之下,基于呼吸的VOCs分析提供非侵入性、无辐射且 potentially 更成本效益筛查方法。然而,我们当前方法论依赖GC-MS,由于其费用和复杂性,尚未 feasible for 大规模筛查。便携式、床旁VOCs检测平台开发可能帮助克服这些限制, enabling 更广泛临床实施并 possibly 减少当前筛查方法相关经济和管理负担。未来研究应直接比较VOCs-based POCT与现有模态(如LDCT)的临床和经济结果以确定最有效和可持续早期癌症检测策略。尽管这些限制,本研究为开发呼吸分析作为胸腺癌早期检测、诊断和监测的有价值工具提供强大基础。
本研究确立呼吸衍生VOCs模型在区分恶性和良性胸腺病变中的有效性,证明其多癌症检测和早期诊断能力。通过开创呼吸组学用于同时识别多种胸腺恶性肿瘤并探索其术后监测潜力,此工作引入非侵入性诊断与治疗监测的新颖整合。与传统血清生物标志物相比,此方法展现优越灵敏度同时消除侵入性采样,提供患者友好替代方案且具临床可扩展性。此方法论 holds promise for 改善早期癌症检测和实时术后评估, potentially enhancing 临床决策和个性化患者管理。未来努力应优先在更广泛人群中验证、 refine 预测模型并开发床旁设备以促进临床转化和改善患者 outcomes。