郭小川;冯贞贞;刘文瑞;李建生;目的 探索Stacking集成算法优化中医证候诊断模型效能的方法。方法 以肺癌中医证候诊断模型的构建为例,将来自9家医院肺癌患者的2598例次临床症状及体征信息作为自变量(即特征变量),中医证候信息作为因变量,采用Python 3.7软件将临床数据以8∶2比例按照随机数字表法分为训练集和测试集。运用卡方检验、Spearman相关性检验、最小绝对值收缩和选择算子(LASSO)逻辑回归分析筛选肺癌中医证候的稳定特征;利用支持向量机(SVM)、K近邻算法(KNN)、随机森林(RF)、极端随机树(ExtraTrees)、极端梯度提升机(XGBoost)、轻量级梯度提升机(LightGBM)、自适应增强(AdaBoost)、梯度提升(GB)及多层神经网络(MLP) 9种机器学习算法进行训练,得到9种基础模型。在上述基础模型中筛选出性能表现较优的4种模型,运用Stacking集成算法进行融合形成融合模型,并通过上述9种机器学习算法对融合模型进行二次训练,运用准确率、微平均受试者工作特征(micro-average ROC)曲线、曲线下面积(AUC)和混淆矩阵指标进行评估,筛选最优诊断模型。结果 经数据处理得到稳定特征79个、中医证候13个。在基础模型训练中,RF、ExtraTrees、MLP及SVM基础模型综合性能表现较优,故将该4种模型的证候预测分布作为二次训练数据,并基于Stacking集成算法得到9种融合模型(SVM,KNN,RF,ExtraTree,XGBoost,LightGBM,GB,AdaBoost,MLP)。其中XGBoost融合模型性能表现最优,在训练集和测试集中准确率分别为0.850和0.838,过拟合差异为0.012,micro-average ROC曲线下面积(micro-average AUC)为0.996。所有融合模型在测试集中的准确率和micro-average AUC较基础模型均有改善。结论 以肺癌的中医证候数据为例,通过Stacking集成算法得出XGBoost融合模型在提升肺癌中医证候诊断效能方面具有显著优势。可见Stacking集成算法能整合多种模型算法的优点,有效提升中医证候诊断模型识别效能,为同类研究提供方法学借鉴。
2024年17期 v.65 1775-1783页 [查看摘要][在线阅读][下载 1511K] [下载次数:977 ] |[引用频次:0 ] |[阅读次数:0 ]