导读
多发性硬化(MS)是一种免疫介导的中枢神经系统脱髓鞘疾病,在中国有着较高的漏诊率和致残率,亟待有效的工具辅助疾病的早期诊断。近期,广州医院邱伟教授团队、北京大学医药管理国际研究中心韩晟教授团队合作开发了中国首个MS领域早诊模型。11月19日,国际期刊《MultipleSclerosisandRelatedDisorders》在线发表了该项研究成果《整合XGBoost与电子病案信息构建多发性硬化早期诊断模型》(IntegrationoftheExtremeGradientBoostingmodelwithelectronichealthrecordstoenabletheearlydiagnosisofmultiplesclerosis)。文中介绍了该模型的构建及效能评估,有望助力MS患者早诊早治。
一
研究介绍
多发性硬化(MS)是一种以中枢神经系统炎性脱髓鞘为主要病变特点的免疫介导性疾病,在全球约有万患者1。既往研究显示,从出现症状到诊断MS的时间为34.3周至7年2-6。大约22%和10%的MS患者延迟诊断分别超过5年和10年6。相比于西方国家,MS在亚洲属于罕见病,公众缺乏疾病意识,脑脊液寡克隆区带(OCB)阳性率低7,容易与MS混淆的视神经脊髓炎谱系疾病(NMOSD)患者人数众多,上述因素导致大量MS诊断延迟、误诊或漏诊,给临床医师带来了巨大的挑战。
机器学习已被广泛应用于医学领域,辅助疾病的早期诊断和预防8-11。然而目前MS早期诊断工具的应用仍存在较大局限性:如大多数研究基于西方人群、样本数量有限、非常规临床检测项目、缺乏外部验证等。因此迫切需要新型有效的早诊工具,以辅助MS的早期识别。
该研究通过整合机器学习技术和临床电子病案数据,构建MS早期诊断的最优模型。
二
研究方法
数据预处理
?根据诊断频率设置诊断变量
?初步筛选可能与MS诊断相关的候选变量(包括:诊断变量、流行病学变量、实验室变量)
变量选择
?分析训练集中与MS高相关的64个候选变量
?纳入p<0.5的变量
?使用五种模型进行训练后,保留权重值累积为0.99的变量
模型训练
?使用贝叶斯优化法和五折交叉验证拟合XGBoost、RF、朴素贝叶斯、KNN、SVM模型
?F1评分确定最佳参数集
?对参数和模型进行后剪枝,以过滤低权重变量
评价指标
?每个模型在训练集中提供F1评分
?使用模型和临界值验证测试集
?比较并分析各模型ROC曲线下面积、精确率、召回率、特异性、准确率和F1评分
三
主要结果
训练集中使用五折交叉验证的XGBoost的ROC曲线下面积
图
一
XGBoost模型在训练集和测试集中的各项参数结果
图
二
在训练集中,模型的召回率为0.,精确率和特异性分别为0.和0.;在测试集中,召回率为0.,特异性和精确率分别为0.和0.。
XGBoost模型中前34个变量特征的权重排序值
图
三
采用卡方检验或Mann-WhitneyU检验对候选变量进行预剪枝后,保留与MS诊断高度相关的34个变量,包括24个诊断变量、8个流行病学变量和2个实验室变量。其中,权重排名前十的变量分别为急性播散性脑脊髓炎、住院患者、白质脑病、非感染性肠炎和结肠炎、脊髓疾病、骨质疏松症、视神经炎、脑梗死、颅神经病和腰背痛。
使用XGBoost模型进行多发性硬化的早期诊断
表
一
在训练集中,60.5%、51.4%和49.1%的患者可分别比实际诊断MS时间提前1、2及3年被识别。
四
结论
该研究是探索中国MS患者早期诊断工具研究项目中的第一期,基于机器学习算法和电子病案系统建立了样本量相对较大的MS早期识别模型。该研究第二期,目前在国内进行多中心、更大样本量和不同人群的研究。
感谢赛诺菲和北京健促会对该项目的支持,感谢医联提供的技术支持。
仅供医疗卫生专业人士使用,MAT-CN-
参考文献
1.BrowneP,ChandraratnaD,AngoodC,etal.Neurology.;83:-4.
2.AdamecI,BarunB,Gabeli?T,ZadroI,HabekM.DelayinthediagnosisofmultiplesclerosisinCroatia.Clinicalneurologyandneurosurgery.;Suppl1:S70-2.
3.FernándezO,FernándezV,ArbizuT,IzquierdoG,BoscaI,ArroyoR,etal.CharacteristicsofmultiplesclerosisatonsetanddelayofdiagnosisandtreatmentinSpain(theNovoStudy).Journalofneurology.;:-7.
4.KingwellE,LeungAL,RogerE,DuquetteP,RieckmannP,TremlettH.FactorsassociatedwithdelaytomedicalrecognitionintwoCanadianmultiplesclerosiscohorts.Journaloftheneurologicalsciences.;:57-62.
5.MarrieRA,HorwitzR,CutterG,TyryT,CampagnoloD,VollmerT.ComorbiditydelaysdiagnosisandincreasesdisabilityatdiagnosisinMS.Neurology.;72:-24.
6.ThormannA,S?rensenPS,Koch-HenriksenN,LaursenB,MagyariM.Comorbidityinmultiplesclerosisisassociatedwithdiagnosticdelaysandincreasedmortality.Neurology.;89:-75.
7.LuT,ZhaoL,SunX,AuC,HuangY,YangY,etal.ComparisonofmultiplesclerosispatientswithandwithoutoligoclonalIgGbandsinSouthChina.Journalofclinicalneuroscience.;66:51-55.
8.CastanedaC,NalleyK,MannionC,BhattacharyyaP,BlakeP,PecoraA,etal.Clinicaldecisionsupportsystemsforimprovingdiagnosticaccuracyandachievingprecisionmedicine.Journalofclinicalbioinformatics.;5:4.
9.HametP,TremblayJ.Artificialintelligenceinmedicine.Metabolism:clinicalandexperimental.;69s:S36-s40.
10.MillerDD,BrownEW.ArtificialIntelligenceinMedicalPractice:TheQuestiontotheAnswer?TheAmericanjournalofmedicine.;:-33.
11.PhamT,TranT,PhungD,VenkateshS.Predictinghealthcaretrajectoriesfrommedicalrecords:Adeeplearningapproach.Journalofbiomedicalinformatics.;69:-29.
预览时标签不可点收录于话题#个上一篇下一篇