1.赛题回顾 1.1竞赛的背景与意义 数据显示,双高是引起心脑血管病的重要因素。然而,在我国成年人血脂异常超过40%,我国高血压患病率也呈逐年上升趋势,2012年我国18岁及以上成人高血压患病率为25.2%,而这个数字在2002年还只有18.8%。事实证明,双高早期筛查和早期发现,进而开展健康预警,采取及时干预,可以从根本上实现疾病治疗向健康管理的转变,使得心脑血管疾病可防可治。 1.2竞赛题目 复赛的主要内容是利用主办方提供的双高人群的体检数据来预测人群的高血压和高血脂程度,以收缩压、舒张压、血清甘油三酯、血清高密度脂蛋白、血清低密度脂蛋白的具体数值为指标,设计高精度,高效,且解释性强的算法。 1.3评估指标 五项指标预测结果与个体实际检测到的数值进行对比。对于第j项指标,计算公式如下: 最后的评价指标是五个预测指标的平均值: 2数据预处理 2.1总框架
2.2特征分离 将体检数据分为数值特征、文本特征、基因特征,分别进行处理。 2.3去除部分特征 去除缺失值大于99%的特征,去除单一值大于99%的特征。 2.4异常值处理 对于数值型特征将明显偏离范围的数据进行去除 2.5文本型特征的处理 2.5.1文本关键词提取 使用关键词提取的方式,例如 ‘0434’ (病史), ‘0409’ 1、未做|未查|弃查 设为空值 2、糖尿病|高血压|血脂|脂肪肝|慢性胃炎|阑尾炎|甲肝|肾结石|胆囊切除|甲肝|冠心病|胆结石|甲状腺|脑梗塞|胆囊炎|脑溢血|杂音|心动过缓|心律不齐|心动过速|阳性 设为1 3、阴性|无|未查见|健康|未见|未检到|未检出 设为0
‘0116’, ‘0117‘(左右肾B超) 1、未做|未查|弃查 设为空值 2、结构回声|回声增强|强回声|高回声 设为相应等级的数值 3、无|正常 设为0
2.5.2长文本的Doc2Vec辅助 使用Doc2Vec将较长的文本转化为向量的形式,例如:‘0101’特征 两侧胸廓对称。肺窗示两肺上叶(image 15,26)见小类结节灶,直径约 4-6mm,边界清,余两肺野纹理增多,右肺散在条索影。左肺上叶薄壁低密度影,直径7mm。两侧肺门不大。纵隔窗示心影及大血管形态正常,纵隔内未见肿块及明显肿大淋巴结。无胸腔积液,两上局部胸膜增厚。主动脉及冠状动脉管壁钙化。附见:胆囊内钙化灶。 胸廓对称,双肺纹理清晰,走行自然,双肺门不大。纵隔窗示纵隔无偏移,心影及大血管形态正常,纵隔内未见肿块及肿大淋巴结。胸腔内未见积液。 这两句话转化为数值向量后,在空间向量上距离很远。 2.6one-hot编码 对基因型特征进行one-hot编码,在此之前需要现对基因型缺失值进行填充null。 2.7填充空值 数值型使用平均值进行填充,文本型和基因型数据填充null字符。 2.8特征选择 对收缩压、舒张压、血清甘油三酯、血清高密度脂蛋白、血清低密度脂蛋白分别使用sklearn库中的RFECV进行特征选择。选择使得得分最高的的一些特征。最终选择出来的特征数分别为 3模型构建
4.特征重要性 4.1收缩压特征重要性排序 体检单数值及文本特征排序 基因特征排序
4.2甘油三酯特征重要性排序 体检单数值及文本特征排序 基因特征排序 1.0434(病史) 具有高血压,糖尿病,甲状腺疾病,肾病,胰腺炎,脂肪肝,肥胖等病史(或者正在治疗)的人群,更容易患双高 2.0434(病史) 具有高血压,糖尿病,甲状腺疾病,肾病,胰腺炎,脂肪肝,肥胖等病史(或者正在治疗)的人群,更容易患双高 3.4001(血管弹性) 含血管弹性轻度、中度、重度减弱,动脉粥样硬化,动脉僵硬度轻度中度增高,更容易患高血压 4.0113(肝)0115(胰腺)0114(胆) 肝、胰腺、胆囊出现问题都会造成脂肪分解能力下降。使得甘油三酯含量升高, 5.0102(甲状腺) 0116(肾) 甲状腺功能低下,肾病。也更容易患高血压, 6.3601(骨质) 体检单中没有年龄信息,可以分析通过骨质来区分年龄段,骨质疏松一般为老年人,老年人更容易患双高。 4.4基因重要性排序(收缩压) 原发性高血压与先天性和遗传有关,是多基因遗传性疾病,可能和AGT,eNOS,ACE,ANP,NPRC,adducin等基因的多态性情况有关系,以及联合基因多态性有关。 ACE、AGT基因联合多态性[3] ACE基因和adducin基因联合多态性[4] 4.5基因重要性排序(甘油三酯) 甘油三酯可能是以下基因异常引起: 1. 脂蛋白脂酶异常[5] 2.AP0E基因异常[6] 3.ApoE和SLCO1B1基因联合多态性[7] 4.6 特征重要性总结 超早期检测这些强重要性特征。精准预防 1、具有糖尿病、高血压、黏液性水肿、甲状腺功能低下、肥胖、肝肾疾病,等病史的人群更易患双高 2、心律紊乱更易患高血压 3、老年人更易患双高 4、肝胰胆、甲状腺、肾功能异常的更易患双高 5、单基因以及多基因的联合多态性史造成双高的原发性的一部分原因
5总结 参考文献 [1]陈宇锋,曾再祥,李耀才,魏凯.肝胆疾病中血脂水平检测的临床研究[J],河北医药,2005,27(6):411-412 [2]张洁,赵兴胜,景兰,史萌萌.高血压病合并抑郁症患者血清甲状腺激素水平的研究[J],中华临床医师杂志(电子版),2013(13):68-71 [3]杜明艳,封靖,杜会山,丁文军.ACE、AGT基因联合多态性与高血压合并脑梗塞相关[J],基础医学与临床,2017,31(11):1189-1193 [4]赵利群,高平进,朱鼎良.ACE基因和adducin基因联合作用与原发性高血压的关系[J],中国心血管杂志,2016,11(1):16-19 [5]陈坛辀,谢赛丽,黄智铭.LPL基因突变导致极高甘油三酯血症性胰腺炎的家族研究[J],浙江省消化病学术大会,2013 [6]刘国栋,王桦,汪琦,李晨芳,吴晓玲.APOE基因多态性与血脂异常相关性分析[J],武汉大学学报(医学版),2017,38(2):267-270
[7]孙谦,周辉,郭丽娜.血脂异常人群ApoE和SLCO1B1基因多态性及相关性研究[J],现代检验医学杂志,2017,32(6):28-31
|