美年健康AI大赛-冠军解决方案
1.赛题回顾1.1竞赛的背景与意义数据显示,双高是引起心脑血管病的重要因素。然而,在我国成年人血脂异常超过40%,我国高血压患病率也呈逐年上升趋势,2012年我国18岁及以上成人高血压患病率为25.2%,而这个数字在2002年还只有18.8%。事实证明,双高早期筛查和早期发现,进而开展健康预警,采取及时干预,可以从根本上实现疾病治疗向健康管理的转变,使得心脑血管疾病可防可治。http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530343474420_2iTt3yYNtr.jpg1.2竞赛题目复赛的主要内容是利用主办方提供的双高人群的体检数据来预测人群的高血压和高血脂程度,以收缩压、舒张压、血清甘油三酯、血清高密度脂蛋白、血清低密度脂蛋白的具体数值为指标,设计高精度,高效,且解释性强的算法。1.3评估指标五项指标预测结果与个体实际检测到的数值进行对比。对于第j项指标,计算公式如下:http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530343554775_X22jcbQuqQ.jpg
最后的评价指标是五个预测指标的平均值:http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530343574645_Mxv3slMSdp.jpg
2数据预处理2.1总框架http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530343628385_h2HiVljECC.jpg
2.2特征分离将体检数据分为数值特征、文本特征、基因特征,分别进行处理。2.3去除部分特征去除缺失值大于99%的特征,去除单一值大于99%的特征。2.4异常值处理对于数值型特征将明显偏离范围的数据进行去除2.5文本型特征的处理2.5.1文本关键词提取使用关键词提取的方式,例如‘0434’ (病史), ‘0409’1、未做|未查|弃查 设为空值2、糖尿病|高血压|血脂|脂肪肝|慢性胃炎|阑尾炎|甲肝|肾结石|胆囊切除|甲肝|冠心病|胆结石|甲状腺|脑梗塞|胆囊炎|脑溢血|杂音|心动过缓|心律不齐|心动过速|阳性 设为13、阴性|无|未查见|健康|未见|未检到|未检出 设为0
‘0116’, ‘0117‘(左右肾B超)1、未做|未查|弃查 设为空值2、结构回声|回声增强|强回声|高回声 设为相应等级的数值3、无|正常 设为0
2.5.2长文本的Doc2Vec辅助使用Doc2Vec将较长的文本转化为向量的形式,例如:‘0101’特征两侧胸廓对称。肺窗示两肺上叶(image 15,26)见小类结节灶,直径约 4-6mm,边界清,余两肺野纹理增多,右肺散在条索影。左肺上叶薄壁低密度影,直径7mm。两侧肺门不大。纵隔窗示心影及大血管形态正常,纵隔内未见肿块及明显肿大淋巴结。无胸腔积液,两上局部胸膜增厚。主动脉及冠状动脉管壁钙化。附见:胆囊内钙化灶。胸廓对称,双肺纹理清晰,走行自然,双肺门不大。纵隔窗示纵隔无偏移,心影及大血管形态正常,纵隔内未见肿块及肿大淋巴结。胸腔内未见积液。这两句话转化为数值向量后,在空间向量上距离很远。2.6one-hot编码对基因型特征进行one-hot编码,在此之前需要现对基因型缺失值进行填充null。2.7填充空值数值型使用平均值进行填充,文本型和基因型数据填充null字符。2.8特征选择对收缩压、舒张压、血清甘油三酯、血清高密度脂蛋白、血清低密度脂蛋白分别使用sklearn库中的RFECV进行特征选择。选择使得得分最高的的一些特征。最终选择出来的特征数分别为http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530343889477_pZQTqKqNHL.jpg
3模型构建http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530343947938_LbOCNxNJn5.jpg http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530343976156_V2VKtKyiT9.jpg
4.特征重要性4.1收缩压特征重要性排序http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530344057486_C2pPiC6fyc.jpg http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530344073400_1twsJ0zFyM.jpg 体检单数值及文本特征排序 基因特征排序
4.2甘油三酯特征重要性排序http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530344175801_jTEjnrGS2o.jpg http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530344195922_HVlkUy6nNY.jpg
体检单数值及文本特征排序 基因特征排序1.0434(病史)具有高血压,糖尿病,甲状腺疾病,肾病,胰腺炎,脂肪肝,肥胖等病史(或者正在治疗)的人群,更容易患双高2.0434(病史)具有高血压,糖尿病,甲状腺疾病,肾病,胰腺炎,脂肪肝,肥胖等病史(或者正在治疗)的人群,更容易患双高3.4001(血管弹性)含血管弹性轻度、中度、重度减弱,动脉粥样硬化,动脉僵硬度轻度中度增高,更容易患高血压4.0113(肝)0115(胰腺)0114(胆)肝、胰腺、胆囊出现问题都会造成脂肪分解能力下降。使得甘油三酯含量升高,5.0102(甲状腺)0116(肾)甲状腺功能低下,肾病。也更容易患高血压,6.3601(骨质)体检单中没有年龄信息,可以分析通过骨质来区分年龄段,骨质疏松一般为老年人,老年人更容易患双高。http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530344324889_XdgfRhR5OA.jpg http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530344345456_M0tP8se6Gj.jpg
http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530344369254_bcKBlWfIt8.jpg
4.4基因重要性排序(收缩压)原发性高血压与先天性和遗传有关,是多基因遗传性疾病,可能和AGT,eNOS,ACE,ANP,NPRC,adducin等基因的多态性情况有关系,以及联合基因多态性有关。ACE、AGT基因联合多态性ACE基因和adducin基因联合多态性 4.5基因重要性排序(甘油三酯)甘油三酯可能是以下基因异常引起:1. 脂蛋白脂酶异常 2.AP0E基因异常3.ApoE和SLCO1B1基因联合多态性4.6 特征重要性总结超早期检测这些强重要性特征。精准预防1、具有糖尿病、高血压、黏液性水肿、甲状腺功能低下、肥胖、肝肾疾病,等病史的人群更易患双高2、心律紊乱更易患高血压3、老年人更易患双高4、肝胰胆、甲状腺、肾功能异常的更易患双高5、单基因以及多基因的联合多态性史造成双高的原发性的一部分原因
5总结http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/1095279152449/1530344544592_spg73n3pmN.jpg
参考文献陈宇锋,曾再祥,李耀才,魏凯.肝胆疾病中血脂水平检测的临床研究,河北医药,2005,27(6):411-412张洁,赵兴胜,景兰,史萌萌.高血压病合并抑郁症患者血清甲状腺激素水平的研究,中华临床医师杂志(电子版),2013(13):68-71杜明艳,封靖,杜会山,丁文军.ACE、AGT基因联合多态性与高血压合并脑梗塞相关,基础医学与临床,2017,31(11):1189-1193赵利群,高平进,朱鼎良.ACE基因和adducin基因联合作用与原发性高血压的关系,中国心血管杂志,2016,11(1):16-19陈坛辀,谢赛丽,黄智铭.LPL基因突变导致极高甘油三酯血症性胰腺炎的家族研究,浙江省消化病学术大会,2013刘国栋,王桦,汪琦,李晨芳,吴晓玲.APOE基因多态性与血脂异常相关性分析,武汉大学学报(医学版),2017,38(2):267-270
孙谦,周辉,郭丽娜.血脂异常人群ApoE和SLCO1B1基因多态性及相关性研究,现代检验医学杂志,2017,32(6):28-31
先学习一下,以留备用 好贴 前排 出售沙发、板凳、小马扎、雪碧、可乐、叉烧包、营养快线红、烧鸡翅盖浇饭、牛奶果粒橙、馒头、花卷、牛肉干、望远镜、小喇叭、雨衣、小红旗、砖头、瓦块、米粉、米线、馄饨、水饺、汉堡、旺仔牛奶、方便面、德芙、奥利奥、虾条、薯片、干脆面、话梅、情人梅、海苔、巧克力、麦片粥、苹果、榴莲 看看是不是很实用
页:
[1]