医站点医维基

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 497|回复: 0

(转贴)浅谈医学软件中的医学大数据

[复制链接]

78

主题

0

回帖

258

积分

中级会员

积分
258
发表于 2016-12-4 12:51:02 | 显示全部楼层 |阅读模式
浅谈医学大数据

陈遵秋和陈漪伊夫妇是美籍华人,现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表,与大家一起探讨。 现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说,90% 以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫盲贴,但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本,以及需要的专业人才。本文无论是对创业团队还是投资机构都是非常有指导意义的。

大数据定义及其特征

大数据顾名思义就是数量极其庞大的数据资料。从上世纪 80 年代开始,每隔 40 个月世界上储存的人均科技信息量就会翻倍 (Hibert & Lopez, 2011)。2012 年,每天会有 2.5EB 量的数据产生 (Andrew & Erik, 2012)。现在,2014 年,每天会有 2.3ZB 量的数据产生 (IBM, 2015)。这是一个什么概念? 现在一般我们电脑的硬盘大小都以 GB,或者 TB 为单位了。1GB 的容量可以储存约 5.4 亿的汉字,或者 170 张普通数码相机拍摄的高精度照片,或者

300-350 首长度为 5-6 分钟的 MP3 歌曲。 那 GB 和 TB, EB,ZB 的关系又是怎样?

1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一台 1TB 硬盘容量的电脑,那 1ZB 就是大致等于 10 亿台电脑的容量, 远远超出了我们一般的想象。

早期,IBM 定义了大数据的特性有 3 个:大量性( Volume), 多样性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后来又有学者把价值(Value)加到大数据的特性里。随着时间的推移和人们思考的进一步完善,又有三个大数据的特性被提出: 易变性(Variability),准确性 (Veracity) 和复杂性 (Complexity)。

作者认为价值本质上是数据被分析后体现出来的有用信息知识的程度,和其他几个特性有根本区别。其他几个特性可以说是数据工作者具体实践中面临的挑战,而价值则是征服这些挑战后获得的回报。

大数据的6个特性描述如下:

大量性:一般在大数据里,单个文件大量性的级别至少为几十,几百 GB 以上,一调查 (Russom, 2013) 显示相当多的机构拥有的数据总量在 10 到 99TB 之间。用我们传统的数据库软件,1GB 已经可以储存千万条有着几百个变量的数据记录了。

多样性:泛指数据类型及其来源的多样化 (Troester, 2012),进一步可以把数据结构归纳为结构化 (structured),半结构化 (semi-structured),和非结构化 (unstructured) (SAS, 2014) 。

快速性:反映在数据的快速产生及数据变更的频率上。比如一份哈佛商学院的研究报告称在 2012 年时,谷歌每天就需要要处理 20PB 的数据 (Harvard Business Review, 2012)。

易变性:伴随数据快速性的特征,数据流还呈现一种波动的特征。不稳定的数据流会随着日,季节,特定事件的触发出现周期性峰值 (Troester, 2012)。

准确性:又称为数据保证 (data assurance)。不同方式,渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低 (W.Raghupathi & Raghupathi, 2014)。所谓“垃圾进,垃圾出”。没有数据保证,大数据分析就毫无意义。

复杂性:复杂性体现在数据的管理和操作上。IT 时代,随着数据来源及数据量的爆发,各种不同渠道数据的大量涌现,数据的管理和操作已经变得原来越复杂。如何抽取,转换,加载,连接,关联以把握数据内蕴的有用信息已经变得越来越有挑战性。

医疗大数据的爆发

早期,大部分医疗相关数据是纸张化的形式存在,而非电子数据化存储, 比如官方的医药记录,收费记录,护士医生手写的病例记录,处方药记录,X 光片记录,磁共振成像(MRI)记录,CT 影像记录等等。

随着强大的数据存储,计算平台,及移动互联网的发展,现在的趋势是医疗数据的大量爆发及快速的电子数字化。以上提到的医疗数据都在不同程度上向数字化转化。

有报告显示,2011 年,单单美国的医疗健康系统数据量就达到了 150EB。照目前的增长速度, ZB(约 1021GB)和 YB(约 1021GB) 的级别也会很快达到 (IHTT, 2013)。Kaiser Permanente,一个在加州发展起来的医疗健康网络系统, 就有 9 百万的会员,被认为拥有 26.5 到 44PB 的电子健康记录 (IHTT, 2013)。

IT 时代涌现的还有各种网络社交媒体数据,比如曾经 Google 用来预测流感的数据。基因数据也是非常庞大的存在,一次全面的基因测序,产生的个人数据则达到 300GB (Leah, 2014)。公开发布的基因 DNA 微阵列达到 50 万之多,每一阵列包含数万的分子表达值。在生物医药方面,功能性磁共振影像的数据量也达到了数万 TB 级别,每一幅影像包含有 5 万像素值 (Fan, Han, & Liu, 2014)。

此外,各种健身,健康可穿戴设备的出现,使得血压、心率、体重,血糖,心电图(EKG)等的监测都变为现实和可能,信息的获取和分析的速度已经从原来的按“天”计算,发展到了按“小时”,按“秒”计算。比如,一家名为 Blue Spark 的科技公司已经生产出能 24 小时实时监测体温的新型温度计贴片 temptraq。 这种数据的扩展速度和覆盖范围是前所未有的,数据的格式也五花八门,可能是无格式文件(flat file),CSV,关系表,ASCII/ 纯文本文件等等。

同时,数据的来源也纷繁复杂,可能来自不同的地区,不同的医疗机构,不同的软件应用。不可否认,一旦理顺了多格式,多源头,呈爆炸性成长的大数据的整合和分析,医疗大数据将对提高医疗质量,强化患者安全,降低风险,降低医疗成本等方面发挥无与伦比的巨大作用。

医疗大数据的优势和应用场景

有效的整合和利用数字化的医疗大数据对个体医生,康宝中心,大型医院,和医疗研究机构都有着显著的好处。


公共卫生:分析疾病模式和追踪疾病暴发及传播方式途径,提高公共卫生监测和反应速度。更快更准确地研制靶向疫苗,例如:开发每年的流感疫苗。

医疗系统中,医疗大数据的管理使用准备工作还有一大段路要走。中国也是处在起步阶段。

数据分析框架(传统数据分析框架,大数据分析框架)

医疗大数据有着前面第一节提到的所有特征。在医疗大数据带来各种优势的同时,大数据随之带来的各种特性使得传统的数据处理和数据分析方法及软件捉襟见肘,问题多多。在大数据时代出现之前,受限于数据量的可获得性和计算能力的有限性,传统的数据管理和分析采用着不同的思路和流程。传统上,对于问题的研究建立在假设的基础上进行验证,进而研究事物的相关因果性,希望能回答“为什么”。

而在大数据时代,海量数据的涌现提供了从不同角度更细致更全面观察研究数据的可能,从而打开了人们的好奇心,探索欲望,人们想知道到数据告诉了我什么,而不仅仅是我的猜想是否被数据验证了。人们越来越多地用大数据挖掘各种感兴趣的关联,非关联等相关性,然后再进一步比较,分析,归纳,研究(“为什么”变成一个选项而不是唯一终极目标)。大数据与传统数据思路上的不同导致了分析流程的不同.

转载请保留出处,http://www.360docs.net/doc/info-b0be5d48b90d6c85ed3ac62d.html
面对海量的数据和不同的分析思路,大数据的管理和分析与传统数据分析的差异日益加大。回答特定问题的单一预设结构化数据库明显不能完全胜任处理大数据的海量及混杂等问题。数据的混杂多样性具体可以从一些调查数据中表现出来。SAS 的一份调查报告显示机构内的非结构化数据最多可以占到总数据量的 85%,而这些非数字,非结构化的数据却必须被量化分析和用到决策分析中 (Troester, 2012)。

另一份 2013 年进行的 SAS 调查报告显示在 461 个提供完整反馈信息的机构中只有 26% 的机构表示他们所拥有的大数据是结构化的 (Russom, 2013)。 此外,在机构中,分析的数据一般不会只有一个单一的来源。Alteryx 的调查报告显示在 200 家被调查的机构中只有 6% 的机构表示他们的数据是只有一个来源,最为普遍的情况是 5-10 个来源, 具体分布如图二 (Alteryx, 2014)。

调查中还显示 90% 的被调查样本表示有数据整合问题,

37% 表示需要等其他小组提供数据,30% 表示不能得到他们想要的数据,一般估计是一个数据分析师的 60% 到 80% 的时间是花在数据处理准备阶段上的 (Alteryx, 2014)。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|关于我们|医维基|网站地图|Archiver|手机版|医疗之家 ( 沪ICP备2023001278号-1 )  

GMT+8, 2024-5-22 20:38 , Processed in 0.154125 second(s), 28 queries .

Designed by Medical BBS

快速回复 返回顶部 返回列表