2018年,CDR(Clnical Data Repository,临床数据中心)和大数据平台(Bigdata Processing and Application Platform)都不是新面孔了,但还是经常有同行来问:我院建设了CDR,还需要建设大数据平台吗?或者,能用大数据平台建设CDR吗?CDR和大数据平台有什么区别?确实,院内数据的利用和院外数据的大量产生,这些问题变得不可回避,也的确有些困扰医院信息中心主任,相比大家熟悉的HIS,无论CDR还是大数据平台都是新技术和新应用,的确需要仔细思考。趁出差乘机的空隙,我稍事整理了自己的思路,与大家交流。
先明确二者的定义
首先明确定义。CDR是“临床数据中心”的英文缩写,在内涵定义上并未明确,包括国家卫生健康委于今年4月发布的《全国医院信息化建设标准与规范(试行)》。
我们不妨借鉴以下几个不同的定义。HIMSS提到,CDR是一个为医疗执业者提供患者临床信息实时事务处理的数据库;Gartner则认为,CDR是一个以患者为中心、颗粒化的健康数据集合体,其数据通常收集自多源的IT系统,用以支持多重应用;维基百科总结,CDR是一个整和各种临床来源数据的实时数据库,用以统一方式呈现病人个体数据视图。它为医师提取单个患者的数据而优化,而不是为识别患者群体的共同特征或者促进特定临床科室的管理而优化。
总之,CDR就是临床数据库。关于它的突出特性,解放军总医院医学信息研究所高级工程师薛万国早在2013年就已做了这样的高度提炼和总结:(1)是实时的院内数据;(2)是面向医疗过程和流程的;(3)具有主题性的,反映历史变化的,支持临床业务的。
再看一下什么是大数据平台。《全国医院信息化建设标准与规范(试行)》中有如下大数据平台的指标分类:(1)大数据采集汇聚——多源异构数据的采集与汇聚;(2)大数据治理——以统一的数据标准对多源异构数据进行归一化处理;(3)大数据计算——大数据计算的基础环境和功能;(4)大数据挖掘分析——多源、异构数据的挖掘和分析;(5)大数据利用——利用数据中心的大数据资源,对医疗服务、科研管理、医院治理等的辅助决策支撑应用。
大数据平台的特点,可以总结如下:(1)非实时的,面向医疗运营、科研和临床的院内外数据源;(2)无特定主题,数据丰富程度极高,与业务系统松耦合;(3)面向医疗机构,对数据进行二次利用。
二者对比分析
明确了基本概念和特性后,我们可以对比分析一下,细致地说一说二者的区别。
首先,面向的对象不同。CDR的需求和系统设计初衷是面向临床的一个特定数据存储和应用。也就是说,主要是为临床大夫在临床资料汇总、共享、查阅时服务的,是以单个患者的纵向临床电子文档为核心的。这个数据应用可视化后就是患者统一视图(也叫全景视图、360视图等),可以为医生提供临床诊疗查阅服务。
其次,两者存储的数据特性不同。CDR存放的是医疗文档的原始电子数据,是未经过加工处理的、原生态的、按照医疗文书分类的集成数据;而大数据平台存储的不仅有原始数据,更重要的是使用了结构化、归一等数据处理技术对数据进行拆分、离散化存储和重组,这些构成了大数据平台的核心数据源。
说到数据源,CDR一般存储的是医院内部医疗业务过程中发生和记录的临床数据,一般不收录院外数据,具有一定的保守特性。而大数据平台则不仅包括院内数据,还可以收录临床指南、公共医疗文献、知识库,甚至天气数据、互联网数据等,具有一定的开放特性。
CDR和大数据平台同样都包括院内数据源,其实时性要求也不尽相同。因为CDR是为医疗过程和流程服务的,应用者对数据的实时性要求比较高,所以CDR的显著特性是:数据(特别是类似检验检查、医嘱、处方、患者入出转等信息)必须是实时的。这也就确定了CDR建设的技术难度,需要依托于生产库的ETL,数据库日志、集成平台等各种技术方式的数据要同步。
大数据平台的重点不是临床服务,重点在于临床空余或间隔时间的检索应用,以及科研应用。对数据的实时性要求不高,所以注定数据平台获取数据的技术难度可以降低,可以使用备份数据(可以有不同的恢复机制)、离线数据以及部分生产数据。
第三,安全性要求不同。CDR作为院内系统之一,数据存储必然在内网(或逻辑内网),由于物理网络隔离的天然安全性,自身的数据安全和HIS等数据一样,在内部未采取数据脱敏措施,数据的使用一般依托于HIS或电子病历的授权体系,数据开放面比较狭窄,面临的安全威胁较低。而大数据平台由于科研研究和部分开放特性,需要对数据进行加密、脱敏、严格授权管理使用,这样才能让用户合理合规地安全使用数据。
CDR和大数据平台的关系
CDR和大数据平台建设是否有矛盾,二者是什么关系呢?CDR可否用大数据技术实现呢?
我认为,二者没有矛盾。CDR是一个特定的数据应用,大数据平台是支撑数据应用的公共数据资源库。CDR经过多年的发展,无论技术还是应用场景都已经日渐成熟。在临床过程中,稳定和实用是第一要点。而大数据平台相对比较新,技术也日新月异,其基于新技术算法的快速检索特性对医疗数据二次利用是革命性的,但由于不断的技术更迭,稳定性尚待提升。所以,二者分开建设和应用还是目前比较稳妥的方法和选择。
如今,大数据技术日趋稳定,数据实时性技术深入发展,依托大数据技术平台构造CDR的应用也日臻成熟。所以,CDR和大数据平台更多的是并行发展、互为补充、互为促进的关系。在实践中,二者没有必然的先后次序,只要能满足医院在临床科研、运营发展等方面的需求,争春又何妨?
作者简介
衡反修,北京大学肿瘤医院信息部主任。从事医疗信息化近20年,负责北大肿瘤信息化建设,在国内较早从事医疗数据研究和利用。社会任职:中国研究型医院学会医疗信息化专委会常务理事、医疗和临床科研大数据应用专业委员会主任委员;中国卫生信息学会医院信息化和电子病历专业委员会委员;中国医疗装备学会远程医疗专业委员会委员;同时,在其他多个医疗信息化相关专业委员会任职。
原标题:【衡反修专栏】闲话CDR和大数据平台的区别和关系
,