top
上海市第一人民医院:如何让科研数据平台具有生命力? 2023-03-21
阅读量:
HIT专家网      作者:龚晨、张明飞

“我们认为,作为面向院内需求的科研数据平台,70%的功夫要花在数据元素上,20%的功夫花在NLP、深度学习等技术,10%花在数据分析方法与算法推荐。”

从2019年探索至今,上海市第一人民医院(以下简称上海市一)着力建设“临床数据研究智能平台”。不同于一些医疗大数据平台强调数据分析、算法推荐等功能,上海市一的科研数据平台始终立足于院内临床科研的最迫切需求,希望帮助科研人员搬走两块“绊脚石”:

一是数据准备工作繁杂耗时,“二八效应”突出,科研人员80%的时间用于数据准备,仅有20%的时间用于科研创新思路探索与实践;

二是科研数据共享难,缺乏院内共享的工具与机制,哪怕是一个覆盖面很窄的小课题,科研人员也要从零起步、从下至上完成许多重复性的数据准备工作。

解决数据来源问题,满足临床科研的“首要刚需”:这是上海市一建设科研数据平台的初心与立足点。

走近业务,数据治理才能如“烹小鲜”

根据《上海市“便捷就医服务”数字化转型2.0工作方案》,上海将着力打造三大“未来医院”,上海市一是三家试点医院之一。

什么是“未来医院”?上海市第一人民医院信息处主任傅春瑜认为,“未来医院”的本质是“数管医院”,也即围绕全数据要素进行医院管理,因此数据治理、数据利用将尤为重要。

上海市第一人民医院信息处主任傅春瑜

“治大国如烹小鲜,数据治理也如同烹小鲜。”傅春瑜用烹饪流程来比喻医院数据治理方法论:“跌一跌”(上海方言,意为采摘),数据采集;“拣一拣”,数据分类;“汰一汰”,数据清洗;“斩一斩”,建立数据模型;“煸一煸”,数据质量定义;“炒一炒”,数据加工与融合;“焖一焖”,场景化适应;“收汁摆盘”,数据交付;“评一评”,根据用户反馈进行优化。

其中,“煸一煸”是为了“把食材最鲜美的味道保留下来”,也即保证较高的数据质量,这取决于业务系统的功能是否健全、流程是否合理;“焖一焖”的目的是确保菜品入味、口感适中,也即在数据交付前要进行精细化场景适配,以适合使用者的“口味”;“评一评”则是倾听用户声音,并将其作为新一轮PDCA闭环管理的起点。

傅春瑜认为,上述环节对于医院信息部门的要求不仅是技术层面的,更要求“走出信息科、走到临床一线”。只有数据治理人员能够走近业务,才能了解如何保留数据的精华部分、如何提供更符合使用者需求的数据产品。

“数据治理如烹小鲜,但我们的任务不仅仅是做一道菜,而是要‘办食堂’,具备规模化产出的能力。”傅春瑜表示,在智慧医院的建设过程中,医院要办好数据利用的“大食堂”,一方面需要强化“灶具”,通过系统化、平台化的信息化建设提高生产力;另一方面,则需对数据共享、数据安全、全员参与能动性等问题进行整体规划,通过机制建设,理顺生产关系。

傅春瑜说,医院信息部门要与临床、科研部门“拧成一股绳”,这一目标的实现需要基于“七共”的基础上,分别是共建、共治、共促、共管、共享、共创和共赢。“这需要医院‘一把手’的重视,在医院信息化建设委员会的推动下,通过组织机制的保证,举全院之力推动科研水平再创新高。”

据介绍,上海市一在临床科室设有信息专管员,作为医院信息部门的“IT前哨”,他们负责收集并消化科室内部的科研需求;信息处专门设置“科研辅助人才”的数据开发管理岗位,目前有4名成员。有别于信息处此前传统的系统研发工作,这些工程师的主要技术能力在于数据处理、数据分析以及人工智能算法模型创建,工作职责是负责协助科研人员完成数据采集、数据治理、数据模型设计等工作,并负责对接平台技术合作伙伴。

“当前,医院信息部门处于角色转型的关键阶段。”傅春瑜认为,未来的医院信息部门将是一个综合性科室,这一点在科研信息化建设中已表现得尤为突出。

不做“无根之萍”,科研数据平台要有生命力

在上海市一的建设规划中,“未来医院”的转型方向之一是“从以临床诊疗为主”逐步转向“临床诊疗与科研创新并重”。

“未来医院”需要一个科研大脑。2019年,上海市一联合医利捷(上海)信息科技有限公司基于RDR(科研数据中心),启动建设“临床数据研究智能平台”。该平台是一个全面的、基于院内信息网络的临床数据分析工具,可以汇聚患者在院内所有的医疗行为,通过数据洞察和分析,加速临床研究的实施和开展。

上海市第一人民医院信息处副主任范骏翔介绍:“我们希望通过这个平台,将科研人员从他们不擅长且耗时多的数据准备工作中解脱出来。另一方面,从全院视角来看,各类专病数据库有超过50%的数据是可复用、可共享的基础数据。我们在平台上预先将其提炼成公共元素,面向所有科研人员开放。”

在平台建设之初,上海市一就秉承这样的理念:科研数据平台不能成为“无根之萍”,需要具有可持续发展的生命力。如果专病数据库的数据录入需要临床医生花费大量精力回忆病史、翻阅病历、手工输入,这对于临床而言是一种负担,这个专病库必然也无法长久维持。

为此,上海市一信息处与临床部门,特别是PI(Principle Investigator,学术领头人) 沟通研讨,确立了平台数据分类模型,将数据分为L1、L2与L3级别。其中,L1是指临床系统中天然存在的数据,可直接采集,比如根据医嘱显示,患者服用过的药物信息;L2是需要进行聚类分析等加工处理后才能获取的数据,比如患者是否服用过“胃黏膜保护剂”,这需要先对哪些药物属于胃黏膜保护剂进行定义,再在系统中进行标记;L3则是需要借助NLP、深度学习等技术,从大段描述性文本中抓取的数据。

“一个可持续发展的专病数据库,L1、L2数据应合计占据50%-60%,L3数据应占据20%-30%,剩下的10%-20%是需要依靠临床经验判断与随访获取的数据信息。”范骏翔介绍,在这个数据分级模型的指引下,医院信息处找到了管理临床科研需求的“新抓手”。

比如,当临床科室提出某个专病库的建设需求时,信息处会对其提供的数据集字段进行分析、评估。如果L1、L2的字段占比过低,则数据集质量不佳,双方应进一步探讨各类数据的重要性与可行性,对数据集进行调优。“如果部分数据确实非常重要,应从临床系统直接采集但尚未实现,这将倒逼我们对临床系统进行改造,比如在电子病历系统中增加相关数据的结构化。”范骏翔介绍,上海市一信息处具有较强的技术能力,包括HIS、电子病历在内的多个业务系统都是自主研发的,因此有足够能力支持科研数据平台与临床业务系统的深入对接,方便临床医生在接诊环节通过打标签、在结构化电子病历中直接录入等方式,快速收集核心数据,提升L1、L2数据占比,改善数据集质量。

在院内数据共享方面,平台引入“数据沙盒”模式,每个沙盒对应一个专病数据库。项目负责人在院内通过授权后,可以在自己的沙盒中创建任意队列,并引用院内任意的临床客观数据。以拥有近500个数据字段的重症肺炎专病库为例,其中超过300个通用数据集数据可从平台上得到共享,科研人员只需专注于其他200个个性化数据,即可合并成eCRF表单。

在过去三年多的建设中,范骏翔认为有三类问题需要重点关注:

首先是因部分单机设备缺乏数字化接口带来的数据采集问题。这类问题主要出现在医技系统中,如有的骨密度测量仪只能打印纸质报告。为实现自动采集,上海市一最初尝试利用OCR技术,但90%的精度不够理想;其后引入TensorFlow等深度学习技术,实现图片报告的自动识别与抓取,将数据精度提升至97%以上。

第二是平台数据检索的效率瓶颈问题。当数据量达到亿级,常规的检索技术不足以支持条件、事件的秒级检索,影响使用体验。上海市一先后引入ClickHouse、Lucene文本检索等新技术,可确保任意数据检索在3秒内返回结果。

第三是平衡临床数据录入的质量与效率问题。理论而言,如果科研所需数据来源于临床系统的直接录入,效果将是最好的。上海市一曾做过试验,让临床医生在接诊时填写科研队列中的所有数据信息,单次接诊时间从8分钟延长至20分钟,最终因耗时过长而不得不放弃;此后调整策略为:将科研数据集中非常重要的关键信息定义为L1数据,必须在临床接诊时完成数据记录,如临床系统无法自动采集,则由信息处对临床业务系统进行相应改造支撑;L2或L3数据的获取尽量不对临床产生干扰。这需要医院信息部门在效率与质量之间找到平衡点。

成效初显,平台将不断成长

2021年,上海申康医院发展中心启动“第二轮临床三年行动计划”,任务之一是打造45个高标准的专病数据队列,上海市一承担了其中5个专病数据队列的主中心和18个专病数据队列的分中心工作。

这在很大程度上得益于临床数据研究智能平台的支撑。作为平台的“深度用户”,上海市第一人民医院呼吸科主任张旻用数字说话:在重症肺炎专病数据库建设之初,通过人工方式录入数据,平均一个病例需耗费6小时;自从对接平台后,最快5分钟就可以完成单个病例的数据整合。

上海市第一人民医院内分泌科副主任医师冯晓云此前一直苦恼于临床工作与科研分析是彼此割裂的,不得不留待下班后把所需数据手工录入到自我管理的数据库中。平台上线后,医生可以在诊疗过程中实时将研究对象加入队列,迅速且准确地收集、检查、检验各项指标,自动进行数据质控,节约时间、提高效率且保证质量。

根据整体规划,目前临床数据研究智能平台处于1.0阶段,主要任务是L1字段数据的收集、管理。据范骏翔介绍,平台将在2022年下半年升级至2.0版本,重点将围绕三项工作:L2、L3字段数据的收集和深加工;提供数据分析功能,帮助科研人员在平台上直接进行数据分析或头脑风暴;将慢病随访管理与专病库进行对接,便于科研人员对入队患者进行针对性随访。

而平台3.0版本则是面向未来进行探索,为新药研发等前瞻性研究提供数据支撑。“这将是我们未来的五年计划。平台将不断成长,未来将会有更多科室、更多科研团队入驻平台,共同打造开创性的科研数据库。我们希望借助这个平台,使得各类专病库的数据积累超过3年、5年,甚至10年、20年。如果能够积累20年,这个数据库的价值将超乎想象。这是我们努力的方向。”范骏翔说。



作者: 来源: