解决医疗数据问题是我国AI医疗弯道超车的关键一步


    一直以来,我国医疗都存在医生培养周期长,误诊率高,优质医疗资源供配不均等痛点,这使得看病难、看病贵已成不易根治的“顽疾”。而近两年来,随着人工智能走进医疗领域,医疗成了AI落地的又一万亿级场景,成为众多企业竞相涌入的风口,然而AI的赋能真的能有效地消除这些“顽疾”吗?AI医疗的痛点又在哪里呢?
    五年前,IBM Watson高调进军医疗领域,并于2015年实现Watson系统的商用,为医院提供癌症的辅助诊疗服务,成为全球AI医疗行业的领导者。然而近几年,IBM Watson的发展并不如预期那般顺利,2017年2月,休斯敦安德森癌症研究中心(MD Anderson Cancer Center)终止了与IBM Watson的合作,称其辅助诊疗效果始终达不到预期。2018年5月24日,IBM Watson又传出对医疗部门大幅度裁员的消息,其背后暴露的问题不禁令人反思。
    
     数据是AI医疗发展一大瓶颈
    实际上,当人工智能打破了算法算力的技术壁垒之后,也愈发凸显其对数据的依赖性,而Watson系统在医疗诊断时频频出错的根本原因之一正是数据问题。虽然X光扫描识别恶性肿瘤并不算太难,但要制定出某种癌症的治疗方案是一件很复杂的事情,影像诊断需要经过大量专业医师标注的数据进行模型训练才行。但根据IBM的内部文件,Watson使用的训练数据并不丰富,例如,训练肺癌治疗方案的数据仅有635例,况且这些数据并非全部来自真实患者,有些是来自合成的案例或假设的患者。
    此外,北美对医疗数据有严格的隐私保护机制,并且每种疾病所需要的数据都不同,数据碎片化问题严重,这些因素便导致了数据获取途径困难且成本高昂。医疗数据成为了影像诊断行业发展的瓶颈。
    而在我国,数据归医疗机构和患者所共有,并且在2017年的《“十三五”全国人口健康信息化发展规划》中,国家提出了要有序推动人口健康信息基础资源大数据的开放和共享的政策方针。在政策支持下,三家医疗大数据公司也开始积极建设医疗数据库,这给AI医疗的发展提供了很大的技术和数据支持。因此解决数据问题,是助推我国AI医疗实现弯道超车的关键点。
    我国医疗大数据在质量上也不容乐观
    然而在我国医疗领域,作为AI医疗发展基石的医疗大数据在质量上也不容乐观。
    就电子医疗记录而言,虽然目前医院普及率很高,但其可及性和数据质量都并非最优,并且不同医院使用的信息系统提供者达300多家,其数据结构和标准都有所差异。
    除此之外,由于医疗资源分配不均衡,我国各地区医生水平参差不齐,医疗欠发达地区的误诊率远超一线城市,从而导致了整体疾病诊断正确率偏差很大。
    “就像十年前我们讨论用数据做知识研究的时候,中国面临一个最大的问题就是中国的数据质量目前是不太可靠的,不可靠的原因就是疾病诊断不对。以我们拿到的北京中风病人数据为例,北京能够收中风病人的医院是130家,大概每年住院病人14万人,诊断正确率是72%,另外的28%诊断都是错的。”,北京天坛医院王拥军院长在GMIC生命科学如是说道。
    我国医疗大数据之所以质量低下,一方面是因为高误诊率,另一方面则是因为缺乏标准化的临床术语语义体系。虽然自2002年我国已采用了国际疾病编码和国际手术编码,但单凭这两大术语并不能覆盖医疗记录中所有临床信息,并且目前应用较为广泛的医学系统命名法在我国并不使用。因此只有做好医学术语管理,才能挖掘出医疗大数据背后的真正含义。
    除此之外,医疗大数据的隐私问题也不容忽视,但目前我国并无相关具体法律或指引,在不影响数据完整性的基础上出台隐私保护规则也很必要。
    医疗大数据对人工智能在医疗领域的发展至关重要,在提高诊断准确性和优化临床决策等方面发挥着巨大作用,我国AI医疗行业要想取得实质性发展,进一步完善数据系统,发展大数据收集、储存、整合、管理和应用等各种新技术是关键一步。