医疗GPT,硅谷又跑在了前面?
作者|钱德新
今年2月,哈佛医学院教授Tiffany H. Kung给ChatGPT出了一套美国医学执照考试。
得出的结论是,ChatGPT在三个专家级知识的标准化测试中能够达到或接近60%的准确度,其辅助诊断的表现已经接近医生。
另一教授Ateev Mehrotr也对ChatGPT进行了测试。
结果显示,ChatGPT在45个案例中的39个诊断正确,正确率87%(超过了现有机器诊断率的51%),并为30个案例提供了适当的分诊建议。
而ChatGPT在医疗领域的应用,在GPT-4发布后再次成为焦点。
据OpenAI的内部评估,GPT-4在产生事实回复时其性能比GPT-3.5好40%,在参加为人类设计的考试中表现比之前版本更好(例如医学知识自我评估计划(75%vs 53%))。以及,多模态输入也让GPT4能够直接转录手写纸质处方。
甚至,未来有一天给你开诊断书的可能不是医生,而是AI。
01
硅谷巨头们都在做什么?
谷歌可能是极少数意识到GPT对医疗领域重要程度的巨头之一。
在ChatGPT发布后仅几周,谷歌就公布了Med-PaLM,一个在更窄的参数范围内运行的,专门用于回答医疗保健相关问题的大型医用语言模型。3个月后,谷歌就马不停蹄的公布了Med-PaLM 2。
但微软想要更快。
Med-PaLM 2发布几天后,Nuance(被微软2021年收购)发布了一款让医生临床记录“iPhone化”的杀手级AI应用,也是医疗行业第一款结合GPT-4模型的应用。
巨头紧锣密鼓地在医疗领域落地GPT,很大程度源自医疗是一个高度垂直的行业。
有券商曾在今年2月的一份研报中,详细列出了以ChatGPT为代表的AI技术的四条应用推演路线,其中除了独立工具、深度嵌入生产力工具和与服务型应用结合,还有一条就是垂直领域。
由于医疗领域的专业性和特殊性,其对语言模型的质量要求远高于市面上任何一种通用语言模型。所以,虽然比爆火的ChatGPT来得晚了一些,但生成式AI在医疗上有着充分的发挥空间。
而这场马拉松比拼的不是谁先起跑,而是怎么跑。
知乎上曾有答主将ChatGPT与医疗从业人员的学习路径做了一个比较,如果单从时间跨度来看,一个基于GPT-3.5模型的医疗大模型,可能在几天或者几周内即可完成培训,而一个专科专家即便按照最短耗时计算,也要20年。
这相当于论证了GPT应用到医疗领域的广阔前景。
具体来说,复旦大学附属华山医院信息中心主任黄虹就曾表示,医疗GPT重要的应用场景可以是就医导诊、医院内部知识库的构建和辅助医生提升电子病历的书写效率。
医联创始人、CEO王仕锐先生近日也公开表示,AI医生与互联网医院的结合,将为医疗领域带来前所未有的化学反应。
02
巨头们忙于训练AI医疗大模型的目的
券商对于AI技术落地垂直领域的推演,其中值得关注的一点在于,垂直领域大模型与通识大模型是不相同的。
在涉及专业知识的领域,ChatGPT为代表的大语言模型通过与搜索引擎结合能对专业信息进行汇总、检索,并附上来源,但模型本身在专业领域尚无法提供精准的回答,也无法运用专业知识解决综合性的专业问题。
不过,大模型最重要的一个步骤在于,需要用专业的数据投喂、训练、迭代,才能越来越契合垂直领域。Med-PaLM 2在被训练近3个月后,表现提高了18%就能说明一些问题。
未来随着更多的专业Know-how注入,以ChatGPT为代表的AI技术有望在需要较强专业知识的垂直领域得到进一步的应用。
中科院院士、中山医院心内科主任葛均波就明确表示过,AI临床应用结合大数据,将会极大延伸医疗服务“上下游”,实现全生命周期管理。“AI助力将可为患者从预防、发病、诊断、治疗到院外康复的疾病管理全流程提供智能解决方案。”
事实上,忙于训练AI医疗大模型的硅谷巨头,已经在开发上述其中一个环节的落地产品了。
比如在最简单的临床记录生成层面,依靠GPT-4强大的生成式大语言模型和推理能力,DAX Express将这个过程从4个小时缩短到仅仅几秒钟。
英伟达则通过NVIDIA AI Foudations云服务,以帮助需要构建、完善和运行自定义大型语言模型及生成式AI的客户加速生成式AI的引入。这一服务包括用于自然语言处理的Nemo、图像处理的Picasso,以及针对制药业的BioNeMo。
AMD在收购赛灵思后,后者的FPGA芯片也在规划在辅助病情诊断(慢性病筛查和风险评估)等场景,通过学习过往慢性病患者数据可以预测未来患病风险。这类场景使用FPGA也可实现模型训练、推理性能的提升。
当然,国内也有相关公司意识到医疗GPT的价值。4月28日,医联就对外公布了国内首款大语言模型驱动的AI医生——MedGPT,该产品目前已进入内部测试阶段,并计划于5月份正式发布。
03
医疗GPT,要脚踏实地
硅谷巨头的技术和产品,虽然按照过往的逻辑可能会很快传到大洋彼岸,但今天往后也可能不会。
由于众所周知的原因,AI本身就是一个被限制的技术。更重要的是,大模型的本质是通过概率最大化不断生成数据,而不是完全通过逻辑推理对问题进行解答的算法模型。
换言之,对一个大模型来说,数据和技术同样重要。其中数据的大小、提炼程度,又决定了大模型的能力。美国的医疗数据不一定适合中国人,地理位置、气候、饮食习惯等等诸多的不同,导致问题也会不同。
并且,若是基于逻辑推理对问题进行解答的逻辑,目前搜索引擎出现的问题,也仍将存在。今年ChatGPT针对算法错误修复的版本更新,便明确了这一问题的存在。如果直接把这项技术丢进互联网医院进行应用,后果可想而知。
所以要考虑GPT技术在医疗场景的应用,就要跳脱出固有思维。
首先,一定要有专门的数据喂养。更多专业Know-how的注入,以及专家进行语料标注,不断清洗数据,才能提高模型的准确度。
以医联的MedGPT为例,医联作为一家互联网医院,其本质就是医患关系链,以及在关系链上发生的医疗决策、服务和商品。这意味着,基于医联超过150万的注册医生和2000万患者深度互动而沉淀出来的专业数据,足够投喂一个医疗大模型。
同时,医联专业的疾病全流程管理能力,针对各个疾病病种研发的专业SOP,以及智能化的患者疾病管理功能,也为沉淀数据,最终训练出这样的医疗大模型提供了重要的医疗底层能力基础。
其次,只有从业者才能做得更好,也就是需要最好的技术+最好的医疗能力。
医联自研的MedGPT采用了大模型技术,基于医疗知识图谱为模型提供丰富、准确、结构化的医疗知识、并收集整理接近20亿条真实医患沟通对话、检验检测和病例信息进行深度训练学习,同时利用医生真实反馈进行强化学习,用以保障模型的推理质量、准确性与可靠性。值得一提的是,医联MedGPT首次突破了AI医生无法与真实患者连续自由对话的难点,并实现了医疗问诊场景中支持多模态的输入和输出。
据了解,目前医联MedGPT拥有近3000种疾病的首诊能力,覆盖80%以上的成年人疾病种类和90%以上的0-12岁儿科疾病。
第三,与传统的医疗服务相比,GPT的优势更明显。
还是以MedGPT为例,在互联网医疗的土壤中,它实际上具有高效便捷、精准预测、个性化服务和数据共享等多种特征。
通过使用医联MedGPT,患者可以更加快捷、准确地解决与提供自身问题,这无疑为患者提供了更加个性化、专业化的诊疗服务。
更重要的是,MedGPT基于大量问诊数据训练,能够将患者从就诊问诊到疾病识别再到后续的治疗建议环节进行智能且科学的串联,也就是在疾病的预防、诊断、治疗、康复四个重要环节全面实现智能化。
值得一提的是,基于严肃医疗理念,为了检验MedGPT的科学性,医联抽取了平台532名复诊患者进行实验。结果显示,医联MedGPT的诊断结果与原有诊断吻合率超过97.5%,充分证明了AI医生在医疗领域的价值和潜力。
04
前景广阔 值得期待
斯坦福大学医学院教授Robert Pearl最近的一个观点比较有代表性,他认为AI对医生来说将比过去的听诊器更重要,任何医生都不该把ChatGPT或其他形式的生成式AI拒之门外。
Pearl认为,ChatGPT可以帮助医生来撰写患者的临床报告、诊断书,甚至在和患者交流遇到困难时向医生提供建议。生成式AI语言模型可以挖掘数字诊疗档案中的有用信息,也能为患者提供简洁明了的专业解释。
但实际上AI+医疗还不止如此。甚至,对于整个互联网医疗模式都将产生积极影响。
譬如医联平台上现有的线上复诊随诊、送药上门、指标监测、用药指导、不良反应干预、医保支付、健康科普等服务,在引入MedGPT后不仅整个流程会有一个效率上的提升,更能推动上述各个领域的服务专业度、服务质量更上一层楼。
事实上,医疗GPT更大的应用场景还是在基层。
一方面因为基层医疗资源匮乏而导致医患供需失衡,如果引入类似MedGPT的医疗GPT,那么对于基础疾病的识别判断,可以帮助患者更有针对性地选择适宜的治疗方式及治疗路径;
另一方面,高效准确的普筛,可以减少优质医疗资源挤兑,提升基层医疗环境的疾病诊断能力,为分级诊疗制度的实施赋能。
据了解,医联也将在5月释放大模型能力,届时我们将能看到更多AI与互联网医院的能力结合以及更多的应用空间展示。$硅谷天堂(SZ833044)$
本文作者可以追加内容哦 !