Back to Feed
总结
Google Research 宣布推出两款开放医疗模型:多模态医学影像与文本模型 MedGemma 1.5 4B(指令微调版)以及医疗语音转写模型 MedASR。MedGemma 1.5 增强了 CT/MRI 三维体数据、全切片病理多 patch 输入、纵向影像对比、胸片解剖定位、化验单等文档结构化抽取与 EHR 理解等能力,并在多项基准上较前代提升。MedASR 基于 Conformer,面向医疗听写与医患对话转写,官方对比称在听写数据上 WER 明显低于 Whisper large-v3。两者纳入 HAI-DEF 体系,提供 Hugging Face 权重与 Vertex AI 部署入口,便于开发者集成“语音→文本→推理”流程。
正文
Google 发布两款医疗开放模型:MedGemma 1.5 4B 与 MedASR Google Research 发文宣布推出 MedGemma 1.5 4B(医疗影像+文本多模态模型更新),并集中介绍其"近期发布"的医疗语音转写模型 MedASR;两者均纳入 Health AI Developer Foundations(HAI-DEF)体系,并提供 Hugging Face 权重与 Vertex AI 部署入口。 MedGemma 1.5 目前仅提供 4B 多模态指令微调版本;新增支持 CT/MRI 三维体数据、全切片病理(WSI)多 patch 联合输入、纵向影像对比(结合既往片)、胸片解剖定位(框选)、医疗化验单等文档结构化抽取,以及文本 EHR 理解等任务。Google 在博文披露的对比中:MedGemma 1.5 在 CT 疾病相关发现分类准确率均值 61%(v1 为 58%),MRI 为 65%(v1 为 51%);胸片解剖定位在 Chest ImaGenome 基准上 IoU 38%(v1 为 3%);文本侧 MedQA 69%(v1 64%),EHRQA 90%(v1 68%)。 edASR 是基于 Conformer 的医疗领域自动语音识别(ASR)模型,面向医疗听写与医患对话转写;Google 在博文中将其作为与 MedGemma 组合的"语音→文本→推理"入口,并声称相较 Whisper large-v3 在胸片听写数据上 WER 5.2% vs 12.5%(错误减少 58%),在内部多专科听写基准上 WER 5.2% vs 28.2%(错误减少 82%)。 Google huggingface huggingface
发布时间: