跳到正文
Back to Feed

总结

智谱1月14日宣布与华为联合开源新一代图像生成模型GLM-Image,基于昇腾Atlas 800T A2设备与昇思MindSpore框架完成从数据处理、训练到推理适配的全流程,被称为首个在国产芯片上完成全程训练的SOTA多模态模型。项目采用“自回归+扩散解码器”混合架构,强调在知识密集型场景生成效果。开源不到24小时模型登顶Hugging Face Trending第一,并在CVTG-2K与LongText-Bench等榜单获开源第一,突出对指令理解、长文本渲染及汉字生成能力,可用于海报、PPT、科普图等应用。

正文

IT之家 1 月 16 日消息,智谱 1 月 14 日宣布联合华为 开源新一代图像生成模型 GLM-Image ,模型基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的 SOTA 多模态模型。 开源不到 24 小时,GLM-Image 即登顶全球 AI 开源社区 Hugging Face Trending 榜第一 。这也是首次完全依托国产芯片训练的国产模型在国际舞台上取得榜首身位。 智谱表示,GLM-Image 项目的最终目标就是全流程创新,是 GLM 团队面向 以 Nano Banana Pro 为代表 的新一代「认知型生成」技术范式的一次探索。 从架构上看,不同于开源常用的 LDM 方案,GLM-Image 采用了「自回归 + 扩散解码器」混合架构,并在基本对齐主流方案的基础上验证了新架构在知识密集型场景下生成的优越性。 从训练基础上看,GLM-Image 实现了基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架的全流程训练及推理适配,实际训练性能足以达到相应计算设备的汇报性能上限, 验证了在国产算力上训练出 SOTA 模型的可行性 。 从性能表现上看,GLM-Image 在 CVTG-2K(复杂视觉文本生成)和 LongText-Bench(长文本渲染)榜单获得开源第一,能够读懂指令,写对文字, 尤其擅长汉字生成任务 ,可广泛应用于海报、PPT、科普图等知识密集型场景。 IT之家附开源地址如下: GitHub: https://github.com/zai-org/GLM-Image Hugging Face: https://huggingface.co/zai-org/GLM-Image
发布时间: