中国电信新 AI 技术把视频压缩到 0.02% 大小，画面依然清晰可看

Back to Feed

Notable

国内 · 科技

中国电信TeleAI生成式视频压缩（GVC）技术

总结

中国电信人工智能研究院TeleAI在技术报告中提出生成式视频压缩GVC：通过神经编码器把场景语义与运动信息压成Token，仅传约0.005-0.008 bpp数据，接收端用扩散模型重建视频，使1GB视频可用约200KB传输、在极低带宽下仍保持清晰连贯。报告称同等视觉质量下较HEVC需带宽减少6倍，并在分割任务上保持语义准确，模型经蒸馏可在消费级GPU近实时生成。该技术面向远洋卫星通信、应急救援、深空与车载等场景，以“用计算换带宽”降低传输与存储成本。

正文

感谢 AI！原生 1 个 G 的视频，现在只需要传 200K 数据就能看了 -- 视频数据的压缩率干到了 0.02% ，但依旧能保持画面的高清、连贯和画面细节。或许你会问，这又有什么用呢？想象一下，你身处于太平洋的一艘远洋货轮中，卫星信号只有一两格，刷个朋友圈，加载内容的圈圈都要转好久。但正是因为有了这项 AI 技术，现在在如此极端的环境之下，你甚至可以直接看高清的世界杯直播！没错，视频传输的物理法则，算是被重写了。而这项新研究，正是来自中国电信人工智能研究院（TeleAI）的技术 -- 生成式视频压缩（GVC，Generative Video Compression）。作为国资央企、全球领先的综合智能信息服务运营商，中国电信不仅拥有覆盖海陆空天的通信网络基础设施，更具备将前沿 AI 技术与实际通信场景深度融合的能力。这种"云网融合 +AI 原生"的独特优势，使得 GVC 技术从实验室走向远洋船舶、应急现场等真实极端环境成为可能。那么这项研究到底是如何做到的，以及又能给我们现实生活带来什么改变，我们继续往下看。用计算，换宽带在介绍这项黑科技之前，我们需得先聊聊现在的视频是怎么传输的。无论是你要看的 Netflix、B站，还是微信视频通话，背后主要依靠的是 HEVC（H.265）或 VVC（H.266）这类传统视频编码标准。这些技术的底层逻辑，说白了是像素的极致搬运：编码器拼命计算哪些像素是不变的、哪些是移动的，然后尽可能多地保留像素信息，再想办法塞进有限的带宽里。这种逻辑在宽带富裕时很完美，但在极限环境下（极低带宽）会迅速崩盘。一旦带宽不够，传统编码器为了凑合传输，只能疯狂丢弃高频信息。结果我们都见过：画面糊成一团，甚至直接卡死。但 TeleAI 团队换了个思路，如果我不传像素了呢？ GVC 的核心逻辑是：不再传递画面本身，而是传递"如何画出这幅画面"的指令。打个比方：传统压缩：就像是把《蒙娜丽莎》拍一张照片，尽量压缩这张照片发给你。如果网不好，照片就糊得像一堆色块。生成式视频压缩（GVC）：我不发照片了。我发给你一段描述 --"一位女士，神秘微笑，背景是山水，光影是从左侧来的......"，以及她嘴角上扬的精确弧度数据。你的接收端坐着一位 AI 画师（生成式模型），听到描述后，现场给你画出一幅《蒙娜丽莎》。刚刚说的只是打个比方，实际情况要复杂得多，传输的内容也并非只有文字。这就是技术报告中提到的核心理念：用计算，换宽带（Trading computation for bandwidth）。把传输的压力，转移到了推理计算上。 GVC 到底压了些什么？既然不传像素，那这 0.02% 的数据里到底装了什么？技术报告揭示了 GVC 系统的内部构造，它主要由神经编码器（Neural Encoder）和生成式视频解码器（Generative Video Decoder）两部分组成。里面传输的是一种被称为压缩 Token 的极小数据包，这些 Token 里包含了视频的灵魂，主要分为两类：语义信息（Semantic Information）：这是一个什么场景？有人吗？有车吗？物体的大致结构是什么？这是画面的骨架。运动信息（Motion Dynamics）：这些物体下一秒往哪动？风怎么吹？车轮怎么转？这是画面的灵魂。经过 TeleAI 团队的测试，这些 Token 的大小可以被压缩到极致的 0.005 bpp - 0.008 bpp （bits per pixel，比特每像素）。这是什么概念？通常我们看的高清视频，bpp 至少在 0.1 以上。 GVC 直接把数据量砍掉了两个数量级。除此之外，在接收端，还有一个扩散模型（Diffusion Model）严阵以待。它接收到这些简短的 Token 指令后，利用预训练好的海量世界知识（比如它本来就知道海浪长什么样，足球长什么样），结合指令中的特征，开始脑补并生成视频。这在通信理论上，实现了一次巨大的跨越。香农-韦弗（Shannon-Weaver）通信模型将通信分为三个层级： Level A：技术问题（传得准不准？） Level B：语义问题（意思对不对？） Level C：有效性问题（能不能完成任务？）传统视频压缩在死磕 Level A，而 GVC 直接跳到了 Level C 。它不在乎每一个像素点是否和原图一模一样（比如这片树叶的纹理是否 100% 重合），它在乎的是：在人眼看来，这是否是一场连贯、清晰、真实的球赛？在机器看来，能否准确识别出这是否是越位？数据实测：非常省流极端压缩听起来很玄，但具体指标并不含糊。技术报告中展示了在 MCL-JCV 权威数据集上的测试结果，数据非常硬核。画质吊打传统算法在极低码率下（0.005 bpp 左右），使用 LPIPS（一种更符合人类视觉感知的画质评价指标）进行对比：传统霸主 HEVC 已经彻底崩溃，画面基本是马赛克乱舞，LPIPS 数值飙升（越低越好）。 GVC 生成的画面依然保持了清晰的纹理和结构，LPIPS 数值显著低于 HEVC。技术报告中给出了一个惊人的对比结论：传统方法（如 HEVC）要想达到和 GVC 同样的视觉画质，需要消耗 6 倍以上的带宽！这意味着，在同样的渣画质网络下，GVC 能让你看清 C 罗的表情，而 HEVC 只能让你看清 C 罗是个移动的色块。不只是给人看，机器也能用有人会问：AI 生成的视频，会不会失真？比如把球生成没了？这是一个非常犀利且实在的问题。为此，团队在 DAVIS2017 视频分割任务上进行了验证；结果显示，在 bpp=0.01 的极限压缩下，GVC 重建视频的 J&F 指标（衡量分割准确度）显著高于 HEVC。这说明 GVC 传输的不仅仅是"好看"的皮囊，更是"准确"的语义。即使是 AI 重绘的，关键物体（人、车、球）的位置和轮廓也是精准的，完全不影响后续的 AI 分析。消费级显卡也能跑计算换宽带，那会不会把电脑算爆？确实，生成式模型通常是算力黑洞。但 TeleAI 通过模型小型化、知识蒸馏等手段，搞定了落地的最后一公里。报告数据显示，经过优化的 GVC 模型，在消费级 GPU（如 RTX 4090）上，生成一组 29 帧的画面大约只需要 0.95 秒到 1.35 秒。虽然比不上传统解码器的毫秒级速度，但在很多非实时或准实时的场景下（比如直播延迟几秒），这已经是完全可用的状态了。当然不只是为了看个世界杯 0.02%，这篇技术报告所展现的关键数据已然非常惊艳，但它背后更加可期的，还是这项技术给未来带来的改变。除了开头我们提到的世界杯的例子外，在报告展示的 Demo 场景中，GVC 还展现了其它极端网络环境下的情况：远洋海事通信：船员通过窄带卫星网络（带宽极其昂贵且稀缺）接收数据。用 GVC，200K 的数据流就能还原出连贯的球赛直播。这不仅是娱乐，对于海上远程医疗、设备维修指导来说，是救命的技术。应急救援：地震或洪水灾区，基站损毁，只有微弱的应急通信信号。救援无人机传回的如果是 4K 画面，根本发不出来；如果是 GVC 压缩后的 Token，指挥中心就能实时看到清晰的现场生成画面，哪怕细节纹理是 AI 补全的，但受灾人数、房屋倒塌结构等核心信息是准确无误的。深空探测与车载视频：想象一下火星车发回的视频，或者数百万辆自动驾驶汽车每天上传的路测数据。如果都能压缩到 0.02%，存储和传输成本将呈指数级下降。实际上，GVC 并非孤立的技术突破，而是建立在 "智传网（AI Flow）" 理论体系之上。智传网（AI Flow）是人工智能与通信、网络交叉领域的一项关键技术，即通过网络分层架构，基于连接和交互，实现智能的传递和涌现。在去年的世界人工智能大会（WAIC）上，中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授，介绍了 TeleAI 在智传网（AI Flow）研究中所发现的三个定律：信容律、同源律、集成律。信容律描述大模型的本质规律和能力边界，通过数据压缩的方式来衡量模型的知识密度，也就是智能能力。同源律则展现大模型的"部分"与"整体"关系，在相同训练计算开销下，能指导得到数量更多、性能更好的不同大小的家族模型。集成律能指导大模型"单体"与"群体"的协同，通过多个模型集成的方式，实现智能能力的提升与涌现。基于智传网（AI Flow）的信容律，在 AI 时代，通信的本质不再是单纯的数据传输，而是智能的分发与协同。在此体系下，GVC 通过"用计算换带宽"的资源置换策略，实现了通信效率与感知质量的最优平衡。 GVC 就是这一理论的最佳实践：当带宽成为瓶颈时，我们就燃烧算力来换取自由。从像素还原到语义生成，视频压缩技术正在经历一场类似从功能机到智能机的范式转移。 GVC 标志着视频通信正从像素搬运迈向语义生成的新阶段。作为央企在 AI+ 通信融合创新中的重要成果，它不仅为远洋通信、应急救援、边缘智能等场景提供了高效可行的解决方案，更开启了以任务有效性为核心的下一代视频传输范式：在未来的互联网里，流淌在光纤和电波中的，可能不再是庞大的原始数据，而是高度浓缩的智慧和指令。技术报告地址： https://www.arxiv.org/abs/2512.24300 本文来自微信公众号：量子位（ID：QbitAI），作者：金磊，原标题《不得了，这个新技术把视频压缩到了 0.02%！》

发布时间：-