音视频数字化在消费领域的红利俨然见顶,而产业级视频应用激活了更多场景下的业务模式。与此同时,音视频客户也从单一的业务需求,趋向于多种业务并行存在的需求。
固有的网络能满足新兴的业态吗?延时与成本之间存在区间最优解吗?业务的升级切换如何不再费时费力?在成本可控下网络的稳定性怎样保障?
一张多元融合的流媒体传输网络可否解决全盘之困?
面向未来的流媒体传输网络,又将从何揭开其神秘面纱?
本文由IMMENSE、「阿里云视频云」通讯服务负责人黄海宇和LiveVideoStack策划、采访而成。
网络新基建,若隐若现
降本还是网络最大痛点吗?“元数据”是新主角吗?
网络基础设施升级、音视频传输技术迭代、WebRTC开源等发展,音视频业务在消费互联网领域蓬勃发展,并逐渐向产业互联网领域加速渗透。
然而,行业红利期退却之后,以往隐蔽的音视频业务现象,逐渐显露。
一方面,“降本”是持续热议的话题。而在音视频应用中,网络传输在IT成本中占比很高,例如,在一个典型的直播应用中,网络传输成本占总成本70%以上。于是,在降本增效的大背景下,降低网络传输成本,是行业客户和云厂商共同面临的课题。
另一方面,“延时”带来更多价值和空间。从消费端的实时交互,到产业端的实时远程,对视频流的延时要求越来越高, 在云渲染、云游戏、数字虚拟场景中,涉及复杂的编码、解码、传输环节,而最复杂的瓶颈就在于传输网络的时延,但网络的构成与影响因素高度复杂,对其延时的提升也是极大挑战。
与此同时,新趋势的生长也带来更多挑战。
不久前,苹果Vision Pro在 WWDC 2023 亮相,推出其首个空间计算设备,将热度渐消的元宇宙重新拉回大众视野。
图片来源于网络
对未来的想象,不再局限于头盔上的渲染视频,更涉及到云端的交互与合成。然而,元宇宙的真正繁荣,不仅需要MR硬件终端的性能升级,更取决于流媒体传输网络的迭代演进。
我们发现,当下的海量视频主要基于传统拍摄模式而生,可以预想,未来源自渲染合成的视频比例将显著增加,这一趋势势必带来海量的计算和传输需求,同样也带来计算成本和传输成本的极大考验。
同时,这也意味着网络需要承载更加不可估量的数据量级,这其中,不仅有常规的音视频,更涵盖更多维度的数据传输,比如基于远程场景、云游戏下的控制信令数据、用于控制渲染视频生成的“元数据”,可以表达更复杂的立体场景信息。
如此来看,需要一张承载多元内容的强大网络,同时提供高性能的云边计算能力,其作为新基建才能支撑未来式的视频化业态。
「Unified」能解决所有关键吗?
更低成本、更低延时、更多算力结合、更多维内容传输,这些无疑都是传输网络的趋势关键,而怎样的招式可以全盘解决?也许是“Uni”。
Uni源于Unified,意味着“统一”。
在网络上,我们正在探索落地更好的“Uni”技术、真正的“Uni”能力,创造由“Uni”带来的业务价值。
阿里云视频云基于广泛的异构节点,构建了全分布式、超低延时、多业务支撑的多元融合流媒体传输网络——MediaUni。
这是在我们的全球实时传输网络GRTN之上,以“大一统”的理念对网络深化设计,实现网络底座的全新升级。
MediaUni打通底层资源,统一技术架构,以一张流媒体传输网络,实现音视频应用中多形态的内容传输,并满足更低成本、更低延时的多元融合业务需求。
延时可以是自由的
任何延时的业务,都能跑在一张网上?
得益于底座能力和关键技术的持续突破,音视频服务已实现了从传统的点播、直播,到实时音视频的深化发展,未来,还将撬动传统行业中众多强实时、强互动场景的数字化升级。
其中,“时延”首当其冲成为最需攻克的难题之一。
以一张网,MediaUni能够支撑全域延时的业务:
从普通直播(HLS/FLV)、到基于WebRTC技术的超低延时直播RTS(约1s左右延迟)、再到实时音视频传输(如直播连麦、远程监考等场景),同时,更可支持对延迟要求极高的云渲染、实时远程控制等业务,实现所有业务真正跑在一张网上。
延时“抢跑”,怎样实现?
从根本上看,网络的延迟源自两方面:物理的延迟与IP网络的不可靠。
为对抗物理的延迟,MediaUni基于全球3200+边缘下沉节点的就近分布,缩短了与用户之间的“最后一公里”,缩短数据的传输路径,以便更快感知传输网络质量的变化。
通过将渲染服务部署到靠近用户的节点,阿里云视频云在双11支持淘宝直播全真虚拟互动空间“未来城”,实现超万路并发在线的虚拟直播,并在2023央视春晚,以低延时传输云渲染技术打造了首个元宇宙庙会,实现极致的超低延时体验。
淘宝3D虚拟电商空间“未来城”
在对抗IP网络的不可靠性上,MediaUni设计了实时感知系统,实现对节点的负载、链路的网络状况、以及业务关键信息的秒级感知,并基于感知数据,智能调整调度策略与路由策略,可以更好地分配物理资源,选择服务质量更高的物理链路。
同时,通过不断迭代的QoS技术,在拥塞控制、FEC、多径传输等方向持续优化,对抗网络中的丢包、延迟与乱序,以满足更低的网络延时。
目前,科学界公认的人类极限反应速度为100毫秒,一般人的反应在0.2~0.3秒间,在百米赛跑中,枪响后的0.1秒内起跑会被视为“抢跑”,而MediaUni支撑实现的云渲染场景,已突破60ms以内的端到端交互延时,可谓音视频延时的“抢跑”。
延时vs成本,网络可以handle?
众所周知,在网络优化到一定程度以后,延时和传输成本会成为一对矛盾。
例如,在带宽允许范围内,为对抗丢包,协议栈不惜代价进行重传或增加FEC,有效降低传输的延迟,但会因此付出更高的传输成本。
在行业普遍追求“快与更快”之际,低延时与低成本之间,是否有两全之法?
对此,MediaUni的精要在于将降低延时的手段与增加传输成本进行量化,再根据业务的场景提供ROI最高的综合方案,将每个bit的传输价值都发挥到极致。
➤ 对于普通的娱乐直播,其互动方式为弹幕,可以采取5s左右的FLV直播;
➤ 对于世界杯等赛事直播,可选用延迟1s左右的低延时直播;
➤ 对于电商直播,通过AB测试发现,采用延时低于1s的互动直播,能够对GMV有一定的提升。
由此可见,能够针对不同业务场景进行网络的精细化运营,自由选择成本可控的业务延时,才是真正的“延时自由”。
多元融合,红利释放
业务复用,就是最大的技术普惠?
依托于强大的底层基础设施资源,和长期积累的音视频技术能力,相比于其他赛道玩家,云厂商在网络服务中具备规模优势。
此外,通过一张网络支持多元业务,“业务复用”本身将持续释放技术红利。
“红利”可以透过三点显现:
第一,业务混跑,驱动资源复用率的提高。
不同业务的错峰复用率会更高,从而带来更高的计算资源、网络资源复用率,如大部分会议、远程监控等业务都处于白天工作时间,这与互联网娱乐等“夜间经济”形成很好的错峰运行。
第二,技术复用,带来研发边际成本的降低。
在流媒体传输中,无论是音视频还是消息信令的传输,无论是直播还是实时通讯业务,都需要解决基于大量节点的路由问题、全局的快速信息感知问题、协议栈优化抗弱网问题。
通过使用一张网络支持多元业务,可以复用这些基础技术,使得在同样的研发投入上,获取更优的技术指标。
第三,云产品的使用更便捷、更高效。
由于多业务的支撑,用户可以更方便地升级服务或者组合出新的场景化方案。
例如,通过阿里云控制台,用户只需“一键升级”,就可以将延时5s左右的普通直播,切换成延时仅为1s的超低延时直播RTS,或者延时在400ms以内的互动直播。
从资源利用、研发成本,再到产品使用,一张多元融合的网络实现了最极致的红利释放。
支持的业务多了,会打架吗?
在驾驭“Uni”之下的多元业务时,MediaUni不可避免面临着许多技术挑战。
其中,最大的挑战,来自于多业务复用之后对工程能力的要求。
一张网络支持多个业务以后,需要解决业务之间相互影响的问题,解决业务功能快速迭代的问题。
而MediaUni,通过良好的模块化设计来进行业务的隔离,减少不同业务的相互影响;同时,MediaUni构建了可编程能力,对于一些简单的业务需求,可以通过运行时可编程来解决,从而满足业务功能的快速迭代。
再者,多元业务复用的另一个技术挑战,来源于资源的复用,即不同业务对资源消耗的瓶颈可能不同,例如直播的瓶颈在于带宽,音视频通讯中复杂的QoS策略可能带来CPU的瓶颈,这时候需要更智能的调度系统来对不同业务进行编排。
未来的N种可能
一张传递“人类五感”的网
在过去的几十年中,通过一代代技术人的努力,人类的视觉和听觉已经得到了较好的数字化呈现,实现了如今低延时、高可靠的音视频体验。然而,人类的感觉除了视觉与听觉之外,还包括嗅觉、味觉、触觉等。
可预见的是,沉浸式XR作为面向未来的交互形态,将需要同时对嗅觉、味觉、触觉等感官信息进行完全模拟和实时交互,从而实现用户体验扩展与人机互动,给用户创造身临其境、感同身受的逼真体验。
面向未来的流媒体传输网络,将实现更多维数据的高效传输。
未来,网络将支撑多种感觉(如味觉、嗅觉、触觉甚至情感等)的互动通信,人类多维感知的数据化、交互协作,也将在同一张网内进行。
如同游戏手柄上的震动一般,刺激着一个复刻真实世界的真正元宇宙诞生。
三管齐下,优先布局
为了支持未来多感官的音视频应用,流媒体传输网络将具备毫秒级的延时、与计算的紧密结合、元数据的传输能力三大关键特征,而MediaUni多元融合流媒体传输网络正在这三个方面化深度演进。
➢ 高质量的毫秒级延时
在音视频全链路延时中,网络传输延时,是其中最困难、优化空间最大的部分。
MediaUni通过大量的节点覆盖和极具媒体特性感知的QoS优化,在云渲染场景已达60ms以内的端到端延时,并持续探索更低延时的传输能力,未来将在20-100ms之间寻求延时的极致与质量的平衡。
➢ 收放自如的算网
网络天然就靠近用户,我们希望通过网络连接分布式资源,有效促进算力资源的按需“流动”,弥补终端算力的不足。
利用全球广域的分布式计算能力,MediaUni正在实现计算与传输的统一调度,已将部分实时媒体处理的业务部署在传输网络上,并支持实时启动处理任务,在降低用户延时的同时,有效优化媒体的网络传输成本。
➢ 元数据传输
元数据(Metadata),越来越成为音视频产品的一部分,结合元数据自定义音视频功能,可以更好满足场景的个性化需求。尤其在通向“人类五感”传输的网络世界里,多维感官的数据化、精准化,更需要元数据的支撑。
在音视频传输之外,MediaUni也支持更多维度的数据内容,例如消息信令的传输,进而可以扩展到更丰富的IM、多场景远程控制、元宇宙等业务。未来,随着多感官网络通道的真正打开,MediaUni将发挥更大的能量。
面向未来,MediaUni将如何实现「多元融合」下的新升级?
敬请期待7月28日
LiveVideoStackCon2023上海站
阿里云视频云专场
阿里云智能高级技术专家带来演讲
《MediaUni:面向未来的流媒体传输网络设计与实践》
一同走进“多元融合”的网络世界!