您现在的位置: 首页 > 动态 > 文章正文动态
声网RTE2022开幕:大会行至第八年RTE边界逐步清晰化
发布时间:2022-11-14 09:33 点击:次
11月1日消息,今日,由声网主办的 RTE2022 第八届实时互联网大会正式开幕。主论坛上,声网创始人兼CEO赵斌、声网CTO兼首席科学家钟声分别从行业和技术角度对实时互动进行了深度解读,查普曼大学电影学院教授、福布斯周刊《本周XR速报》专栏作者 Charlie Fink针对年度热词“元宇宙”展开分享。联合国人口基金驻华代表兼联合国人口基金驻蒙古国主任康嘉婷博士则分享了实时互动技术对推动社会经济可持续发展起到的关键作用。
RTE概念及边界逐步清晰化 元宇宙玩法仍待突破
随着行业的发展,RTE概念与边界已逐步清晰化。2020年,声网在上市招股书中首次公开提出“RTE(Real-Time Engagement)”概念,此后这一概念逐渐被全行业认可及使用。赵斌表示,“RTC从Communication的视角,更多是在强调对语义信息进行高质量和高效率的传递。而RTE更聚焦用户所需要的共享时空,即俗话所说的场景。并且,能够达到或者超越线下场景的互动体验和效果,这是RTE真正聚焦的部分,其内涵和外延的范围远远超过了RTC的领域。”
从RTC到RTE服务,也是从基础能力向场景化能力的快速进化。在这样的需求下,声网推出的Native NG SDK 4。0。0,就是为RTE场景构建而设计的新一代SDK。赵斌称,“它在模块化的设计上提供了更加灵活方便、易于解耦和组合的能力,还提供了强大的插件平台,让各种场景的构建、以及插件开发更加易用、方便。同时,还可以很容易构建各种应用场景的aPaaS,这种场景工具库的完备,为下一代场景的诞生做好了充分的准备。”
几年前,声网成为首个将 AI 算法全面引入实时互动领域的服务商。最近一年,AI算法在音频领域产生了巨大进化。AI降噪、AI回声消除、空间音频等音频的新技术能力给各种场景带来了更加纯净和沉浸的听觉体验。赵斌称,“我们很高兴看到AI降噪在过去一年取得了突破性进展,和传统的DSP算法相比,AI降噪能有效的降低各种突发式、不持续、甚至不规律的噪声信号。”
“线上K歌时,在不伤害歌手回声的前提下,AI回声消除可以精准的把伴奏的回声消掉,从而让玩家用户,在不戴耳机,外放音乐的情况下仍然可以有非常好的唱歌效果。”
空间音频对元宇宙的重要性是不容忽视的。赵斌认为,“空间音频并不是只要有左右声道,就立刻有空间感了。人的耳朵是一个超级敏感的器官,对任何声音的变化都是有感知和分辨能力的,除了左右方位,还有空间大小、距离远近、空间塞满物体还是比较空旷等等。这些如果跟真实有差异,在元宇宙场景下的现场感、沉浸感和真实感就会有大大的损失。”
过去一年,元宇宙的热度仍然在持续飙升,屡次有App冲到App Store榜首,但宣传效果距离现实仍然尚远。经过一年多的行业实践,声网对元宇宙也有了进一步的认知。
BeReal应用的爆火让我们看到,真人形象远比虚拟形象更能够在陌生人社交中满足需求。赵斌表示,“我们发现用户在使用陌生人社交应用时,一定程度上是在进行一场与孤独感的战争。当你与孤独感对抗的时候,虚拟形象的丰富度和真实度远远不如真人形象更能够让你感受克服了孤独感。”
而在非陌生人社交领域,例如熟人社交、兴趣社交场景下,虚拟形象也是偏小众的弱需求。“熟人社交很多时候融合了通讯工具的作用。这种情况下每个人大体上对另外一个人都是知道或了解的,甚至很熟悉,这时候形象的改造和变化其实是一个很弱的诉求。”
“再比如我们发现在很多兴趣社交应用下,玩家更感兴趣的是这个兴趣话题下你发表的观点、提供的信息和内容。而在个人身份识别上做形象补充,也是非常弱的诉求和价值点。”赵斌表示。
无论是虚拟形象还是其他玩法,元宇宙如果想在社交领域有大的发挥,玩法上还有更多需要突破的空间。鉴于此,声网也把自己元宇宙方面的能力和API的进化聚焦在了基础能力模块上,并且是以组合的方式来提供,从而方便合作伙伴灵活选用其中的组件,自行创造不同方式的组合和互动玩法。”
当元宇宙的热度逐渐飙升,由此衍生的各种新潮玩法为社交娱乐提供了全新的想象空间。音视频互动在元宇宙中不仅不会消失,还能为元宇宙带来更多层次的沉浸感,查普曼大学电影学院教授、福布斯周刊《本周XR速报》专栏作者 Charlie Fink 认为,“互联网并没有摆脱电视,它使电视变得更好,我相信这就是将在元宇宙发生的事情,这将包括视频、语音,也包括我们今天所做的事情。因此,即使你在一个3D虚拟世界,它仍然需要语音和视频的存在。”
实时感知和理解成为RTE技术关键能力
实时互联网正在日益变得智能化,对实时音视频端到端链路上各个环节场景的实时感知和理解成为实时互动的重要基础能力,声网CTO兼首席科学家钟声对其中的重要环节和技术做了主题分享,他认为“仅仅作为一个信息传输的管道,承载不了现在通讯的需求,还要整个实时音视频端到端链路上有提取知识、识别情感、做出决策的能力,成为实时互动不可少的一个要素。”
“实时感知和理解能力,在实时互动多个层面都起到了重要作用,或者说带来价值,包括用户体验感知质量的估计、关于整个传输网络上质量的监测,以及关于场景,尤其是人体、物体的重建,以及用来做人机交互等等。在未来的实时互动场景里,也会有越来越多的需求,随着技术的进步,这方面给用户带来的体验和价值会越来越高。”钟声表示。
实时互动助推社会经济可持续发展
技术导向的创新对于中国实现可持续发展目标至关重要。联合国人口基金驻华代表兼联合国人口基金驻蒙古国主任康嘉婷博士分享了,联合国人口基金正在通过实时互动技术,向偏远地区13-15岁的学生提供可交互、全面且科学的青春健康教育,帮助他们在成长期做出负责任的选择。本项目的实时互动技术在很多方面受益于声网的支持。
康嘉婷博士表示,“由于声网的资助及其提供的实时互动技术,联合国人口基金青春健康教育课程的学生容量将进一步扩大,预计涵盖来自中国各地的至少 1 万名学生。在未来,声网、联合国人口基金,和我们的合作伙伴将继续通过技术创新促进年轻人的身心健康发展。在2023年,联合国人口基金与声网计划共同举办一个全球青年创新大赛,欢迎持续关注。”
音视频技术赋能企业数字化转型的新趋势
音视频技术对未来企业数字化转型赋能方面还会有哪些新的趋势?声网首席运营官刘斌、新希望集团首席投资官余峰、微医集团副总裁李磊、水滴保研发负责人卢林等嘉宾,分别发表了各自的观点。
互联网保险正逐渐向保险的深水区方向发展,即线下经纪人业务。卢林表示,“这个过程中,音视频技术非常有价值,未来通过与用户远程视频聊天,进一步跟保险业务系统打通,可以提供更多元的展示工具和互动,从而提供更加深度、长期的保险服务,这是下一个阶段应用场景下的发展趋势。”
音视频技术也是医疗服务中较核心的手段,李磊表示,“无论是医生之间、医患之间,还是其他场景的服务,音视频使用都非常广泛。我们希望不单一把音视频作为服务方式,而是能够成为服务的触角或入口,更好地服务用户。例如我们希望推出微医健康维护组织HMO体系,对人全生命周期进行管理,这个过程中需要家庭医生、医疗资源介入,就需要音视频技术。”
余峰认为,“未来5年或10年猪语音库会很丰富,甚至能识别出更多猪想表达的情绪、语言。同时,目前通过影像技术可以精准地通过手持估重仪或类似远程监控的方式对猪进行相关估重。所以,我们看到音视频机会从人与人交流互动,真正到生物资产端,通过猪语音识别、猪形象估重,实现人跟生物、动物之间的交流。”
从云服务商的角度刘斌提出了4点对行业未来趋势的观察,他认为,“第一,云服务化被越来越多传统企业接受,并逐步接受混合云模式;第二,对AI技术的运用越来越多,比例我们有语音AI降噪、空间音频方位识别等等,包括视频人脸识别以及未来的脊柱识别;第三,虚拟现实的结合趋势很明显;第四,在某些有积累的垂直行业会更容易先把低代码做起来,而不是简单地通用低代码。”