ai加持下,实时互动音视频领域将迎来重大发展机遇。
3月23日,实时互动云服务商声网发布年度重量级新品--“凤鸣ai引擎”,一款囊括了 ai降噪、ai回声消除、空间音频、最佳音效在内的声网新一代音频技术智能引擎。开发者与企业可以如搭积木般灵活调用对应组件,并广泛应用在语聊社交、在线k歌、线上会议、游戏竞技、虚拟活动等诸多场景,为用户带来更纯净、更动听、更沉浸的语音互动体验,探索更多营收增长空间。
rte场景不断丰富,高音质互动需求急需满足
实时音视频技术的发展带出大量的创新场景,从狼人杀、直播连麦到直播电商、在线k歌、互动播客、凯发app,伴随着场景的不断扩展,用户对实时音视频体验的诉求也越来越高。
传统的rtc概念,从信息传递的角度出发,音频功能仅提供简单的语音沟通,满足单一的场景和通话标准,对于音质并无太高的需求,也就是所谓的“能够沟通”。声网发现,伴随着实时互动创新场景的涌现,用户对于音频体验的需求也产生了从量变到质变的进化,比如在线k歌、线上会议等场景,用户的需求早已从能够沟通到希望“脱离现实”,屏蔽外界干扰,实现纯净沟通;对于元宇宙、虚拟活动、游戏竞技等场景,用户则是希望从简单沟通实现“极致拟真”的沉浸式体验。
同时声网也观察到,音频体验的提升能够增强平台用户的核心体验。比如,对噪音的抑制能够提升语聊房用户活跃度和留存,以及游戏开黑场景的通话时长;回声消除能显著提升用户的在线k歌体验;而立体、具备空间感的音频体验则能提升元宇宙社交、游戏竞技、线上会议、虚拟活动等场景中用户的临场感和沉浸感。
声网针对以上痛点和需求,声网凤鸣ai引擎应势而生。
ai降噪 ai回声消除 还原本来音质
当下国内外流行的音频娱乐社交场景下,用户反馈最多的就是“最佳音效、空间音频、ai降噪以及ai回声消除”这四大需求,而这四大需求中,所谓的3a处理正是关键所在。
声网作为实时互动服务商,多年来一直深耕各种场景下的音频体验,而凤鸣ai引擎的诞生,将满足不同场景下用户对声音的“沉浸式”、“极致拟真”需求,为用户打造声音盛宴。
其中,降噪和回声消除是当下音频社交场景下用户反馈的最普遍需求。
ai降噪是凤鸣ai引擎的重要能力之一。想要在“脱离现实”的环境中办公、娱乐,屏蔽外界干扰是基础。相比于传统的降噪算法,凤鸣·ai降噪的效果有显著提升,可以一次性解决100 种突发性噪声,比如办公场景经常遇到的敲键盘、鼠标点击、电话铃声;家庭环境中遇到的小孩哭叫、装修、厨房做饭声;户外环境中的风声、雨声、汽车噪声等。
凤鸣·ai降噪在强降噪的同时还能兼顾高保真,即使在人声密集场景下,也能实现纯净通话体验,甚至还实现了在不增加额外运算量的前提下,对远场语音具有明显的混响抑制能力。如果用户在一个房间中距离麦克风较远,这时候对方听到的声音是模糊的,若使用了声网的ai降噪算法,对端也能清晰地听到该用户的声音。
此外,声网自研的ai推理引擎还可以使得ai降噪算法在android、ios、mac、windows、web等主流平台以低精度损伤、高性能、低功耗方式运行,使用户的设备不卡不烫。经数据测算,仅开启凤鸣·ai降噪功能,相应设备cpu消耗增幅平均值<1%。
另一方面,回声是影响音视频通话质量的主要因素之一,尤其在线上会议、在线k歌、多人连麦等场景中,不仅损害通话质量,影响用户体验,还可能导致带宽增加。凤鸣·ai回声消除利用算法对环境中产生的回声混响进行有效抑制,智能适应各类环境,实现精准音源分离,从混合的近端信号中消除不必要的远端信号,保留近端人声发送到远端,全面消除回声,实现高保真音频体验。比如,在双人合唱等在线音乐场景下,ai回声消除可以使得人声自然流畅,增益效果显著。
解决用户“痛点” 凤鸣ai引擎行业优势明显
声网从2019年起就着手布局打造一款“高质量”的音频互动引擎产品,通过充足的语料训练并且不断储备,实现了目前从体验、效能等各方面的“最佳”,也就是说,凤鸣ai引擎就是目前音频市场上的“金字塔尖”。
多年来,声网汇总梳理语聊领域各类头部app的音效配置,综合声网超过万亿分钟的用户音效偏好的数据模型,并结合声网音频专家的多年沉淀与研究,能够为平台提供针对各种语音场景的最佳音效配置,助力平台用户享受行业顶尖的音效体验。目前已上线的最佳音效包括语聊社交、k歌、游戏陪玩、专业主播等场景。国内某头部语音社交平台就是通过声网提供的最佳音效配置方案,将空间音频、美声、电音等丰富的声音玩法融入互动中,增强平台留存和变现能力。
“发现用户痛点,了解用户需求”是声网一直以来产品力的体现,而此次凤鸣ai引擎更是在用户的“最佳音效、空间音频、降噪以及回声消除”这四大痛点和需求上进行了产品力的探索和升级,行业优势显著提升。
“和c端需求量是一个样的,这四个需求要的人最多,用的领域也最广,及时捕捉到用户的需求和痛点,这是凤鸣ai引擎最具竞争力的点。”扬帆说道。
从具体层面来说,一方面要让c端用户感受最真实的音质,甚至是在特殊场景达到声音美化效果;另一方面要在性能适配和能耗上做到极致,声网通过以往rtc积累的大量经验,以及国内外用户的反馈,目前在设备和机型上适配和能耗上已做到行业领先。
此外,据杨帆介绍,凤鸣ai引擎目前正在开发变声这一功能,用户将可以体验20 变声风格,多样角色扮演花式玩转语聊场景。声网算法专家许冉指出,凤鸣ai引擎代表声网在 rtc音频领域针对核心技术的长期投入和产出,以及声网基于音频核心能力衍生出各种复杂功能和高端效果的决心,未来声网将基于凤鸣ai引擎形成新一代rtc音频凯发app的解决方案,比如探索更个性化的语音方案、语音超分、co-experiencing场景等。
aigc将掀起音频社交浪潮
今年以来,aigc概念快速发展,ai技术也正影响着各行业的发展,而ai技术也已经在音频领域率先得以应用。
在发布会的圆桌论坛环节,音频社交领域专家们也各抒己见,对于目前gpt-4、aigc等技术发展展开了讨论。
其中,仙巴科技创始人兼ceo薛达提到,降噪技术是实现元宇宙空间中用户体验的一个必不可少因素,因为一般娱乐场景中都会播放背景音乐,加上人声和互动音效,如果没有空间音频和降噪,那用户体验会非常差。科大讯飞海外凯发app的解决方案产品部产品总监吴浩亮认为,声音是打造差异化社交玩法的一个重要能力,在社交音频这个赛道上,大致分为音视频直播、音频内容生态,以及泛娱乐音频三个类型,音频技术能力的提升可以有效助力业务端提升用户体验。
谈到音频社交的未来趋势时,薛达认为,作为用户之间情感的递进纽带,语音结合虚拟人以及类似chatgpt这样的大模型,可能未来会带来一波新的社交热潮。扬帆出海创始人兼ceo刘武华表示,社交 游戏、社交 元宇宙、社交 aigc 这几种玩法有不错的发展空间和前景。杨帆也认为,元宇宙方向的场景会更受年轻人青睐,另外 aigc 配合语音转文字等应用,应该也会带来一波新ai音频社交热潮。