采访嘉宾 | 腾讯云智能数智人产品总经理 陈磊
作者 | 刘燕
一个智慧与颜值并存的数智人是如何“养成”的?
在凯发app风潮之下,数字人先火了。近两年,国内数字人项目呈现井喷态势。idc 预计,到 2026 年中国 ai 数字人市场规模将达到 102.4 亿元。作为时下最热的技术话题,我们判断,开发者有必要对数字人技术有完整的认知和理解。
在此背景下,infoq 特别策划了《数字人基础技术解析》专题。本专题将首先对数字人做概要介绍,紧接着围绕数字人的技术、应用落地等维度分别做解读。我们将收集来自国内业界一流团队的最佳实践,供读者参考。
本文是本专题的技术 & 实践篇。近日,腾讯云智能数智人产品总经理陈磊接受了 infoq 专访,详细介绍了腾讯云智能在数智人上的技术探索和应用落地实践。
“数智人”和“数字人”
市场升温
近两年,尤其是在今年,数字人火出了天际。陈磊认为,这种火热主要基于两方面因素助推。
一方面,得益于多项技术的发展,云计算、5g、音视频技术、人工智能技术、渲染技术等都在不断地发展和突破,让虚拟人在制作和应用环节大大提效、简化;在虚拟人的落地和行业扩展上,不再只是从前传统的“中之人”方式,只面向影视、娱乐行业输出,而是在各种各样的行业加速落地。
另一方面,从行业的维度看,全球科技巨头纷纷对元宇宙加大投入,例如 facebook 改名 meta,宣布 all in 元宇宙;英伟达推出元宇宙基础模拟和协作平台 omniverse;epic 的 metahuman 等加速元宇宙基建进程... 这些都是强烈的市场信号。而被广泛认为是人机交互新入口的数字人乘着这股东风率先起势,从技术发展、市场应用双轨运行的发展情况来看,虚拟数字人行业进入了快速发展的轨道。
腾讯布局“数智人”
嗅到这样的产业趋势后,2021 年,腾讯云智能围绕对话式 ai,升级研发推进“数智人”业务,陈磊主要负责该业务团队的产品和研发。
在去年的腾讯数字生态大会上,腾讯首次公布了云智能的战略架构,整体面向管理者、生产者、开发者、用户四大人群,提供决策、协作、创新和服务四大核心能力。陈磊表示,数智人是腾讯云智能的一个重要的组成部分。数智人以服务于人作为价值理念,实现智慧与颜值兼备,为企业创造价值,为用户提供有温度的服务。
与市面上流行的“数字虚拟人”,“ai 数字人”、“数字人”等概念不同,腾讯云智能对数字人的命名倾向于“数智人”。
“腾讯的理解是,通常说的数字虚拟人,ai 数字人等概念,更侧重好看的皮囊,但数智人本身面向企业服务时需要两个维度,既要有好看的皮囊,还要有有趣的灵魂。腾讯把数智人定位在“交互智能入口级”相关的应用,技术上包括感知、驱动、决策等链路,应用上链接了整个腾讯丰富的内容与服务生态。依赖这种生态,我们打磨了平台能力。在具体场景应用时我们也可以结合行业里的知识图谱,从智能维度做升维,让客户打造出具有自主 ip、智能决策和生动交互的 ai 数字人,实现数字人到数智人的进化”陈磊解释。
在 12 月 1 日举办的腾讯数字生态大会上,《数字人产业发展趋势报告 2023》发布并指出,ai 驱动的数字人。通过 ai 建立人与大数据的连接,提高效率并满足人情感交流需求 ,提升用户体验,将成为人机交互新入口。
“目前使用文字或语音交互的场景都可用 ai 数字人软着陆的方式替代,不需要改变原有的业务逻辑和商业模式 ,大众接受成本较低。与此同时,数字人作为企业的数字资产 ,是对员工工作的增强,具有生产力的属性,可以进一步释放生产力,同时降本增效。未来数字人将根据不同行业的业务特点和应用场景进行更深度结合, 孵化千行千面的数字员工 ,提供智能化服务。”
如何打造“智慧”与“颜值”兼备的数智人?
多项技术作支撑,ai 技术是核心
去年 11 月,腾讯云智能发布了数智人产品矩阵,包括 3d 写实、3d 半写实、3d 卡通、2d 真人、2d 卡通五种风格的数智人产品。
这些多样风格的产品主要基于形象的写实度和应用场景维度划分,可以定制化不同的角色,满足各类场景服务需求,可承担资讯播报、文旅导览、座席客服、多语种主播、手语主播等角色。
这些全能的功能背后,由一系列技术在支撑。3d 写实数字人提供交互服务时,需要很强的渲染技术,包括端渲染技术、云端渲染技术等。形象表现力层面,需要很强的算力和渲染支撑。在应用维度,音视频、5g 等更快的网络技术可以帮助数智人加速应用落地。
陈磊介绍,数智人是 ai 综合类的应用,从形象生成到交互、决策、驱动、服务等环节都会应用到 ai 技术。
腾讯云智能数智人集合了腾讯公司内部多个团队的优势 ai 能力,例如在数字人生产环节,在人像建模方面,通过优图实验室的相关 ai 技术,可以做到凭借几张照片就快速生成写实级的人脸;在动作绑定环节,例如将动作从 a 数智人迁移到 b 数智人,可以利用 ieg 的 next studios 团队的动作和表情迁移工具,快速绑定,相比于传统的需要用动捕设备从零开始采集动作大大提升了生产效能;对话式 ai,由云小微语音 ai 技术支撑;多情感驱动能力,由 ai lab 的相关支持等等。此外,如果面向多维终端,终端渲染性能不够的时候,云渲染或云游戏相关的技术可以实现,即使在云端渲染,但能实现实时交互性无感知,延迟性很低....
虚拟数字人的发展需要一个全域的技术支撑。腾讯的优势在于,每一个单点的技术维度,都有团队在多种应用场景中,做持续的深耕跟突破,因此在数智人构建的每一个维度都已经建立起很强的技术壁垒,这也是腾讯做数智人的优势所在。与此同时,这些技术都在腾讯云的技术架构下,通过云智能数智人整体对外输出,助力行业升级。
多模态交互
多模态交互是数智人背后的核心技术支撑,各家都在强调这项技术。
陈磊介绍,与业内同类产品相比,腾讯云智能数智人在该项技术上拥有多项差异化优势。
具体而言,腾讯云智能数智人融合了 asr、tts、nlp、计算机视觉、知识图谱等全栈式的 ai 底层能力。相对来说,在中小企业里面,具备全栈式能力的还是少数。而且,如何更好地将这些全栈型能力整合在一起更富有挑战。将这些能力融合在一起,才能让数智人拥有强大的表现力、识别力和感知理解能力。
此外,腾讯云智能数智人目前支持 34 个语种,包括各种方言,翻译超过 11 个语种。在多个垂直行业,有 46 万个垂直行业的不同场景的热词库,在多业务场景里能让数智人做到“听得清、听得懂、会表达”。
在实时交互上,与行业相比,腾讯云智能数智人图像生成首帧延时小于 600ms, 行业同类产品图像生成首帧延时大于 1s、1.5s。
陈磊介绍,低延迟这这一效果的实现,依赖全链路的优化。一般分三步,第一步是图像生成:生成每帧视频内容;第二步是链路传输:把视频通过音视频技术传输;第三步,设备终端播放。其中在第一步,团队采用了模型裁剪、蒸馏技术,加速推理方式,快速提升了生成数智人的图像生成能力;第二步中应用到的音视频传输链路技术素来是腾讯的强项,公司音视频实验室为此提供了很多技术能力,将所有核心环节的能力打通串联后,才实现了 600 毫秒以内的延迟效果;第三步,在多设备的终端播放中,腾讯也有配套的编解码播放器。
音视频技术
当涉及到一些写实数智人时,对算力的要求会比较高。如果普通大众使用,很可能在手机上根本跑不起来。
但手机端又是数智人的一个很重要的应用端口,有一些客户希望自己的数智人与用户进行互动或服务。这个过程会涉及到云端渲染的能力以及音视频传输的能力。用户手机中的网络环境、带宽场景等各不相同,如何保证实时流畅的、低延迟的交互,就需要应用到音视频技术。
小模型训练方案:以小胜大
与业内一些数字人产品多采用大模型方案不同。在训练方案上,腾讯云智能数智人更偏爱小模型,采用了 5 亿级别的小参数量的多语言预训练模型“神农 mshennong”。
陈磊介绍,腾讯云智能在一些场景下也构建了百亿或千亿级的超大模型,但在实际应用中发现,考虑到在应用过程中部署的便利性和部署成本因素,仍需要对模型参数量进行控制。以千亿级别的超大模型为例,训练时间长,从训练到落地需要很长的周期,而且如果当客户偶然有小范围的数据变化时,需要不断滚动模型。总而言之,周期、成本等对应用上线带来了较大挑战。
针对亿级别这种参数小规模的多语言训练模型,也需要做数据量控制。对此,腾讯云智能数智人团队综合运用了混合编码的数据增强,基于多尺度的多语言信息融合,将语种和语义做对比等策略性尝试。
模型虽小但智能化程度一点不差。数智人构建采用小模型的训练方案具有诸多优点。在数据层面,腾讯云智能研究团队进行了混合编码数据的构造方式,利用双语对齐的词典和句子检索工具,能构造出大量多语言混合的训练数据。此外,在模型层面,团队还做了一些特殊工作,如可插拔,基于多尺度的多语言信息的融合技术,对低频词汇建模等。在低资源语种方面,小数据、小模型能解决很多问题。在训练层面,相比于传统的市场上一般需要一个月以上的模型迭代周期,神农 mshennong 只需十天左右就能快速达成模型的迭代。
陈磊认为,未来,在数智人的模型训练方案上,将逐渐呈现融合趋势。如果企业具有足够大量的数据或足够大的场景,大模型方案是优选。但现实是,在实际应用场景下,很多时候没有那么多数据,也缺乏算力资源,在迭代周期上也不允许时间战线拉得很长。因此,未来会是大模型与小模型融合的趋势。
数智人走进现实
数智人形象生产平台
过去一年,云智能数智人团队发现,数智人在行业应用时,落地场景和行业非常广泛,实现规模化的批量生产显得越来越重要。在行业场景越来越多的情况下,如何持续、快速地实现行业落地,比较大的挑战是怎么样能快速地生产出数智人,且用低成本高效率的服务把它送到客户的场景里去。
因此,在数智人生产维度上,团队重点打造了数智人形象生产平台,通过自动化的生产管线,提升面向行业的数智人的供给效能,降低生产周期。
关于数智人形象生产平台的具体运作流程。以面向传媒落地的 2d 交互数智人为例,传统的数智人的生产方式是,找主播在录影棚录制形象视频,且线下会对视频数据做很多手工处理,整个构建流程需要花 1-2 个月时间。有了管线后,可以通过 ai 技术来处理视频数据,如自动做 ai 人像分割,人与背景分离,自动拆帧,以提升交互表现力,在拆解后还可以对形象做美颜,进行各种数据增强,如美白、去痣、眼神对齐等影视级交互技术。
一般而言,客户定制一个 3d 写实数智人的流程包括人物设定,原画设计,建模,绑定,服装、发饰、渲染,再加上驱动和多模态交互等环节。
ai 技术可以对上面各个环节实现降本增效。如在建模环节,比传统 cg 建模时间节省不少, 以前需要月级别时间,现在通过人像生成技术,周级别就能搞定。在建模成本上也有了很大降低,写实类的数字人,普通公司建模成本仍很高,腾讯云智能数智人的建模成本已显著降低,例如在建模维度上已基本不需要过多成本,只需要配一些头发加衣服,成本可以缩减一半以上。
但值得注意的是,目前在数智人建模技术上仍存在挑战。对于超写实数字人这个类别,通用建模的能力和标准还无法做到特别完美,当前技术上还达不到超写实的自动生成技术,主要还是采用传统方式,如在头发制作环节,多数依赖传统 cg 公司手工制作。现在 ai 在头发生成技术上也在做探索,但目前还没达到可落地应用的阶段。比如,基于同一个衣服作为基底的模版,在上面换纹理,可以降低成本,但如果是一件全新的衣服,且是柔性材质,也还依赖外部能力供给。
但对于 2d 真人数字人,通过这套生产管线,即便是一个不懂 ai 技术的员工也可以自主跑通这套流程,大大降低了制作门槛。构建时间压缩到了天级别,且管线在并发维度不存在卡点,比之前大大提速。
应用在金融、传媒等多个领域
据介绍,在应用环节,腾讯云智能数智人团队最初重点关注金融、传媒等典型场景的典型应用,之后再做单点切入。今年,团队一方面在行业服务或企业服务维度上做更多垂直或场景的提升。另一方面关注交互智能入口维度。数智人定位在交互智能入口级的应用。如常常能看到数智人在银行迎宾、理财知识讲解等场景下应用,其背后的逻辑主要是让服务的“体感温度”得到较大提升。
目前腾讯云智能数智人已在金融、政务、传媒、文旅、交通等多行业广泛落地。
如在应用服务上,在中信建投应用里,腾讯云智能数智人是在证券行业首个落地的交互型数智人;在手语维度上,3d 手语数智人聆语担任冰雪赛事手语解说翻译官;在文旅领域,打造了国博的虚拟形象代言人艾雯雯;在汽车领域,将交互型的数智人做了体感升级;在与一汽大众的合作中,将虚拟人与虚拟空间结合做更新形式的体验式服务的改进,大幅提升用户体验。
陈磊介绍,数智人的落地行业适配,一般分为两个阶段,第一是基于既有行业的数据积累,构建垂直领域的预训练模型;第二,针对一些特殊项目,数智人具备可以提供第三方知识的能力,或基于客户的小样本数据再训练的能力,将这两点结合起来就能把整体的数智人企业服务做得更好。
比如,面向行业做深度的企业服务,融入对话式 ai,从前台疑问解答、产品推荐到售后客户服务,再结合智能对话能力做会话洞察,最终可以横跨整个生命周期。这要求数智人服务同时具备行业深度和场景深度,结合对话式 ai 模型的训练能力做行业增值与提效。
例如在金融场景,腾讯已在某金融机构落地了 3000 以上的数智人客户服务,辅助传统人工客服工作,由数智人 对话式 ai 帮助解答用户问题。
腾讯云智能数智人在不同的行业实际应用时,对领域知识的要求也较高,在不同的行业构建行业知识图谱。通过神农 mshennong 对话模型快速迁移、进驻到一个行业,在进驻行业后又帮客户快速打造出面向自己行业的模型。
应用难点
但整体上来看,数智人在行业落地还存在不少难点。如行业知识沉淀储备不够,或者内容不够规范完备。对此,腾讯云智能数智人团队在构建知识生产的工具,提升知识生产的效率与效应。此外,在行业拓展时,腾讯云智能数智人团队走的一个方向是通过 nlp 的能力,快速训练模型的能力,让数智人掌握住更好的领域技能。
另一个难点是算力。虚拟人对算力有较强的要求,随着算力提升,数智人整体的表现力将直线上升。表现力包括形象渲染的逼真度,表情的逼真度,驱动技术、感知技术、决策智能的技术的呈现效果。在数智人的一些内容生产环节,以及数智人与虚拟空间结合的一些技术,对算力的要求都很强。如腾讯数智人跟虚拟空间结合时,一个虚拟空间会有几十 g 的渲染资源要做加载。3d 超写实的数智人一般会有 20 万 ~ 30 万面片的 mesh,这些都需要很强的算力。
此外,腾讯云智能数智人希望通过 ai 驱动技术,把数智人放到企业服务场景下为企业做增效服务,这些都对算力有一定要求。当企业的写实类数智人面向用户做规模化服务时,有时需要大规模并发,因为客户或客群整体规模大,也需要很高的弹性或云计算的空间。
在这层,腾讯云智能团队做了很多技术优化,首先在渲染维度上,通过云游戏的技术或音视频的链路实现成本降低。还结合云端混合渲染,与客服做深度绑定,结合云端的混合渲染的模式降低服务成本。
商业模式
尽管虚拟人的发展仍在早期,但业界关于其商业模式的讨论已提上日程,腾讯云智能数智人目前在商业模式上也进行了一些探索。
当前腾讯云智能数智人主要服务于 b 端企业用户,且通过服务 b 端的客户连接服务到 c 端用户(b2c),通过数智人提升企业服务的质量,企业也可以通过数智人做用户运营,提升服务用户的体验。
据陈磊观察,从数智人发展趋势上看,面向企业的服务以及周期分为以下几种。第一帮助企业做形象代言人打造。第二,当企业里有形象代言人时,在一些营销场景,如广告落地转化、应用,数智人会带来很强的吸睛效应。此外,腾讯云智能在与一汽大众的合作中,探索了虚拟数智人与虚拟空间结合的形式,通过一种新的方式助力客户提升留资。还有的企业用数字人做日常用户运营,如偏直播方向,有真人驱动或 ai 驱动的方式,面向自身客户运营做直播,这些工具能扩大私域运营的手段方式。此外,数智人还可以围绕用户服务生命周期做精细化的企业服务,如客服场景、对话场景等,当前在每一个维度都有一些比较好的实践落地。
数智人和全真互联
人机交互的下一个范式
陈磊表示,腾讯将数智人定位成交互智能的重要入口。今年 7 月,腾讯云智能与腾讯研究院、创业黑马联合发布的“数智人十大趋势”中提到,无论是身份型的数智人,还是融合了语言理解表达或学习交互能力的服务型数智人,从在线服务到场景体验,数智人都是人机交互相对典型的一个好的范式和入口。
而且,从整体的内外部趋势看,数智人会进入大规模的应用期,加速转化为现实生产力,无论是消费级还是企业服务赛道都能创造很大的商业价值。
全真互联世界的数智人
数字虚拟人的话题度很大程度上与元宇宙分不开。元宇宙是近两年的顶流概念。一种说法认为,腾讯所提的全真互联是对元宇宙的另一种表述。
陈磊表示,腾讯希望用 iot、ai、云计算等技术,将真实世界和虚拟世界做全面的感知、链接,用数智融合的创新技术满足各行业升级转型的需求。
数智人是 ai 技术具像化的一种展现形式。一个 ai 综合的应用需要不断整合各种创新 ai,包括背后的决策智能的大数据,云计算的技术、音视频技术等,本质上,数智人是技术层面对全真互联的探索。
陈磊列举了一些数智人未来在全真互联的应用场景。
例如,去银行办理业务,现在用户要去线下的物理银行的窗口办理,但如果是全真互联的形式,用户坐在家里,用电脑或 ar 就可以通过自己的身份进入场景中,进入银行展厅后可以获得营销服务,这些服务就由企业的数智人提供,包括营销推荐、推荐后实时互动,银行开卡业务等。将交互服务做了升级,节约了用户线下去实体网点办理的时间,提升效率。在类似这样的交互入口中,数智人会起到很大作用。
值得注意的是,在面向企业服务的场景,如果企业数智人自身在一些智能化场景里有足够的行业积累和知识图谱,在 ai 技术的加持下,数智人就可以通过自适应、自学习,不断提升服务能力,实现在全真互联中为用户提供更好的服务。
采访嘉宾介绍:
陈磊,腾讯云智能数智人产品总经理。先后参与负责 qq 浏览器、腾讯翻译君、腾讯同传、腾讯云智能数智人等产品的研发工作。