何颖淳
我国数字人市场蓬勃发展,国际数据公司(idc)发布的《中国ai数字人市场现状与机会分析2022》报告预计到2026年将达102.4亿元。我国数字人早期多以虚拟偶像的形态存在。随着市场的发展,数字人在更多的领域有了更专业的应用。除了在泛娱乐领域的应用,数字人在企业级服务上的应用也逐渐成熟。与虚拟偶像相比,专业服务数字人其面临的业务场景更为复杂,对数字人在互动过程中的信息处理能力、实时互动能力以及业务融合能力有了更高的要求。
数字人形象与应用的变化背后是我国数字人技术的发展。一方面,数字人形象从2d向3d迭代,外形风格上也出现了卡通、拟真、写实等不同类型。另一方面,数字人的感知互动能力以及表达能力更接近真人,实时互动能力大幅提升。早期以虚拟偶像形象存在数字人很多是通过2d技术建模,他们的动作与表情大多是通过动作捕捉技术完成,由真人在其背后输出。随着技术的发展,当前数字人已经可以基于3d技术建模,并且动作、表情、语言等则是基于人工智能模型进行输出。
数字人技术正沿着数字人构建与形象设计方向发展。在数字人建模环节,技术从2d向3d建模发展。在数字人渲染环节,各类引擎也不断结合新的人工智能技术,数字人的形象更接近真实世界。如《阿凡达:水之道》在制作过程的一大突破便是引入了apfs系统(anatomically plausible facial system)。该系统是基于肌肉纤维曲线的面部动画参数化系统,为画师提供了更基于解剖学基础、更以动画师为中心的创作环境,能够更高效地完成逼真度更高的作品。
同时,数字人技术在动作与表情的驱动系统上也有很大的突破,而该类技术是让数字人具备“灵魂”的关键。数字人动作与表情技术的发展可以分为四个阶段。第一阶段,数字人最早的动作与表情是由人借助3d软件手工建成。在第二阶段,随着动作捕捉技术的发展,又形成了真人驱动(即中之人)的技术。到了第三阶段,出现了人工智能技术的应用,但该阶段是基于动作表情库而驱动的技术,该类技术早期多应用与游戏行业,在3d数字人发展的早期阶段数字人公司将该类技术引入。目前,数字人的技术发展已经进入第四阶段,该阶段数字人动作与表情技术是基于生成式人工智能模型(即aigc)。aigc驱动技术与动作表情库的驱动技术相比,拥有更强的实时互动能力和信息处理能力。从数字人使用方来看,aigc驱动技术下的数字人能更好地处理复杂的互动场景,互动体验感上有大幅提升。
如何让aigc技术在成本可控的基础上融入数字人生成是当前数字人市场的一个前沿探索领域。一些数字人的市场的领军团队已经在搭建拥有自主核心算法能力的技术框架,并基于此以模型即服务(maas)或者saas模式为市场提供不同的输入方式自动生成3d模型服务以及通过ai自动生成虚拟人的动作和表情的工具,以满足市场对数字人设计与生成的新需求。这些技术框架主要包括了3d模型、多模态语言模型以及clap算法(动作与表情生成算法)、人工智能歌声生成模型、神经网络渲染等多方面的技术。
基于aigc技术形成的数字人技术框架可以支持通过输入文本、照片,快速创建超写实数字人,可大幅度降低使用门槛,实现高效、通用性强、还原程度高的数字人制作。并且赋予了数字人更高效的动作生成与表情生成能力。只需通过文本或照片的输入,便能形成3d数字人实时的动作和表情,极大提高了数字人使用中的便利性。同时利用框架,可以让人具备多样性、自主人格、自我意识和高自由度。数字人能以文字、声音、影像等多模态方式与玩家真实自然地交互,无需人工干预。当前,基于aigc技术的数字人已经开始应用于游戏、电商直播、金融与通信等行业。