中科深智创始人兼ceo成维忠
“我们团队既要扎扎实实的立足于国内市场,同时在看待技术方向和整个战略的时候,还要有全球眼光。”中科深智创始人兼ceo成维忠如是说。
在国内,提到虚拟人绕不开的企业之一便是中科深智(全称“北京中科深智科技有限公司”)。他可以说是生成式ai虚拟人和3d aigc领导者。
资料显示,中科深智可提供全流程、端到端的实时3d虚拟人产品。公司已获得国家发明专利超18项、计算机软件著作权超67项。凯发app的合作伙伴覆盖中国电信、中兴、腾讯等诸多知名企业。
成维忠在接受新浪vr访谈时表示,未来虚拟人并不缺市场。在他看来,未来1000亿虚拟人里面,如果每个虚拟人花10块钱做技术支撑,就是万亿市场,如果每个训练产生100块钱,就是一个10万亿的收入市场。
对于公司未来,他表示,“现阶段公司是解决一个人的动作生成,我们可以用声音去生成,也可以用传感器信号去生成。接下来,我们要解决两人和多人交互的动作表情生成。3至5年后,除了人以外,我们还涉及到跟物品的交互、跟场景的交互。”
全球领先自动生成表情
2014年7月,facebook宣布以20亿美元的价格收购oculus。在facebook看来,oculus的技术开辟了全新的体验和可能性,不仅仅在游戏领域,还在生活、教育、医疗等诸多领域拥有广阔的想象空间。
一石激起千层浪,facebook这一举措,被外界视其在为未来买单。同时,这也刺激着对市场敏感的人,掀起vr创业热潮。而彼时,对市场敏感的成维忠也看到了vr行业机会的到来。
2016年,全球掀起了一股vr热潮。oculus和htc纷纷推出消费版本的vr头显,开启了外界业内普遍盛传的“vr元年”。机构数据显示,2016年里国内外vr、ar行业投融资规模分别同比大幅增长了387%、968%。
而中科深智也正是在这一年成立。成维忠讲到,“我们开始筹备中科深智的时候,行业开始走下坡路。当时我们有两个选择,要么继续顺着原来移动互联网的路走,要么选择一个新的事情。2015年以后新兴的移动互联网公司基本非常少,(移动互联网)已经过了一个创新高点,所以我们就在想我们做下一代互联网。”
基于此,当时成维忠对于互联网未来一个大判断是,未来下一代互联网是以这个实时渲染产生的图形、图像视频为主的时代。他表示,“要发展的话,就需要场景、物品、人三个基础设施,我们把人作为落脚点。”
“我们觉得虚拟的数字就是下一代互联网基础设施,我们也在基础设施基础设施的研发当中,我们要占一席之地,这是我们创办公司的一个初衷。”成维忠如是说。
他表示,当前在3d环境中,数字人要去表演无非两种,一种是ai驱动的,一种是某种意义上人去驱动的。这两种技术并没有好坏之分。但是用动捕去驱动这种技术,在未来是一个非常小众的技术。
“所以未来一定是ai驱动的数字人,在大命题下面,我们就把生成ai驱动虚拟人作为我们的核心技术。我们把生成式ai虚拟人作为一个重点。这是我们对整体技术方向的一个大的研判。”
他举例讲到,比如最早迪士尼做动画,人建模绑定,大概占整个工作量的10%~15%,后期的渲染大概占10%,预算和时间投入70%都是动作表情处理。
近几年随着动画工作流的改进,比如动作表情捕捉技术。但动作表情处理占的工作量和预算的比重还超过50%。因此,未来在必须得要去解决动作表情生成的问题,才能完成整个3d aigc的一个闭环。
“这就是我们做生成式ai虚拟人和 3d aigc去生成表情的主要因素之一,奠定了我们3d、ai经济当中一个不可或缺的这样一个地位。”成维忠强调到。
“我们团队既要扎扎实实的立足于国内市场,同时在看待技术方向和整个战略的时候,还要有全球眼光。”他表示,过去公司一直把生成式ai虚拟人和3d aigc作为重心,毫不动摇持续的在投入。
“每一项新的技术出来以后,我们都用它来进一步增强我们的动作表情处理方面的能力,我们在国内同行之间实际上已经拉开了一定的差距。可以说,当前在深层次的动作表情领域、深层次ai动作表情领域,我们处于全球领先行列。”
端到端虚拟人全流程服务
中科深智作为生成式ai虚拟人和3d aigc领导者,目前可做到提供全流程、端到端的实时3d虚拟人产品。已获得国家发明专利超18项、计算机软件著作权超67项。凯发app的合作伙伴覆盖中国电信、中兴、腾讯等诸多知名企业。
在大语言模型方面,中科深智有200亿和20亿两个参数两个轻量级版本,可为大中小企业进行私有化部署。
在3d模型生成方面,通过文本等多模态输入,生成3d数字人模型。中科深智结合图像渲染技术、3d建模技术和机器学习算法来实现,基于深度学习的生成对抗网络(gan)和变分自编码器(vae)等技术,建立网络学习3d模型的特征和规律来生成新的3d人物模型。
在cllap模型方面,中科深智自主研发的跨多模态ai生成算法,通过持续的不同模态数据的关联和交叉训练,已经获得基于语音语义实时生成动作和表情的能力。“通过公司自研的重定向算法介导,这些实时生成的动作和表情数据,即可最终驱动虚拟人,从而完成生成式ai虚拟人的技术闭环。”
在motionverse方面,据他介绍,多模态实时驱动虚拟数字人的业务中台,整合了中科深智底层大语言模型以及动作和表情生成等算法、自动建模技术及模型库、hive虚拟人云端渲染技术,形成面向产品和应用的ai虚拟人业务中台。“除了支撑公司自有产品外,也为有二次开发能力的行业开发者,提供sdk和管理后台。”
对于行业未来趋势,成维忠表示,行业的未来市场还是看在下一代互联网大趋势,但不得不承认移动互联网已经到头了。下一代互联网当中一定会人货场,根本就不缺场景,市场会很大。在他看来,将来整个虚拟人的总体的量应该是千亿级。
成维忠认为,“1000亿虚拟人里面,如果每个虚拟人后面花10块钱做技术支撑,就是万亿市场,如果每个训练产生100块钱,就是一个10万亿的收入市场。”
“对我们这样的公司来说,只要扎扎实实把自己的事情给做好就ok了,未来的训练应该是无处不在,无所不在的。这个市场会不断的融合,因为新技术出来是不断融合。”
对于公司未来,他表示,“现阶段公司是解决一个人的动作生成,我们可以用声音去生成,也可以用传感器信号去生成。接下来,我们要解决两人和多人交互的动作表情生成。3至5年后,就除了人以外,我们还涉及到跟物品的交互、跟场景的交互。”
在访谈最后,成维忠表示,出海将成为公司的一个重点。“接下中科深智除了继续做国内的市场以外,出海是一个重点。”