为元宇宙npc角色配音，meta发布全新语音生成ai模型-凯发app

产业

为元宇宙npc角色配音，meta发布全新语音生成ai模型

来源：澎湃新闻
2023-06-20 08:55

meta近日宣布发布全新的语音生成ai模型——voicebox，voicebox是一个端到端的神经网络模型，它不需要任何人工特征或先验知识，就可以直接从文本生成原始的音频波形。

来源丨凯发app简史

作者丨元宇宙简史主理人 fun

【元宇宙导读】meta近日宣布发布全新的语音生成ai模型——voicebox，voicebox是一个端到端的神经网络模型，它不需要任何人工特征或先验知识，就可以直接从文本生成原始的音频波形。voicebox还能够根据角色的外貌、性别、年龄等特征，自动调整语音的参数，使之能够为元宇宙中的npc角色或虚拟助理生成逼真的配音。

语音生成是人工智能的一个重要领域，它可以让机器或虚拟世界里面的npc角色用人类的声音说话。

然而，要让npc角色生成自然而富有表现力的语音，仍然是一个挑战。传统的语音合成系统通常需要大量的人工干预和专业知识，才能调整声音的质量和风格。

此外，这些ai模型往往只能生成单一的声音，而不能根据不同的文本和情境，切换不同的说话者或情感。

近日，meta的ai研究人员在语音生成ai方面取得了突破性的进展，发布了语音生成ai模型——voicebox。

voicebox是第一个能够在没有专门训练数据集或预先定义任务目标情况下，完成任何文本到语音任务，并且能够在给定单独语音样本情况下，以说话者原始声音朗读后面的文本内容。

和图像和文本的生成系统一样，voicebox能以各种各样的风格创建输出，它既可以从零开始创建输出，也可以修改给定的样本。但是，voicebox产生的不是图片或文本段落，而是高质量的音频。

在voicebox之前，语音生成ai需要针对每个任务进行特定的训练，并使用精心准备的训练数据。voicebox使用一种新的方法，只从原始音频和相应的转录中学习。与音频生成的自回归模型不同，voicebox可以修改给定样本的任何部分，而不仅仅是给定音频的末尾。

voicebox基于一种称为flow matching的方法，该方法已被证明可以改善扩散模型。voicebox在零射击文本到语音方面超越了当前最先进的英语模型vall-e，无论是在可理解性还是在音频相似性方面都是如此，同时速度快达20倍。对于跨语言风格转换，voicebox超越了yourtts，将平均词错误率从10.9%降低到5.2%，并将音频相似性从0.335提高到0.481。

voicebox在词错误率方面实现了新的最先进结果，超越了vall-e和yourtts

voicebox还分别在英语和多语言的基准测试上，在音频风格相似度指标上达到了新的最先进水平

利用meta的ai突破性技术，voicebox的强大功能能够支持多种任务：

- 上下文文本到语音合成：使用短至两秒的音频样本，voicebox 可以匹配样本的音频风格并将其用于文本到语音的生成；

- 语音编辑和降噪：voicebox 可以重新创建被噪音打断的部分语音或替换说错的词，而无需重新录制整个语音，就像用于音频编辑的橡皮擦一样；

- 跨语言风格转换：voicebox 目前支援英语、法语、德语、西班牙语、波兰语和葡萄牙语，如给定一段文本，能够用上述支援语言阅读翻译后的文本内容。这个功能预计能帮助人们能够用自己的声音说任何外语（即使他们不会说该种外语）；

- 多样化的语音采样：从不同的数据中学习后，voicebox 可以生成更能代表人们在现实世界中使用上述六种语言的谈话方式的语音。未来，此功能可用于语音生成合成数据，以帮助更好地训练语音助手模型。

voicebox还可以根据文本中的内容和情感，以及用户指定的元数据（如说话者、语言、性别、年龄等），动态地调整声音的风格和属性。这意味着voicebox可以生成多种不同的声音，并在同一段文本中实现无缝的声音切换。

使用voicebox，视障人士可以听到ai用他们的声音朗读朋友的书面信息，普通用户可以用自己的语调和语气来说外语。ai模型本身可以生成高质量的音频，消除汽车喇叭等不必要的背景噪音，同时保留音频的内容和风格。

voicebox模型的未来应用场景，主要包括在元宇宙中为虚拟助理或npc角色提供自然和多样的语音配音。meta表示，voicebox也可以让元宇宙中的虚拟助手和npc角色发出自然的声音，为创作者提供新的工具来轻松创建和编辑视频的音轨等。

例如，在一个冒险游戏中，voicebox可以为玩家遇到的各种角色生成不同的声音，如勇敢的骑士、神秘的巫师、可爱的精灵等。这些声音不仅能够反映角色的性格和情绪，还能够适应不同的场景和情境，如战斗、对话、歌唱等。voicebox还可以根据玩家的选择和行为动态地改变语音内容和风格，增加游戏的互动性和趣味性。

同时，meta表示现阶段暂不计划向公众发布voicebox应用，以及它的开源代码，因为担心像目前ai换脸技术被滥用在诈骗上一样。

meta意识到这项工具带来滥用和被用来犯罪的可能性，声称将为此构建一个分类器，以区分真实的音频和voicebox生成的语音，以减轻这些未来可能存在的风险。

严正声明：本文为元宇宙简史原创

为元宇宙npc角色配音，meta发布全新语音生成ai模型-凯发app

为元宇宙npc角色配音，meta发布全新语音生成ai模型

关键词

相关阅读

拾叁益傲打造的元宇宙美术馆入驻“宇宙猜想”

全景欣赏梵高佳作，沉浸式体验元宇宙，数字经济体验周启动

binance 与 the weeknd 合作推出元宇宙世界“ metaverse dimension ”

手机天猫app：首款元宇宙产品“猫享大陆”将上线

论道元宇宙，第五届上海科幻影视产业论坛打造科幻行业“新时代风向标”

美图发布7款aigc产品含ai视觉大模型、数字人等

lg发布首个生成式ai商业化服务captioning ai

外媒：元宇宙为拉美创造新经济环境

“元宇宙”搬到线下，中传动画学院学子在别样毕业典礼中告别校园

加速发展数字经济实现突破科技影视——首届文化元宇宙暨微短剧产业大会明日举行

24快报

chao起大鲍岛，畅游元宇宙，体验里院“一天一百年”

中日韩元宇宙高尔夫跨国明星赛，打造亚洲数字竞技新高度

利亚德参展国际“声光视讯显元宇宙”全产业盛会

工商银行申请基于元宇宙的资源转移专利，提高了资源转移的效率和

重庆渝中区：数字化演绎传统经典将国风之美融入元宇宙

全球首个国家级“元宇宙”平台沙特上线主要用于在线旅游

沙特推出世界首个国家级“元宇宙”平台，用户可线上游览当地景点

《元梦之星》元宵节再上央视，星搭子们在“小小元宇宙”共庆佳节

捷安高科：为河南省元宇宙协会副会长单位及专精特新中小企业，获

乐华娱乐签约元隆雅图开展ip衍生品及元宇宙等方面合作

ude2024盛大开幕，开年首展蓄势声、光、视、讯、显、元宇宙六大

重庆：4200 亿元，支持企业研发元宇宙产品，打造特色产业园

周鸿祎：“元宇宙”概念明年可能会东山再起

借力roblox东京造本土元宇宙名片，国内文旅可以学到什么

sora“加速”元宇宙发展，sora 一站式3d数字内容创作工具，将成

北京首个元宇宙“沉浸式”红色主题教育课程开讲

何鸿婷郑一卉：对我国新闻传播学元宇宙研究的反思

sora 一站式3d数字内容创作工具,元宇宙的内容快速建构时代即将到

元宇宙的喜与忧

开启元宇宙的“钥匙”有了合肥造合肥加快打造具有国际领先优势