为什么数位ai科学家离开了meta-凯发app

产业

为什么数位ai科学家离开了meta

2023-09-13 15:19

过去半年，为了追赶openai的研发脚步，科技巨头meta公司（前facebook）接连发布免费开源大语言模型llama、llama 2以及编程模型code llama等，引发了一场关于开源与闭源模型优劣的广泛热议。

meta参展2022年在上海举行的进博会（来源：钛媒体app编辑拍摄）

过去半年，为了追赶openai的研发脚步，科技巨头meta公司（前facebook）接连发布免费开源大语言模型llama、llama 2以及编程模型code llama等，引发了一场关于开源与闭源模型优劣的广泛热议。

但对于一些参与llama大语言模型研发的meta 科学家们来说却不这样想，普遍认为这款大模型来的太晚了，团队精英 ai 人才流失太高了。

据the information近日报道，今年2月发表的llama原始研究论文的14位作者中，包括fair巴黎团队负责人antoine bordes在内的超过一半（7人）ai科学家离开了meta，其中几位跳槽或创办了 ai 初创公司，或是到大公司，原因与内部算力资源斗争有关。

同时，opt、esmfold等多个项目也同时解散，员工合并重组，影响超过数十人，其中opt研究论文的19位作者中，已经约有一半已不在meta工作，近10位ai领域核心研发人员。

实际上，过去10多年来，马克·扎克伯格（mark zuckerberg）一直将 ai 当作meta新发展的重要起点，而且挖来了 ai 学术领域重要的科学家，如图灵奖得主、meta首席 ai 科学家杨立昆（yann lecun）等，但持续性团队内斗影响了meta ai对于研究资源的分配。

而随着全球经济衰退加剧、紧急追赶chatgpt，经历一段时期的人员波动和内部整合、超过1万名员工被裁掉。最终，meta选择商业化的 ai，放弃纯科学性ai技术。

超半数llama团队愤然出走，因与opt团队内部算力争夺有关

meta在人工智能（ai）领域的核心研究，主要来源2013年成立的fair（facebook ai research）。

团队组建之初，meta聘请了图灵奖获得者、法国科学家杨立昆担任 ai 研究负责人，整个fair的研究任务是将 ai 用于翻译语言，推进ai医疗等场景。同时，fair团队大手笔在美国加州门洛帕克、纽约、蒙特利尔、巴黎、伦敦和西雅图六地设立实验室。

据报道，fair在巴黎的团队主要研发了llama大模型，而fair美国团队则研发opt模型，两个团队主要向meta基础al研究负责人joelle pineau汇报。据悉，pineau不仅是meta ai研究副总裁，而且还是麦吉尔大学教授，主要研究新的模型和算法。

meta基础al研究负责人joelle pineau（来源：meta ai凯发app官网）

早在2022年5月，chatgpt发布之前，meta美国团队就公开发布了opt-175b。当时meta声称该模型比openai的gpt-3训练所需能源更少，而这两个模型用于训练的参数规模相同。据两位知情人士称，几个月后，该团队已经开始研究媲美谷歌palm的一款大模型。

与此同时，巴黎fair团队已经开始研究另一种独立的大模型，最终被称为llama，该模型参数比opt小，团队认为较小模型在推理（即对问题生成响应的过程）方面会更有效，尤其llama需要的算力资源低于opt模型。

不过，由于meta的算力资源有限，内部分配一直不合理。而这种算力争夺加剧了团队之间的紧张关系。

据报道，meta内部每月做出一次算力分配决定，与不同业务部门、不同优先事项，以及项目发布时间等因素有关。而如果fair的员工提出争议，这些争议就会升级，交由pineau做出决定。

pineau回应称，llama和opt团队在算力分配的问题上“有些紧张”，称“尽管我们不保证每个人都会得到想要的，但我们一直试图在平衡各方需求”。

2023年开始，随着chatgpt对话 ai 模型风靡全球，两个团队内斗紧张局势达到了顶峰。

今年2月，meta fair发布了llama开源模型，并获得研究使用许可，而且多个团队使用llama开发了vina等其他开源大模型，广受好评。

但在发布会前一周，fair团队联合创办人兼巴黎团队负责人antoine bordes却离开了meta公司，报道称，其主要与美国团队的内斗让bordes精疲力尽。bordes拒绝置评。

同时，自去年11月起，扎克伯格开始了meta全公司范围的裁员，涉及超过1万名员工，fair团队也未能幸免。今年2月，meta成立了一个新团队，专注于开发生成式 ai 技术，团队负责人是苹果前高管ahmad al-dahle。随后很多fair、llama 2开发团队都加入其中，又一次进行了团队洗牌。

而meta这种人员变动、整合，让fair团队只能研究code llama。因此，更多llama、opt等项目的研究人员感受到了更大的内部斗争氛围，愤然离职。

据报道，目前，llama原始研究论文的14位作者中，超过7人已从meta离职。而2022年5月公布的opt原始研究论文的19位作者中，约有10名 ai 大牛已经从meta离开。the information提到了其中四位的去向：

fair巴黎分部负责人antoine bordes已离职，加入了军工 ai 公司helsing llama论文作者、fair研究总监armand joulin，今年5月离职，随后加入了苹果公司。 llama论文作者timothee lacroix和guillaume lample已离职，共同创立了 ai 初创公司mistralai llama论文作者marie-anne lachaux已离职，加入了mistralal

另外，今年8月有报道称，meta为了降本增效，裁掉了对标谷歌deepmind alphafold、利用 ai 大模型实现蛋白质预测的生物科学esmfold项目团队。此前，该团队研发出了150亿参数、预测超6亿个宏基因组蛋白质序列大模型esmfold，ai 的速度比 alphafold 快 60 倍。不过如今，该团队已解散，负责人已辞职创业。

英国《金融时报》认为，fair实验室内部的学术文化是meta迟迟在 ai 大模型竞争中获得领先的原因，而随着chatgpt的爆发，如今meta试图调整目标“genai”，并重新配置其fair团队的研究方向，转向 ai 模型的商业化。

扎克伯格表示，随着开发者不断改进模型，meta可以将这些改进融入其广告和消费产品中。看起来，扎克伯格从llama看到了以开源在ai竞争中打开局面的可能性。

joelle pineau坦言，留住和吸引优秀人才是公司花费大部分时间的原因。如果没有优秀的研究人员，她什么也做不了。

“由于 ai 领域发展如此之快，我们正在共同思考，fair应该拥有哪个项目？gen ai 应该拥有哪个项目？我们应该持续关注两个团队的工作成果。”pineau表示。

算力不足下，meta仍计划明年发布对标gpt-4的大模型

meta ai 研究团队这一内斗、核心人员离职案例，可以从两个角度解读。

一是大公司创新能力随着内部问题不断下降，资本和大科技公司创新鸿沟加深。（详见钛媒体app前文：《全球经济巨变下，资本和科技创新之间的冲突与平衡》）

此前，谷歌也做了类似的事情，deepmind研发 ai 技术多年，诞生出了alphafold、alphago等行业顶级技术，但难以盈利，2018年-2020年总亏损额超过17亿美元。因此在今年4月，谷歌母公司alphabet ceo sundar pichai （皮猜）宣布，将谷歌大脑和deepmind 两大团队合并，组成“google deepmind”部门，研发任务之一是多模态 ai 模型，而此前谷歌大脑、deepmind内部竞争颇多。

另外在阿里内部也产生一定的竞争。近日，阿里达摩院m6大模型带头人杨红霞、阿里云ai大牛贾扬清、机器学习科学家金榕等 ai 大牛也纷纷离职，有消息称，阿里大模型研发时经过内部的竞赛流程，金榕和杨红霞团队技术产生竞争，最终诸多因素下才最终选择杨红霞的模型技术，从而诞生通义千问，不过最终两位技术负责人均从阿里辞职。

搜狗创始人、百川智能创始人兼ceo王小川告诉钛媒体app，“资本是逐利的，所以不是投自动驾驶就是安防。对大厂来说，当时投钱创新是有巨大风险的。对企业的一号位来说，想的更多还是业务上的东西，花钱最后没出成果，算谁的？”

另外一方面是meta的算力资源不足。

随着openai用微软云的算力、谷歌则自行购买gpu（图形处理器）芯片，多家科技巨头加大算力基础设施布局。而meta没有自己的庞大云算力储备，因此在生成式ai的赛道上明显“掉队”。

2022年的一场5个小时会议上，meta的基础设施负责人当时表示：“我们在开发ai的工具、工作流程和程序上存在显著差距，我们必须得投入大笔投资。”而随着chatgpt的发布，全球 ai 训练、推理算力需求加剧，meta似乎只能追赶。

据报道，gpt-3使用10000张gpu a100显卡、花了30天才训练完了1750 亿参数，单 gpu 计算性能为12tflops，消耗的总算力为每天每秒3640petaflop，gpu-4数据更高。即便是利用3584 个英伟达最新 h100 芯片，gpt-3大模型训练任务也需要11分钟。而openai尚未透露gpt-4的大小，但估计参数为1.5万亿。

庞大的数据量需要大量的算力支持。因此，meta依然需要购买大量英伟达产品，补足算力缺口，例如meta llama模型已经在微软云平台azure上提供。

meta cfo susan li在今年2月坦承，meta投入给生成式ai的算力相当有限，基本上所有的ai算力都投向了广告、信息流和短视频项目。

即便是算力不足，扎克伯格仍希望尽力追赶，并且打造更多的大模型产品落地应用。

据外媒9月11日报道，meta正在开发一种新的 ai 大语言模型（llm），超越llama 2，性能比肩gpt-4。报道称，预计meta将在2024年初开始训练这一大模型。

（本文首发钛媒体app，作者｜林志佳）

为什么数位ai科学家离开了meta-凯发app

为什么数位ai科学家离开了meta

关键词

相关阅读

meta首席人工智能科学家：chatgpt背后的生成式人工智能技术拥有太多的局限性

meta 首席 ai 科学家杨立昆：ai 智力连狗都不如，不应将其视作威胁

做数字人，难在如何越过“恐怖谷”，科学家艺术家谈ai

戴尔中国研究院首席科学家李三平：通用大模型不是戴尔的首选

我们走进元宇宙了吗？听听青年科学家怎么说……

赵星在12月9日召开的“第一届科学家企业家投资家论坛2022”

致敬科学家精神！青春元宇宙回响创新自立最强音

24快报

chao起大鲍岛，畅游元宇宙，体验里院“一天一百年”

中日韩元宇宙高尔夫跨国明星赛，打造亚洲数字竞技新高度

利亚德参展国际“声光视讯显元宇宙”全产业盛会

工商银行申请基于元宇宙的资源转移专利，提高了资源转移的效率和

重庆渝中区：数字化演绎传统经典将国风之美融入元宇宙

全球首个国家级“元宇宙”平台沙特上线主要用于在线旅游

沙特推出世界首个国家级“元宇宙”平台，用户可线上游览当地景点

《元梦之星》元宵节再上央视，星搭子们在“小小元宇宙”共庆佳节

捷安高科：为河南省元宇宙协会副会长单位及专精特新中小企业，获

乐华娱乐签约元隆雅图开展ip衍生品及元宇宙等方面合作

ude2024盛大开幕，开年首展蓄势声、光、视、讯、显、元宇宙六大

重庆：4200 亿元，支持企业研发元宇宙产品，打造特色产业园

周鸿祎：“元宇宙”概念明年可能会东山再起

借力roblox东京造本土元宇宙名片，国内文旅可以学到什么

sora“加速”元宇宙发展，sora 一站式3d数字内容创作工具，将成

北京首个元宇宙“沉浸式”红色主题教育课程开讲

何鸿婷郑一卉：对我国新闻传播学元宇宙研究的反思

sora 一站式3d数字内容创作工具,元宇宙的内容快速建构时代即将到

元宇宙的喜与忧

开启元宇宙的“钥匙”有了合肥造合肥加快打造具有国际领先优势