潮流的走向,在潮流中游泳的人最有发言权。
大模型是中国科技领域 2023 年的主旋律,那么 2024 年的趋势是什么?最好的预言就来自于实践者的总结和判断。
极客公园调研了 8 位国内大模型领域最活跃的实践者,他们对于以下问题的总结和回答,相信会对我们预测 2024 大模型在国内的发展有所帮助。
过去一年投身大模型创业,有什么收获?
感受到哪些挑战与限制?
创业公司的机会在哪里?
产业的瓶颈是什么?
接下来的趋势在什么方向?
以下是数位实践者给到极客公园的答案:
今年在投身大模型的过程当中,最有收获的一件事情的一件事情是什么?
李志飞
出门问问 ceo
在我们的大模型「序列猴子」涌现「顿悟」的一刻,当晚我和「序列猴子」聊到凌晨两点,是对大模型的认知更深刻的一件事。
4 月中旬的一个晚上,我和朋友吃饭时收到同事的消息,说「序列猴子」有了一个还不错的新版本,让我试试。我随意问了几道地理题,比如「湖北和湖南两个省的省会人口哪个更多?」一些从简单到复杂的问题,「序列猴子」都能够很好地对答。而这些看似简单的问题与结论,实际上需要机器先理解问题中的概念,再作比较。
当时,我感到惊喜,「序列猴子」可能拥有了二阶逻辑推导的能力,而我们一直没有刻意训练过。我非常兴奋,匆匆结束饭局跑回家,从对话、数学、多步推理等各个方面又测试了几个小时,发现「序列猴子」跟过去做的所有 ai 系统都不一样。
过去,我明确知道机器能做什么、不能做什么。但当时我意识到「序列猴子」不仅能听懂问题,还能不时给出意料之外的答案。它是一个认知模型,也许我永远不能完全理解它,就像真相只能逼近,但我还是想知道 why,提出假设,做各种实验。
宋乐 百图生科 cto
今年 7 月,福布斯(forbes)发表了 radical ventures 风险投资家 rob toews 的一篇文章,题目是 the next frontier for large language models is biology,文章探讨了将大语言模型所拥有远超人类想象的复杂理解能力和创新生成能力,指向生命的自然语言时,将释放的各种可能性。
deepmind 首席执行官兼创始人 demis hassabis 也曾说过:「从其最基本的层面来看,我认为生物学可以被看作是一个信息处理系统,尽管会是一个非常复杂和动态的系统。就像数学被证明是物理学的正确描述语言一样,生物学可能会成为人工智能应用的完美领域。」
实际上,我们面对的生命科学基础问题和人类自然语言很类似:组成蛋白质的 20 种氨基酸「字母」,决定了蛋白质的性质、蛋白质之间的相互作用关系,也决定了细胞中蛋白质网络的复杂调控关系和复杂的生命活动现象。这也正是我们选择使用 ai 大模型技术来建模生命科学问题的基础。
从我们提出构建生命科学大模型,建模生物演化,解码生命规律,到如今逐渐成为行业共识和下一个大语言模型前沿方向,我们始终坚信这是一条正确的道路,当然这也会是一条充满挑战的征程。
杨植麟
月之暗面 ceo
理解到实现通用人工智能需要真实的规模化(agi through authentic scaling)。什么是真实的规模化呢?scaling law 可能为大家所熟知,常见的规模化包括算力的规模化、模型参数量的规模化和数据的规模化。当然,还有一些早期不是共识,现在是慢慢成为共识的规模化,比如我们已经尝试过的建模长度的规模化和模态的规模化。
因此,在做出决策时,我们主要依据的价值判断是这件事是否符合 authentic scaling 的性质,也就是说,这件事能否规模化且最优地带来智能提升。任何虚伪甚至反规模化的行为都不值得去做。
那么,哪些是虚假的规模化呢?我在这里举几个例子:
用长度外推来拓展上下文长度属于虚假的规模化。而通过极致的工程优化,提升训练效率,减少显存压力以扩展上下文长度,是真实的规模化。
通过构造榜单领域内数据打榜是虚假的规模化。真正有效的规模化应该是自下而上地利用来自产品各种场景探索迭代的用户数据构建的飞轮,来提升通用的模型能力。
命题作文式的、以训练千亿万亿参数量模型为目标的工作是虚假的规模化。能科学地理解模型 scaling 的性质和内部 training dynamics,根据这些性质精确的确定模型训练的 recipe,以达到最大程度的能量转化为智能的效率,这才是真实的规模化。
周枫
网易有道 ceo
大模型开辟了一个全新的互联网时代。我认为大模型技术与移动互联网技术有相当的相像之处,两者都是一个范式的转变,移动互联网让人从坐着用互联网,变成随时随地可以使用;而大模型让人工智能从只能具有感官能力,上升到具有推理和认知能力。
其次,两者都来自一个巨大技术突破带来的行业变化,移动互联网领域大创新的这十余年,几乎每年都有奠定格局的巨型产品诞生,手游、移动电商、短视频等等也都是在移动互联网领域发展了多年,基础设施成熟之后异军突起,迅速成为巨大产业。
通过对比我有两点启发:第一,来自大模型的行业推动很可能将持续多年,而且大机会将从基础设施逐渐过渡到上层应用。第二,找到「大模型原生」的产品形态对于想投身大模型的创业者来说将是关键。大模型创新机会巨大,且刚刚开始,思考清楚这两个问题才能在创新中把握先机。
李国锐
即时设计创始人&ceo
在计算机技术的发展历史中,「封装」是一个非常重要的概念,无论在硬件层面,还是软件层间,封装意味着标准化的专业能力能够以一种更为简单的形式,大量地被更多人获取和使用。
而大模型的诞生,填补了从专业人员到大众用户的服务链路上的最后一公里,以往需要专业人员直接参与才能够完成的大众需求,现在可以借助大模型将专业人员的知识封装后,以一种崭新的自然人机交互界面的方式提供给大众用户,并由用户自助完成。
这是一种对专业能力的极大价值放大,为各个垂直领域当中的专业人员和计算机从业者都带来了崭新的机遇,并最终能够以一种知识即服务(knowledge as a service)的形式造福大众。
目前大模型技术面临的最大挑战和限制是什么?
周鸿祎
360 集团创始人
我认为有两方面的挑战。第一个方面,随着开源的发展,大模型技术本身不再是壁垒,真正的竞争在于如何将大模型与场景相结合,推出真正创新的产品体验,从而改变人们的生产、生活。大模型要想真正掀起新工业革命,必须要被拉下神坛,进入千家万户、百业千行,现在大模型除了在 chatgpt 这类对话类的产品中爆发,还没有在其他领域取得突破,如何找到更多的应用场景,决定着大模型未来的发展上限。
第二个方面,大模型安全问题也亟需得到解决,大模型技术本身是把双刃剑,带来了前所未有的安全挑战,包括短期、中期、长期风险。短期来看主要是是技术自身的安全问题,比如网络安全、数据安全、隐私泄露安全等;中期是「杜撰」能力带来的内容安全问题;长期来看,ai 技术的进化也会对人类产生一定的威胁。
然而任何新技术都有无法预知的安全隐患。谈安全不是为了制约发展,而是为了发展保驾护航。我们要把不安全的因素一一列出来,针对每个问题寻找凯发app的解决方案,让人们更安全更放心地拥抱新技术。这也是 360 躬身入局做大模型的原因。
李志飞
出门问问 ceo
我觉得纯粹的做模型,在中国会很艰难,不管你的模型多厉害,多少人用,其本身商业模式还是比较艰难的,可能也没有什么壁垒。如果能有自己的应用场景和模型,并形成数据飞轮效应,那才会是最好的壁垒。
不可否认,chatgpt 的确让我们看到了通用 agi 的曙光。但是如果将它定义为一场「技术革命」,它就必须要革新各行各业。如果 chatgpt 始终是一个纯文本的应用,或者它始终无法解决高度幻觉的问题,它便只能应用于非严肃的内容创作或者娱乐领域,那么,它很有可能成为本世纪最大的科技泡沫。
而能否革新各行各业,多模态和 agent 是否靠谱决定了这场革命的真实性。agent 现在还处于山顶洞人的阶段,仍然有很长的路要走。agent 的输入、输出都依赖于多模态,没有多模态,就没有 agent。
谢晨
光轮智能 ceo
目前中国大模型技术面临的最大挑战和限制是算力,但是,我们更应该看到算力之后的挑战——数据瓶颈。在近期 ilya 的采访中,他也专门提到数据是 openai 最大瓶颈。虽然互联网级数据(文字、图文、视频)数量很大,但是在这里,数据瓶颈不只是数量,更多在于多模态(比如 3d 数据)、高质量数据需求。
openai、tesla、nvidia 早已经开始大力发展合成数据技术,但是这个技术目前在中国属于早期、甚至市场技术认知尚不足的阶段,比美国至少落后 3 年。
我们希望通过光轮智能在做的事,可以让更多人意识到合成数据的价值与重要性,从而大幅加速中国 agi 的发展。
大模型初创公司的机会存在吗?在哪里?
周鸿祎
360 集团创始人
创业公司的优势是灵活、细分,可以在开源的基础上进行调优,为 b 端客户提供定制化的大模型服务,在不断的积累下构筑自己的护城河。
相比大公司,创业公司的劣势主要在于资源、人才等,比如通用大模型只有少数大公司才能做,通用大模型研发投入巨大,一般的初创公司难以承担。
不可否认 gpt-4 的强大,但在做应用场景方面,比如智能体、个性化定制,它还没有遥遥领先,国内我们更有可能产生应用场景的创新。我认为,大模型的竞争远没有结束,openai 无法一家独大,在产业智能化升级背景下,创业公司的机会依然巨大。
李志飞
出门问问 ceo
巨头的实力毋庸置疑,创业公司在面对巨头时,竞争力确实是比较弱的。甚至巨头会告诉你,不是产品或者技术牛,你就一定能怎么样,因为他们还有品牌势能和资源加持。
之前在硅谷聊完后来我得出一个结论,中国的竞争是美国的 10 倍。很简单,因为中国的创业者规模是美国的 2 倍,客单价又是美国的 1/5,所以做除法,竞争的激烈程度就是 10 倍。
但最近我也在反思,是否不应过度夸大巨头的能力。为什么今天还没出现中国版的 midjourney,我觉得很奇怪,因为我在去美国之前,去年 9-10 月份的时候 midjourney 就很火了。当时我们想做这个东西,但我和团队说我们绝对不能做,因为以我对巨头的认知,这一定是他们的菜。但很奇怪,没有一家巨头在做,可能说明巨头也不是万能的,甚至在某一些新的事情上,他的认知会出现问题。
当然 midjourney 的影响力可能不像 chatgpt 这么大,但我觉得创业最有意思的地方就在于,很多创业者总是能在一些大家觉得很绝望、完全没有任何机会的时候,创造出一些新东西,然后突然在某一天发现,这件事情怎么这么牛。所以我觉得总是会有机会的,但绝对不是简单粗暴地说美国怎么搞,我也怎么搞。
以下是对创业公司切入点的一些思考:
创业公司需要找到自己的壁垒,独特的数据才是壁垒,用户在自己产品中交互沉淀的数据才是壁垒。
因为哪怕巨头也不是靠模型就能碾压对手,也得经历产品上线才能迭代数据和模型,比如 google 和 openai 的竞争;
数据飞轮很难建立,但一旦建立将会是比模型和算力更靠谱的壁垒;
大模型只是起点,基于大模型能做出协作、数据、多模态等,才会形成比较高的竞争壁垒。
虽然我希望大家要更加理性,但作为一个创业者,有时候包括我们自己也要抓一些机遇,因为你不在风口上,再怎么干都不会有人关注你。
当然,任何一个新的技术热潮来的时候,一定有投机也有泡沫,我觉得这些都能接受。但我觉得上一代的 ai 公司最大的挑战,是能否快速迁移到新的范式里,这当中,认知和行动力很关键,ceo 或者创始人必须得清晰地知道这意味着什么,千万不要自己把自己给忽悠了。
我觉得现在最根本的问题是,一方面大家觉得自己看到了巨大的机会,无处不在,但一方面又找不到抓手,因为训练一个能力超强的大模型,投入很大,竞争也很激烈。如果你只做应用,那做大模型的公司以后自己也做应用怎么办?所以大家虽然很有热情,嘴上都说要 all in,但很多人都没找到能说服自己 all in 干这件事情的决心。
以下是创业公司的机会点:
创业公司最好有自己的模型,不一定是自研大模型,基于开源也能成为很好的大模型公司。
模型 应用:虽然创业公司也可以选择做通用大模型,但将模型和应用垂直整合可能是更适合创业公司的路径。
最好有自己应用场景,然后形成数据飞轮效应,构建自己的壁垒——众所周知,纯应用没有壁垒,纯模型没有商业模式,或者说商业模式会很短;如果能够将应用和模型结合起来形成数据飞轮,对创业公司来说更加靠谱。
找到巨头覆盖不到的场景和机会,选择 to smb(small and mid size business,面向中小企业)、to pc(professional consumer,面向专业个人)的商业模式:这样的商业模式好处在于,一方面可以避免跟巨头竞争,另外一方面能够避免上一代 ai 公司做 b 端项目、持续亏钱的状态。
周曦
云从科技董事长
套壳 chatgpt 功能的初创企业大概率会技术迭代中被吞噬。因为数据不是护城河,行业经验才是。
以后的基础大模型很可能会穷尽世界上所有公开数据(目前已经接近)和大部分半公开场景数据,所以,对行业工作流程、场景智能化的经验才是立身之本。单纯的文案撰写、文生图等单点功能不足以支撑企业的长远发展。
大模型产业化进程中存在哪些主要瓶颈?产业生态体系会是什么样的?
李志飞
出门问问 ceo
今年一月、二月的时候,大家所有人想的都是做中国版的 openai,因为目标很高,就得靠高投入才能做出大模型,但叠加算力、数据、人才,这种打法就很难。现在过了几个月,大家发现做大模型有很多打法,比如说你有很多可落地的领域,一个领域做一个大模型,并不需要那么强的通用能力,从这个角度,大模型的门槛会大幅度下降。
在大模型的三要素(算力、数据、算法)中,大家都知道数据非常重要,是最有可能成为壁垒的。但需要强调的是,大家都容易获取的数据不是壁垒。比如,互联网上爬来的数据,开源社区公开的数据集,大家都能够获得并且应用到训练中,这种数据无法成为壁垒。
只有用户在自己产品中交互沉淀的数据才是壁垒,构建数据飞轮很难,但一旦建立将是比模型和算力更靠谱的壁垒。
接下来一年大模型技术的发展趋势和方向会是什么? 有哪些新的应用场景值得期待?
周鸿祎
360 集团创始人
接下来一年,大模型技术的迭代会更快,智能性进一步提升,生态也将更加完善,面向各个场景的落地应用也会不断涌现。
我认为,未来大模型不会只有一个,而是会无处不在。高通最近出了一个新的桌面 cpu,苹果出了 m3 的芯片都证明了将来在苹果和高通这几个 cpu 的能力都可以把一个大模型压缩之后放在一台电脑。小米就说用高通 cpu 做了新一代的手机,将来可能把一个小规模的大模型压缩之后跑在手机上。我觉得今年或者明年,国内的智能网联车会争先恐后地搭载车载大模型。
李志飞
出门问问 ceo
很多 openai 的粉丝说,闭源的 openai 一定会碾压所有人,遥遥领先。实际上,开源的 llama 正在快速追赶。正如谷歌泄露出来的内部信中提到的,大模型技术本身并没有壁垒,开源总有一天会迎头赶上。未来,开源一定会与闭源并存,甚至分庭抗礼,这是关于大模型发展趋势的另一个基本认知。
未来的大语言模型将如何演进?
如果类比于人类发展的角度看,目前的语言模型仅解决了语言的问题,而人类是一个多模态的动物,人们在交流的时候会发生表情、神态、动作等诸多变化,也会观察周边的环境不断自我调整,这是一个多模态交互过程,所以未来的大语言模型显然要向多模态发展。
其次人是一个自主的智能体,可以自我学习和迭代,同时还会进行多 agent 互动,所以从多模态到 agent,再到多 agent 互动一定是未来通往 agi 的三大阶段。
agi 一定会对这个时代产生重要影响,未来五年,我看不到任何一个行业不会被大模型影响。无论是什么行业,包括物流、供应链、硬件等各种看起来和大模型没有直接关系的行业,都将受到影响,希望我们能够一起拥抱 agi,把 agi 应用到我们的领域,做出自己的贡献。make agi accessible!
如果我们认为大模型不是一个月、一年的事情,而是五到十年的长期主义的事情,无论是心态、体力上这就是一场持久战。如果现在就把精力消耗完,后续可能会续航不足。所以我认为在兴奋之后,更应理性去判断,怎样能够长期跑下去。
周曦
云从科技董事长
接下来期待不同场景的「ai 精灵」(ai-agent)爆发。这和云从的长期目标是一致的。
如果说人工智能远景是打造一个具备「四肢躯干」和「大脑」的机器,那云从要做的,就是用技术创新赋予「躯干」灵魂,打造有竞争性的「神经」和「大脑」,让 ai 具备人机协同能力,真正成为各行业的专家,全面提升效率和用户体验。
举个例子,医疗领域的关键痛点在于专家资源稀缺与病患需求海量。那么我们通过多模态大模型,结合造影图像与文字资料建立某个疾病的「医疗精灵」,协同医院的不同系统平台,如病例、门诊、药房等,用医疗专家的知识技能模型过滤掉并非重大病患的 90% 诊疗信息,就能够使得医疗专家可以集中处理 10% 关键问题,合理化医疗服务的同时最大化医疗资源的效用。
再比如,个人的「ai 精灵」,你只要告诉它,发送 xx 内容给某人,它就可以自动优化内容并启动通讯软件帮你发送,或者告诉它你需要阿勒泰旅游,它会自动检查你的日程,并为你制定旅行计划,启动订票软件预定机票和酒店(需要授权)。
周枫
网易有道 ceo
接下来大模型应用层会有更多的机会,chatgpt 这样的超级入口,midjourney 这样的垂直领域大 app,有道词典笔这样的基于大模型的硬件,以及 hugingface 这样的云平台和行业应用,每个领域都有创新机会。
大模型天然活配教育场景,对有道而言,我们会不断创新产品与功能,比如我们此前推出的虚拟人口语教练 hiecho、落地有道词典笔的「语法精讲」功能等,就是典型的利用大模型在应用场景上的创新尝试,相信在不久的将来用户可以看到更多令人惊喜的产品。