一个神秘磁力链接，成了开源大模型社区的新宠-凯发app

产业

一个神秘磁力链接，成了开源大模型社区的新宠

来源：量子位
2023-10-10 19:05

里面是来自法国的开源大模型mistral-7b，大家试用下来，觉得llama 2都不香了。

一个神秘磁力链接，成了开源大模型社区的新宠。

里面是来自法国的开源大模型mistral-7b，大家试用下来，觉得llama 2都不香了。

有开发者建议，代码之外的数据微调，34b以下规模先试试它就对了。

也有公司开始把它用在简历自动解析和评估业务上。

想基于mistral创业的更是大有人在。

发布不到2周，配套生态也迅速发展起来，如何在单卡上微调的教程有了。

各种基础设施和工具链也添加了对mistral-7b的支持。

专用于代码补全的微调版本也有人搞出来了。

甚至有人基于它微调了一个神秘学玄学大模型，也很受欢迎。

与meta刚刚发布llama的时候，迅速出现各种其他驼和神兽，发展成大模型动物园的场景太像了。

mistral这个单词在法语里代表冬季的一种强风。

羊驼们，准备好过冬了吗？

mistral为什么火了？

先上总结，综合官方公告和社区反馈，主要有5个方面：

性能更强，硬件需求更少，有2023年的知识，安全对齐没那么离谱，开源协议更宽松，

目前最好的7b模型

根据官方发布公告，mistral 7b在所有尝试过的评测基准中超过llama 2 13b。

并在代码、数学和推理评测中超过llama 1 34b。

另外代码任务上的表现接近专门的codellama 7b，同时保留了自然语言能力。

上下文窗口也达到了8k。

更详细的测评数据如下。

笔记本轻松跑

以小胜大，意味着取得相似的效果硬件需求更少。

官方也特别说明用了各种优化手段，flashattention，grouped-query attention，sliding window attention一起上。

现在已经看到很多开发者晒自己在苹果笔记本跑起来的经验。

量化后只需要6g显存。

训练数据更新

官方没有具体说明训练数据截止日期。

但经网友测试，2023年3月openai发布gpt-4的事它也知道。

相比之下llama 2的预训练数据截止到2022年9月，只有部分微调数据最多到2023年6月。

实用性更强

llama 2的安全对齐措施非常充分严格，甚至损失了一部分实用性。

比如拒绝回答如何“杀死”一个linux线程，只能说过于礼貌也是一种不礼貌了。

还有创业者根据自己经历总结了3点是mistral-7b能做但llama 2做不好的。

他做的是检索复杂sql语句，对比测试发现llama 2 13b有几个缺点：

即使提供少样本示例，也会在结构化输出中插入评论会在时间字段上出错在数据结构定义ddl中如果有多个表，总是漏掉至少一个表

而mistral-7b具体效果还在测试中，至少这些问题都不存在。

另外mistral-7b还非常适合用来微调，官方也出了经过指令微调的聊天版本作为补充。

开源协议更宽松

mistral基于非常宽松的apache2.0协议开源，免费，允许商业使用、修改和分发。

相比之下meta为llama 2准备的协议，甚至被开源界批评为严格来讲不算真正的开源。

比如有附加商业条款，月活超过7亿的产品或服务需要单独申请许可，这条主要针对大公司。

针对个人和小公司的也有不能使用llama生成的结果来改进其他模型等。

欧洲的openai

mistral ai成立于今年5月，总部法国巴黎，3位创始人是deepmind和meta前员工，

外界将这家公司看成是欧洲的openai。

当初刚成立4周还没有产品时，就靠6个员工7页ppt拿到超过1亿美元融资，当时还引起一番争议，被当成是ai泡沫的代表。

mistral ai最初计划在2024年发布首个大模型，没想到刚到9月底就已拿出成果，团队也扩大了不少。

三位联合创始人中，ceoarthur mensch此前在deepmind巴黎工作。

ctotimothée lacroix和首席科学家guillaume lample则在meta共同参与过llama系列的研发，lample是通讯作者之一。

事实上llama初始团队中已有过半离职，其中marie-anne lachaux后来也加入了mistral ai。

有点子当年openai部分员工出走成立anthropic的意思了，历史总是惊人的相似。

mistral ai接下来也会继续推出规模更大的模型，增强推理能力以及多语言能力。

如果你对mistral-7b感兴趣，可以在perplexity或huggingchat试玩。

labs.perplexity.ai

https://huggingface.co/chat

还有一个与llama 2同台竞技的小游戏可玩。

https://llmboxing.com

下载模型也可以去hugging face。

https://huggingface.co/mistralai

[4]https://twitter.com/teknium1/status/1710505270043189523

一个神秘磁力链接，成了开源大模型社区的新宠-凯发app

一个神秘磁力链接，成了开源大模型社区的新宠

关键词

相关阅读

国内外各大科技企业展开制造ai大模型的热潮

虚拟数字人正在成为电商界的新宠

大模型的幻觉问题，又有新的解决方法了！

数智孪生致力用vr技术链接万物，创造智慧数字孪生世界

酒店业该如何链接元宇宙

baichuan 2开源模型发布之后，用llama 2作为开源模型的时代就已经过去了

盘古大模型3.0正式掀起行业高潮！

ai大模型难救商汤：巨额亏损，再爆裁员

中央网信办罗锋盈：将海量数据转换为真正能为大模型训练所用的数据是工作重点

24快报

chao起大鲍岛，畅游元宇宙，体验里院“一天一百年”

中日韩元宇宙高尔夫跨国明星赛，打造亚洲数字竞技新高度

利亚德参展国际“声光视讯显元宇宙”全产业盛会

工商银行申请基于元宇宙的资源转移专利，提高了资源转移的效率和

重庆渝中区：数字化演绎传统经典将国风之美融入元宇宙

全球首个国家级“元宇宙”平台沙特上线主要用于在线旅游

沙特推出世界首个国家级“元宇宙”平台，用户可线上游览当地景点

《元梦之星》元宵节再上央视，星搭子们在“小小元宇宙”共庆佳节

捷安高科：为河南省元宇宙协会副会长单位及专精特新中小企业，获

乐华娱乐签约元隆雅图开展ip衍生品及元宇宙等方面合作

ude2024盛大开幕，开年首展蓄势声、光、视、讯、显、元宇宙六大

重庆：4200 亿元，支持企业研发元宇宙产品，打造特色产业园

周鸿祎：“元宇宙”概念明年可能会东山再起

借力roblox东京造本土元宇宙名片，国内文旅可以学到什么

sora“加速”元宇宙发展，sora 一站式3d数字内容创作工具，将成

北京首个元宇宙“沉浸式”红色主题教育课程开讲

何鸿婷郑一卉：对我国新闻传播学元宇宙研究的反思

sora 一站式3d数字内容创作工具,元宇宙的内容快速建构时代即将到

元宇宙的喜与忧

开启元宇宙的“钥匙”有了合肥造合肥加快打造具有国际领先优势