不是OpenAI也不是Google,这家估值20亿美元的小公司成了AI社区的最爱

文章来源:品玩

作者:张潇雪

顶级AI天才组团逆袭,最接近OpenAI初衷的一集。

图片来源:由无界 AI生成

说起现在世界上顶级大模型和生成式AI的缔造者,除了OpenAI、谷歌、Meta、Anthropic这些名字,如果只把目光投向硅谷,那知识库可能真的该更新了。

最近在法国巴黎,一家成立才半年,仅有22名员工的AI初创公司异军突起,宣布完成3.85亿欧元(合4.15亿美元)A轮融资,投资方包括a16z、光速创投、Salesforce和法国巴黎银行等著名机构。它的估值也因此在短短六个月内增长了七倍多,突破20亿美元,轻松跻身独角兽行列,创下开源公司史上最快融资记录。

这家公司的名字就是 Mistral AI,今年5月由Meta和Google DeepMind前员工创立。专注于开发生成式AI技术,特别是用于构建在线聊天机器人、搜索引擎和其他人工智能驱动产品。

值得一提的是,成立仅一个月,还没有公布产品、彼时只有6名员工的Mistral AI,就曾凭借7页PPT“神话”般拿下1.13亿美元种子轮融资,轰动整个欧洲AI行业。

作为目前最炙手可热的业界新星,Mistral AI被认为是少数几家能与OpenAI技术相媲美的AI公司之一。但与OpenAI并不 ‘Open’相反,Mistral AI一直坚持推广开源软件方法,允许用户自由复制、修改和再利用其计算机代码,为外部开发者提供他们需要的一切。以“引领开放模型革命”为公司使命,正面对抗OpenAI、谷歌等走闭源路线的AI巨头。

而规模这么小的Mistral AI,是如何用其高效能的强大AI模型征服十几家头部VC,又如何践行开源理念,赢得广大开发者社区潮水般的支持和肯定?这些都与公司的创始团队有分不开的联系。


世界级技术专家联手打造欧洲“开源版OpenAI”


Mistral AI的三位联合创始人中,首席执行官Arthur Mensch(中)曾任Google DeepMind的研究员,参与了包括Flamingo、Chinchilla、Gopher在内的多个DeepMind经典模型,也是Flamingo和Chinchilla的核心贡献者,对多模态、RAG、算法优化等技术有深刻理解。

首席技术官Timothée Lacroix(右)和首席科学家Guillaume Lample(左)此前都是Meta巴黎人工智能实验室的核心研究人员,两人对模型推理、预训练和模型嵌入有深入研究,是Llama和Llama2的核心技术贡献者,并发表过多篇重要学术论文。他们的前东家Meta也恰恰是鼓励开源的代表公司之一。

公司员工喜欢开玩笑说,创始人姓氏的首字母连起来是「L.L.M.」,正是大型语言模型的缩写,仿佛预示了Mistral的诞生与宿命。

而这支年轻的团队本身也具备了顶尖AI公司人才的典型特质:以科学家为主、研究能力强、技术栈互补且全面。其中7人来自Meta(4位是 Llama 参与者),3人来自Hugging Face,2人来Deepmind,大部分都参与过知名大语言模型项目开发。

此外,还有曾在麦肯锡任职12年、并帮助法国SaaS独角兽Mirakl从B轮成长到E轮的首席商务官Florian Bressand、前法国数字事务国务秘书的顾问Cédric O为这个科学家主导的公司保驾护航。

团队精干高效、配合紧密,在各个环节上都有擅长的专家。这种清晰的团队构成和技术为先的实干型科学家属性也映射到了Mistral AI的行事风格和产品上。


一条“直给式”磁力链接,带来开源模型新王者


两周前,Mistral AI就在没有预告、没有官方博客、没有Demo的情况下,在社交平台X甩出一条磁力链接,发布了引爆开源社区的首个 MoE 开源模型 Mixtral 8x7B。

没有 OpenAI一贯的暧昧戏码和花式推拉、也没有Google发布Gemini时精心剪辑的“特效视频”,甚至连一句介绍语都没有。Mistral AI的官宣方式如此朴实无华,简单粗暴。秉持着“能干成一件事儿就绝不跟你多废话一个字”的作风,成为AI圈特立独行的“一股清流”。

网友心说这种新品发布方式也太独特了,下次不得直接隔空投送?还有人都有点看不下去:“你们搞错了,应该先发一个长博客,别带模型”,这是顺带把谁家也反讽了一把。

当然更多的开发者是兴奋,当即表示自己的周末“毁了”,因为迫不及待要马上去下载来运行试试。

这里简单解释一下MoE,全称为Mixture of Experts(混合专家模型),就是把复杂的分析预测任务分割成一系列更小、更容易处理的子任务,每个子任务由符合该特定领域的“专家”负责。MoE架构不仅能提高模型处理信息的效率,还降低了运行成本。

据说OpenAI从去年开始就在用这种方法来训练GPT-4, Mistral AI则正是致力于为企业提供一种“无限接近”GPT-4的开源选择。

具体到链接里的Mixtral 8x7B,总参数为46.7B,但每个令牌只使用12.9B。因此,它以与12.9B模型相同的速度和成本处理输入并生成输出。Mistral 8x7B拥有32k Tokens上下文长度,支持英语、法语、意大利语、德语和西班牙语。在代码生成方面表现出色,还支持微调为指令跟随模型,并采用 Apache 2.0 许可证开源商用。

性能方面,Mixtral 8x7B在大多数基准测试上都超越了700亿参数的Llama 2 70B,推理速度提高6倍。在模拟真实世界对话场景、评估大语言连贯性和信息丰富的MT-Bench测试中,它达到了8.30的分数,其性能可与GPT3.5媲美,成为最好的开源模型。

商业和科技网站ReadMultiplex创始人、著名科学家Brian Roemmele在推特称Mixtral 8x7B的开源是 “自Meta首次发布LaMMA以来最重要的时刻之一”,是“令人震惊和里程碑式创新”。

并且已经有人基于它微调了一个完全自由和开放的模型dolphin-2.5-mixtral-8x7。会“回应所有用户的指令,不会带有任何评判性。不会对你施加任何道德标准,并会展现互联网上的所有可用信息。”再也不会遇到“作为一个AI助手,我不能…”的问题。

网友们更是为Mistral AI各种花式打call,盛赞Mistral AI是“地球上最真诚和忠于初心的团队”,真正为开发者办实事,令“Open”AI终于变成了现实。

一条简单到不能再简单的磁力链接就这样点燃整个AI社区。而返回去看Mistral AI的X账号页面,你会发现整个官推没有图片、没有视频,自注册以来总共就发布了三条内容。上一条还是团队9月份推出的开源模型Mistral 7B,同样只甩出了异曲同工的磁力链接。

这个由团队短短3个月内打造出的Mistral 7B,至今仍被业界认为是7-13B小模型中的佼佼者。它在几乎所有基准测试中都比Llama 2 13B 更优秀,还在代码、数学和推理方面赢过 LLaMA-1 34B。并且公司并非通过API开放Mistral 7B的访问权限,而是免费下载,使得开发者可以在自己的设备和服务器上运行它。

在第一条自报家门的推文中,Mistral AI依旧无心PR,画风是说不出的特别:“这是Mistral AI的官方账户,由@GuillaumeLample、@arthurmensch 和 @tlacroix6 新近创建的公司…我们的身份在推上已经被盗用了,这个才是真的 :)。”

这种专注搞技术的耿直风一下子就把网友们拿捏了。见惯了各种AI公司华丽的营销和侃侃而谈的自我包装,光是Mistral AI这个看上去用word制作出来的logo就圈粉无数。

也有人对Mistral AI喊话说,等你们有钱了,去雇一个厉害点儿的美工吧!

很显然,Mistral AI现在完全不差钱了。但作为一家从最开始就决心遵循开源发展的创业公司,它长远的盈利之路能跑通吗? 他们自己又是怎样看待技术发展上集中与去中心化的博弈?


坚持开源,“是过去更是未来”


在官网的公司介绍页面上,Mistral AI称这是一个行动迅速、高工作强度和透明度的团队,使命是将强大的生成式AI技术带给最广泛的软件开发者和企业用户社区,以应用为驱动,让模型真正对现实世界有所帮助。并希望成为开放式AI社区的领先支持者,将开源模型带到最先进的性能水平。

许多像OpenAI和谷歌这样的竞争公司认为,让大模型算法开源是危险的,底层技术可能被滥用来传播虚假信息、仇恨言论和制造其它有害事物。他们只能在花费数月时间设置数字护栏后,以在线聊天机器人的形式向公众发布。

而 Mistral AI则认为,引领生成式AI革命必须开源。社区支持的模型开发才是接受严格审查和抗击偏见的最佳路径。通过训练和公开发布优越的模型,让开发者社区力量和更多成功的开源项目彼此驱动和优化,可以构建一个可信的替代方案,对抗新兴的AI寡头。

CEO Arthur Mensch在Greylock合伙人Sarah Guo的博客中表示,如果有人为了实现某些有害行为去做信息收集的话,可能反而是传统搜索引擎而不是 LLM 更容易实现这件事。禁止小公司开源,确实会令大公司更受益,但是这并不利于 AI 生态的整体发展。

同时Mensch也提到,在过去十几年间,计算机技术的重大变革——从网页浏览器、操作系统、编程语言到数据库——大多都得益于开源解决方案。事实上,直至2020年(GPT-3发布之前),几乎所有大型语言模型的研究都是公开且透明的。然而自2020年开始,随着某些公司在这一领域取得领先并意识到价值,情况就随之改变了。

“我们认为过早进入闭源阶段对科学发展是有害的”,Arthur Mensch说,“在一个不透明的环境中,大家可能会同时在一个任务上做投入,因为不能共享而导致大量资源浪费。”他也称开放权重模型可以精细地适应和解决各个行业垂直领域中的核心业务,开发者可以自定义他们想要的护栏和编辑语气,生成的内容也不再依赖API提供者的选择和偏见,而这些都是黑盒模型无法匹敌的。

这种开源共享精神,也自然在如今AI行业巨头垄断、小公司挣扎求生存的时代背景下,获得广大开发者的拥戴。人们表达着见证开源模型迅速赶上闭源模型的兴奋,认为“用更少做更多”正是开源生态系统最鼓舞人心的地方,并希望Mistral AI能随着新资金的注入加速开源领域创新。

“我们希望通过更开放地分享我们的技术,引导社区朝着更好、更安全的方向前进。我们的真正目标是占据领导地位,并改变游戏规则,因为当前的发展方向并不正确”,Arthur Mensch说道。


能不能既开源又“搞钱”?


据悉,Mistral AI还没开始盈利。而“开源”和“商业化”之间,似乎总存在着一定的张力。如何把两者有效融合,是把开源LLM公司做长远不能略过的问题。

目前Mistral AI 已基于其自研模型推出了 “La Plateforme”托管平台测试版,提供Mistral Tiny,Mistral Small 和 Mistral Medium三个模型类别。

其中Mistral 7B和 Mixtral 8x7B 分别属于 Mistral Tiny 和 Mistral Small,可供用户免费下载,而Mistral Medium还未开源。后期这个性能更强大的模型也许会以API调用的形式收费,或是为企业提供模型微调、RAG、定制化服务等。

另外说到市场,与OpenAI们瞄准美国和全球不同,Mistral AI将施展拳脚的舞台定位在了欧洲。

这里汇聚的大量世界财富500强公司不愁付费能力。相较于美国,欧洲多是传统行业,对新兴技术有着更迫切的需求。同时,欧洲对新技术的数据监管更加严格,对解决方案的开放透明度有着更高的要求,十分适合Mistral AI的开源策略。

除此之外,创始人Arthur Mensch也认为,欧洲在AI人才储备上具有独特优势,“这边非常擅长培养数学家,而数学家在AI研究中扮演着至关重要的角色。这些人多数更适应欧洲的生活,并不一定非得去美国。”

“因为 DeepMind 的原因,伦敦的 AI 生态肉眼可见地崛起了,紧接着会是巴黎。现在巴黎已经有几百家初创公司,虽然离硅谷还差得远,但我相信类似于湾区的那种飞轮也会在法国出现。”

他还在法国国家广播电台透露, Mistral AI明年将会发布一个开源的GPT-4级别模型。

在地理和气候学中,"Mistral" 是指吹过法国南部和地中海西北部的一种强劲、持久的寒冷北风。通常在冬季和早春期间吹拂,对当地的气候和环境有显著影响,有时会带来非常低的温度和晴朗的天空。

Mistral AI或许希望自己能像这股凌冽的寒风,在发展速度一日千里的人工智能时代,带来新鲜的思想、革命性的引领和强大的影响力。而一个全新的AI王者在距离硅谷上万公里以外的欧洲大陆崛起,也正是全球开发者喜闻乐见的。