用MoE技术和开源模型建立差异化 Mistral AI获4.15亿美元融资

原文来源:阿尔法公社

图片来源:由无界 AI生成

12月8日,Mistral AI在X(原Twitter)上发布了一条磁力链接,直接开源了自己最新的MoE(Mixture of Experts)大模型Mixtral 8x7B,这个模型不仅在测试成绩上追平甚至超越了Llama 2 70B和GPT-3.5,也带动MoE(Mixture of Experts)成为开源AI社区的最火议题。

伴随着这个模型的开源,Mistral AI完成了自己的最新一轮融资,这轮融资由a16z和Lightspeed Venture Partners领投,总金额约合4.15亿美元。根据彭博社报道,这一轮中,英伟达和Salesforce也承诺以可转换票据的形式参与投资,金额1.2亿欧元。这使得Mistral AI的估值达到约20亿美元,自6月份首次亮相以来,其估值已增长超过七倍,成为欧洲最成功的大模型公司。

在今年6月,Mistral AI获得1.05亿欧元(约合1.13亿美元)的种子融资,由Lightspeed Venture Partners领投,众多欧洲投资机构及前谷歌首席执行官Eric Schmidt、法国亿万富翁Xavier Niel和法国广告巨头JCDecaux参投。

为什么这家22人的创业公司可以短时间内连获两轮大额融资?一方面,它由来自DeepMind和MetaAI的技术专家组建了“世界级团队”,并用高性能和高效率的开源AI模型证明了自己的实力和潜力。另一方面,它为法国和欧洲提供了自主可控AI的机会,其开源路线也让企业开发者有了更多的选择。

DeepMind与llama核心技术专家联手建立欧洲自己的OpenAI

Mistral AI的三位联合创始人是来自DeepMind的Arthur Mensch(CEO)及MetaAI的两位资深技术专家Timothée Lacroix(CTO)和Guillaume Lample(首席科学家)。

Arthur Mensch参与了Deepmind的多个经典的模型:Flamingo(重要的多模态模型)、Chinchilla、Gopher,他是Flamingo和Chinchilla的核心贡献者,对多模态、RAG等技术有深刻的理解。

Timothée Lacroix和Guillaume Lample是MetaAI的llama系列开源大模型的核心研究人员。其中Timothée Lacroix在Meta有8年工作经历,对于AI模型推理和嵌入模型有深入研究,Guillaume Lample则对模型的推理能力和预训练有丰富经验。

Mensch介绍,三位创始人联合创立Mistral AI,其使命是让生成式AI为所有企业所用。“目前我们已经证明了AI的能力,但是它仍然不够普及,我们需要解决这个问题,为更多人提供易于使用的AI和工具,以创造自己的产品。”Mensch表示。

Mistral AI在其博客文章中表述了做开源AI模型的初衷:“我们相信对于生成式AI,采取开放方式是必要的。

我们坚信,通过训练我们自己的模型,公开发布它们,并促进社区贡献,我们可以构建一个可信的替代方案,对抗正在形成的人工智能寡头垄断。开放权重的生成式AI模型将在人工智能革命中发挥关键作用。”

而OpenAI和谷歌等走闭源路线的大公司则认为,将大模型开源是有危险的,这可能导致底层大模型被“坏人”掌握,并被做成恶意工具。

OpenAI和谷歌也以身作则,花费数月时间为大模型开发安全防护措施,以确保它们不能被用来传播虚假信息和仇恨言论,或生成有偏见的问题回答。

a16z的合伙人Anjney Midha在接受《纽约时报》采访时表示:“我们相信人工智能应该是开放的,开源方法已成为除计算机操作系统、编程语言、数据库等几乎所有其他技术领域的常态。”

Lightspeed的合伙人Antoine Moyroud在接受TechCrunch采访时则说:“支持Mistral AI的一个原因是其创始人对生成式AI的愿景,以及知道何时何地应用这一技术。这是一个非常有才华的团队,我们认为,目前全球只有大约70-100人拥有他们在语言模型及其优化方面的专业知识。”

用开源的MoE模型以小博大

翻开Mistral AI的X(原Twitter)页面,最上方的两条内容都是磁力链接,这代表了他们对两个模型的开源。

Mistral 7B初试啼声

今年9月,Mistral AI发布了其首个语言模型Mistral 7B,拥有73亿参数,它在基准测试中成绩超过了Meta的Llama 2等参数更大的先进开源模型。

据Mistral AI的CEO Mensch表示,他们为其LLM设计了一种更高效、更具成本效益的训练方法,其模型的运营成本不到OpenAI或谷歌最佳大模型的一半。

Mistral 7B在所有基准测试中超越了Llama 2 13B ,在许多基准测试中超越了Llama 1 34B ,在代码性能上接近CodeLlama 7B,同时在英语任务上表现良好。

Mistral 7B分组查询注意力(GQA)以实现更快的推理 使用滑动窗口注意力(SWA)以较小的成本处理更长的序列。

最重要的是,该模型是在Apache 2.0许可下发布的,这是一种高度宽松的方案,除了归属之外没有使用或复制的限制。这意味着,无论是业余爱好者、数十亿美元的大公司,只要他们有能力在本地运行该系统,或愿意支付所需的云资源费用,都可以使用该模型。还可以在HuggingFace上使用 Mistral 7B针对任何任务进行微调。

Mistral团队表示,他们在训练Mistral 7B的同时,重建了顶级性能的MLops堆栈,并从零开始设计了最复杂的数据处理管道。

Mixtral 8x7B展现实力

12月,Mistral AI再次发布一条磁力链接,开源了他们的MoE(Mixture of Experts)大模型Mixtral 8x7B。Mixtral 8x7B是一款具有开放权重的尖端稀疏专家混合模型(SMoE),它具有32k Tokens的上下文能力以及对包括英语、法语、意大利语、德语和西班牙语在内的多种语言的支持,它同样采用Apache 2.0许可证进行开源。

MoE(Mixture of Experts)在Transformer模型中的应用主要是为了提高模型的处理能力和效率。MoE通过将大型模型分解为多个“专家”子模块来实现这一点。每个专家负责处理输入数据的一个特定方面或子集。

在MoE架构中,每个专家可能是一个小型的Transformer模型,专门处理特定类型的输入数据。例如,一个专家可能专注于处理自然语言的语法结构,而另一个专家可能专注于理解语义内容。

MoE架构中的一个关键组成部分是门控机制,它决定了哪些专家应该被用于处理特定的输入数据。这种机制可以基于输入数据的特性来动态选择最合适的专家组合。

通过使用MoE,Transformer模型可以更有效地扩展到大规模数据集和复杂任务。这是因为它允许模型仅激活和使用处理特定输入最相关的专家部分,而不是整个模型。

具体到Mixtral 8x7B,它是一个仅限解码器的模型,其中前馈块从8组不同的参数集中选择。在每一层,对于每个标记,一个路由网络选择这些组中的两组(“专家”)来处理标记,并将它们的输出以加法方式结合。

它拥有46.7B的总参数量,但每个token只使用其中12.9B参数。因此,Mixtral的实际执行速度和所需的成本,都只相当于一个12.9B的模型。

在性能上,它在大多数基准测试中超越了目前开源大模型的标杆Llama 2 70B,并且与GPT3.5不相上下,在总共7项对比测试中,它获得4项测试的最高分数。

在另一项包含Mistral 7B的测试中,可以看出,Mistral 7B的分数几乎总是高于Llama 2 7B甚至Llama 2 13B,而Mixtral 8x7B相对Llama 2 70B也有非常明显的优势,再考虑到Mixtral 8x7B在推理成本上的优势(比Llama 2 70B快6倍),这个对比的结果更加明显。

大模型的幻觉和偏见内容是评判其可用性的重要指标,Mixtral 8x7B在TruthfulQA、BBQ、BOLD等相关基础测试上获得了比Llama 2 70B明显更优的结果。Mixtral在TruthfulQA基准测试中更为真实(73.9%对比50.2%),并且在BBQ基准测试中表现出更少的偏见,Mixtral在BOLD上展现出比Llama 2更多的积极情绪。

Mixtral还推出了 8x7B Instruct,这个模型通过监督式微调和直接偏好优化(DPO)进行了优化,以便精确地遵循指令。在MT-Bench上,它达到了8.30的分数,使其成为最好的开源模型,其性能可与GPT3.5媲美。

可用性和商业模式

目前,Mistral AI开放了首个平台服务的测试版—la plateforme。平台提供了三个基于指令生成文本的聊天模型,以及一个嵌入模型。

Mistral-tiny和Mistral-small已经正式发布,而性能更强的mistral-medium还处在测试阶段。这些模型在开放网络抽取的数据上进行预训练,随后通过标注进行指令微调。

Mistral-tiny基于Mistral 7B Instruct v0.2,Mistral-small基于Mixtral 8x7B,Mistral-medium还在测试中,不过其性能非常值得期待。

除此之外,MistralAI还开放了API,其模型也能在 Hugging Face、Poe、Replicate等平台上直接使用。

那么做开源的Mistral AI商业模式是什么呢,很有可能是现阶段开源模型可以免费使用,但是在后期可能推出更大性能更强的模型,并以API的方式收费。

鉴于Mistral AI对于底层技术的理解深度和创新,他们也可能搭建AI定制化平台,为企业用户提供微调,RAG,定制化等服务。

Mistral AI在一篇博客中写道:“我们的商业产品将作为白盒解决方案分发,使权重和代码源都可用。我们正在积极开发托管解决方案和专门针对企业的部署。”

创业公司做开源大模型的意义在哪里?

创始人的基因决定了企业的基因,Mistral AI的创始人们来自llama团队和DeepMind,本身就具有开源的基因,这一定程度上促使他们采用开源的战略。而且因为创始团队和技术团队能力的强大,它们的小模型和MoE模型不仅拥有超强的性能/参数比,而且在推理成本上有明显的优势。

并且这种“小模型”的策略,是有意为之,Mistral AI的创始人Mensch认为,小模型有助于Agents的开发和应用,因为如果在GPT-4上运行 Agents,推理成本会很高,很容易很快就耗光资金。但如果能通过小模型将Agents运行的计算成本降低100倍,那么就有机会构建很多有意思的应用了。

除了开源、小模型、MoE技术外,Mistral AI的另一个差异化是它面向的欧洲市场。

一方面,欧洲拥有超过100家的500强公司,多集中在传统行业如汽车、石油和天然气、制药、电信、银行等。它们拥有足够的付费能力,且对先进技术解决方案有强烈的需求。

另一方面,欧洲有特殊的经营环境,主要表现在更严格的监管和技术透明度要求,例如GDPR和欧盟AI法案等。身处欧洲的AI独角兽,更有可能适应这些法规,并有可能获得更多支持。

llama2的开源本身对于生成式AI的应用生态就是利好,帮助AI应用公司节省了巨量的模型预训练成本。现在有Mistral AI这样既开源,又能让小模型有超强性能,还能用MoE模型去媲美更大尺寸模型的先进AI技术公司,这对于AI应用的发展将起到更大的推动作用。