晋升业内新宠儿，MoE模型给了AI行业两条关键出路

2024-07-15 09:51 来源：A5专栏我来投稿撤稿纠错

文 | 智能相对论

作者 | 陈泊丞

今年以来，MoE模型成了AI行业的新宠儿。

一方面，越来越多的厂商在自家的闭源模型上采用了MoE架构。在海外，OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架构。

而在国内，昆仑万维推出的天工3.0、浪潮信息发布的源2.0-M32、通义千问团队发布的Qwen1.5-MoE-A2.7B、MiniMax全量发布的abab6、幻方量化旗下的DeepSeek发布的DeepSeek-MoE 16B等等也都属于MoE模型。

另一方面，在MoE模型被广泛应用的同时，也有部分厂商争先开源了自家的MoE模型。前不久，昆仑万维宣布开源2千亿参数的Skywork-MoE。而在此之前，浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等，也都纷纷开源。

为什么MoE模型如此火爆，备受各大厂商的青睐？在开源的背后，MoE模型又是以什么样的优势使各大主流厂商成为其拥趸，试图作为改变AI行业的利器？

MoE模型火爆的背后： 全新的AI解题思路

客观来说，MoE模型的具体工作原理更接近中国的一句古语“术业有专攻”，通过把任务分门别类，然后分给多个特定的“专家”进行解决。

它的工作流程大致如此，首先数据会被分割为多个区块（token），然后通过门控网络技术（Gating Network）再把每组数据分配到特定的专家模型（Experts）进行处理，也就是让专业的人处理专业的事，最终汇总所有专家的处理结果，根据关联性加权输出答案。

当然，这只是一个大致的思路，关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案，各家方案都不尽相同，也逐渐成为各家竞争的方向——谁的算法更优，便能在这个流程上拉开MoE模型之间的差距。

像浪潮信息就提出了基于注意力机制的门控网络（Attention Router），这种算法结构的亮点在于可以通过局部过滤增强的注意力机制（LFA, Localized Filtering-based Attention），率先学习相邻词之间的关联性，然后再计算全局关联性的方法，能够更好地学习到自然语言的局部和全局的语言特征，对于自然语言的关联语义理解更准确，从而更好地匹配专家模型，保证了专家之间协同处理数据的水平，促使模型精度得以提升。

基于注意力机制的门控网络（Attention Router）

抛开目前各家厂商在算法结构上的创新与优化不谈，MoE模型这种工作思路本身所带来的性能提升就非常显著——通过细粒度的数据分割和专家匹配，从而实现了更高的专家专业化和知识覆盖。

这使得MoE模型在处理处理复杂任务时能够更准确地捕捉和利用相关知识，提高了模型的性能和适用范围。因此，「智能相对论」尝试了去体验天工3.0加持的AI搜索，就发现对于用户较为笼统的问题，AI居然可以快速的完成拆解，并给出多个项目参数的详细对比，属实是强大。

天工AI搜索提问“对比一下小米su7和特斯拉model3”所得出的结果

由此我们可以看到，AI在对比两款车型的过程中，巧妙地将这一问题拆解成了续航里程、动力性能、外观设计、内饰设计、智能化与自动驾驶、市场表现与用户口碑、价格等多个项目，分别处理得出较为完整且专业的答案。

这便是“术业有专攻”的优势——MoE模型之所以受到越来越多厂商的关注，首要的关键就在于其所带来的全新解决问题的思路促使模型的性能得到了较为显著的提高。特别是伴随着行业复杂问题的涌现，这一优势将使得MoE模型得到更广泛的应用。

各大厂商争先开源MoE模型： 解决AI算力荒的另一条路径

开源的意义在于让MoE模型更好的普及。那么，对于市场而言，为什么要选择MoE模型？

抛开性能来说，MoE模型更突出的一点优势则在于算力效率的提升。

DeepSeek-MoE 16B在保持与7B参数规模模型相当的性能的同时，只需要大约40%的计算量。而37亿参数的源2.0-M32在取得与700亿参数LLaMA3相当性能水平的同时，所消耗的算力也仅为LLaMA3的1/19。

也就意味着，同样的智能水平，MoE模型可以用更少的计算量和内存需求来实现。这得益于MoE模型在应用中并非要完全激活所有专家网络，而只需要激活部分专家网络就可以解决相关问题，很好避免了过去“杀鸡用牛刀”的尴尬局面。

举个例子，尽管DeepSeek-MoE 16B的总参数量为16.4B，但每次推理只激活约2.8B的参数。与此同时，它的部署成本较低，可以在单卡40G GPU上进行部署，这使得它在实际应用中更加轻量化、灵活且经济。

在当前算力资源越来越紧张的“算力荒”局面下，MoE模型的出现和应用可以说为行业提供了一个较为现实且理想的解决方案。

更值得一提的是，MoE模型还可以轻松扩展到成百上千个专家，使得模型容量极大增加，同时也允许在大型分布式系统上进行并行计算。由于各个专家只负责一部分数据处理，因此在保持模型性能的同时，又能显著降低了单个节点的内存和计算需求。

如此一来，AI能力的普惠便有了非常可行的路径。这样的特性再加上厂商开源，将促使更多中小企业不需要重复投入大模型研发以及花费过多算力资源的情况下便能接入AI大模型，获取相关的AI能力，促进技术普及和行业创新。

当然，在这个过程中，MoE模型厂商们在为市场提供开源技术的同时，也有机会吸引更多企业转化成为付费用户，进而走通商业化路径。毕竟，MoE模型的优势摆在眼前，接下来或许将有更多的企业斗都会尝试新的架构来拓展AI能力，越早开源越能吸引更多市场主体接触并参与其中。

但是，开源最关键的优势还是在于MoE模型对当前算力问题的解决。或许，随着MoE模型被越来越多的企业所接受并应用，行业在获得相应AI能力的同时也不必困顿于算力资源紧张的问题了。

写在最后

MoE大模型作为当前人工智能领域的技术热点，其独特的架构和卓越的性能为人工智能的发展带来了新的机遇。不管是应用还是开源，随着技术的不断进步和应用场景的不断拓展，MoE大模型有望在更多领域发挥巨大的潜力。

MoE模型的本质在于为AI行业的发展提供了两条思路，一是解决应用上的性能问题，让AI有了更强大的解题思路。二是解决算力上的欠缺问题，让AI有了更全面的发展空间。由此来看MoE模型能成为行业各大厂商的宠儿，也是水到渠成的事情。

*本文图片均来源于网络

此内容为【智能相对论】原创，

仅代表个人观点，未经授权，任何人不得以任何方式使用，包括转载、摘编、复制或建立镜像。

部分图片来自网络，且未核实版权归属，不作为商业用途，如有侵犯，请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能十万个为什么》

•【重点关注领域】智能家电（含白电、黑电、智能手机、无人机等AIoT设备）、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: ai智能

从“+AI”到“AI+”，时代进入“Next Level”

“创新的速度比创新本身更重要。”埃隆·马斯克曾这样说到。近日，由马斯克所掌舵的特斯拉，在2024年世界人工智能大会上正式推出了第二代Optimus（擎天柱）人形机器人，距离第一代面世，仅过去9个月。加速升级的人形机器人不负所望，成了今年WAIC大会（世界人工智能大会）的一大看点。除此以外，今年的WA

标签：

ai智能
OpenAI这个盘，阿里云们能接得住吗？

降价，抢客……国产大模型跑起来了

标签：

阿里云

ai智能
OpenAI断供，国产大模型百亿市场纷争再起

北京时间6月25日凌晨，多个地区的OpenAI用户收到了一封来自官方的邮件。邮件显示：“您所使用的APl流量来自OpenAl目前不支持的地区。我们将从7月9日开始采取额外措施，阻止来自不在我们支持的国家和地区列表中的地区的APl接口。”所谓的API，就是应用程序编程接口。开发者通过使用OpenAI的

标签：

ai智能

大模型
如何加速AI原生应用进程？华为云开天aPaaS提出新范式

每一次新旧代际转换时，都会上演这样的一幕：“畅想很多，落地很少”，AI原生应用似乎也不例外。关于AI原生应用的呼声已经持续一段时间，但普通用户对“AI原生”依然陌生。除了新业态普及的周期性，AI原生应用的爆发与否还涉及另一个议题，即怎么降低AI原生应用开发的难度和门槛。刚刚结束的华为开发者大会202

标签：

ai智能
搞AI？中小企业拿什么和大厂拼？

近期，苹果发布M4芯片，号称“比当今任何AIPC的任何神经引擎都强！”紧随其后微软携“Copilot+PCs”的概念加入AIPC激战。截至目前，包括联想、惠普、华为等多家主流PC厂商在内，已经至少推出了超50款AIPC产品。AI重塑行业的机遇，谁都不想错过。对于企业来说，能否积极拥抱AIPC十分关键

标签：

ai智能

吴林林专访黄锦辉：年轻人要像懂中文一样懂A

2025国际人工智能程序设计精英挑战赛(IAEPC)在香港中文大学成功举办。来自深圳的学生吴林林作为主办方记者团成员,采访了大会嘉宾:全国政协委员、香港特别行政区立法会议员、香港中文大学工程学院副院长、IAEPC联合发起人黄锦辉先生。在吴林林的采访中,黄锦辉教授勉励年轻人要像懂中文和英语一样懂AI,
本以为DeepSeek天下无敌了，没想到Manus更猛

昨天新出了一个AI，据说比DeepSeek还牛，而截止到今早，已经有10万人在排队申请Manus邀请码了，而且它邀请码已经炒到10万了。这是北京的一家人工智能公司蝴蝶科技，创始人是一名来自华中科技大学的90后毕业生肖弘，突然向全球宣布：世界上第一款真正的人工智能、通用智能体产品出现了，名叫Manus

标签：

ai智能
别让DeepSeek成了造谣者的“白手套”

谣言肆虐，擦亮眼睛
库克已纳投名状：苹果AI没得选，只能选百度

苹果16弄了两个版本，一个是专门给中国人用的，准备用百度的AI，还要交钱。第二个是全世界都可以用的，用了ChatGPT，包括台湾、香港、澳门都可以用。以后都这样了。好，问题就出在这，苹果和百度的合作出现问题了，新闻连起来看，才能明白其中含义。新闻一：苹果正在和腾讯、字节初步接洽，考虑将二者的AI模型

标签：

苹果AI

百度AI

库克
AI加速时代的“进度条”，我们拨动了百分之几？

“技术日新月异，人类生活方式正在快速转变，这一切给人类历史带来了一系列不可思议的奇点。我们曾经熟悉的一切，都开始变得陌生。”计算机之父约翰·冯·诺依曼曾这样说到。

标签：

ai智能
AI视频赛道，要变天了

“毁灭你，与你何干？”，这是在刘慈欣的科幻小说《三体》里用来形容人类与三体人之间的战争的一句话。

标签：

ai智能

“创造市场”与“算法进化”，中美AI竞速的岔路口

“人工智能的商业模式，是要创造一个市场，而非一个算法”。这是世界AI泰斗MichaelI.Jordan的观点。而当前的全球AI市场，占据主导地位的中美双方，却也走出了两条截然不同的技术路径，前者执着于前沿技术的探索，后者则发力应用优化和商业化落地。南辕北辙的两个方向，或许已经无法直接进行排位先后、优

标签：

ai智能
智能体进化发展了一年，现在的RPA Agent迭代到什么程度了？

智能体进化发展了一年，现在的RPAAgent迭代到什么程度了？从实在智能最新发布的实在Agent7.0，看RPAAgent的迭代升级抓取豆瓣信息、自己制作PPT，这款AIAgent真的实现了流程全自动化AIAgent构建到执行全自动化，持续进化RPAAgent再次降低智能体应用门槛实在智能重磅发布实
崔大宝：大模型降温背后的难点、卡点、节点

崔大宝｜节点财经创始人进入2024年，大模型似乎有熄火之势：资本市场，与之关联的概念炒不动了，英伟达股价动辄暴跌重挫，引发“泡沫戳破”的担忧；消费市场，BATH们的推新活动少了，产品更新迭代的速度慢了，民众的关注度降了……热闹的大概只剩下两场酣仗：自5月15日字节跳动宣布“以厘计费”，打响国内大模型

标签：

大模型
这一届“出道”的数字人，已经拿捧上了“铁饭碗”

文|智能相对论作者|陈泊丞好消息！你心心念念的事业单位发录取公告了！坏消息！他们没录你，录了个数字人。图片来源网络随着数字人技术的突破，越来越多的传统企业和机构开始用上了“数字员工”。甚至很多中国人心心念念的“铁饭碗”，也被这些数字人给捧上了。数字人捧上了“铁饭碗”简单翻看一下全国各地事业单位的“录

标签：

数字人

加载更多

晋升业内新宠儿，MoE模型给了AI行业两条关键出路

相关文章

从“+AI”到“AI+”，时代进入“Next Level”

OpenAI这个盘，阿里云们能接得住吗？

OpenAI断供，国产大模型百亿市场纷争再起

如何加速AI原生应用进程？华为云开天aPaaS提出新范式

搞AI？中小企业拿什么和大厂拼？

吴林林专访黄锦辉：年轻人要像懂中文一样懂A

本以为DeepSeek天下无敌了，没想到Manus更猛

别让DeepSeek成了造谣者的“白手套”

库克已纳投名状：苹果AI没得选，只能选百度

AI加速时代的“进度条”，我们拨动了百分之几？

AI视频赛道，要变天了

“创造市场”与“算法进化”，中美AI竞速的岔路口

智能体进化发展了一年，现在的RPA Agent迭代到什么程度了？

崔大宝：大模型降温背后的难点、卡点、节点

这一届“出道”的数字人，已经拿捧上了“铁饭碗”

热门排行

编辑推荐