1. 创业头条
  2. 前沿领域
  3. AI智能
  4. 正文

晋升业内新宠儿,MoE模型给了AI行业两条关键出路

 2024-07-15 09:51  来源:A5专栏  我来投稿 撤稿纠错

  域名预订/竞价,好“米”不错过

文 | 智能相对论

作者 | 陈泊丞

今年以来,MoE模型成了AI行业的新宠儿。

一方面,越来越多的厂商在自家的闭源模型上采用了MoE架构。在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架构。

而在国内,昆仑万维推出的天工3.0、浪潮信息发布的源2.0-M32、通义千问团队发布的Qwen1.5-MoE-A2.7B、MiniMax全量发布的abab6、幻方量化旗下的DeepSeek发布的DeepSeek-MoE 16B等等也都属于MoE模型。

另一方面,在MoE模型被广泛应用的同时,也有部分厂商争先开源了自家的MoE模型。前不久,昆仑万维宣布开源2千亿参数的Skywork-MoE。而在此之前,浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等,也都纷纷开源。

为什么MoE模型如此火爆,备受各大厂商的青睐?在开源的背后,MoE模型又是以什么样的优势使各大主流厂商成为其拥趸,试图作为改变AI行业的利器?

MoE模型火爆的背后: 全新的AI解题思路

客观来说,MoE模型的具体工作原理更接近中国的一句古语“术业有专攻”,通过把任务分门别类,然后分给多个特定的“专家”进行解决。

它的工作流程大致如此,首先数据会被分割为多个区块(token),然后通过门控网络技术(Gating Network)再把每组数据分配到特定的专家模型(Experts)进行处理,也就是让专业的人处理专业的事,最终汇总所有专家的处理结果,根据关联性加权输出答案。

当然,这只是一个大致的思路,关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案,各家方案都不尽相同,也逐渐成为各家竞争的方向——谁的算法更优,便能在这个流程上拉开MoE模型之间的差距。

像浪潮信息就提出了基于注意力机制的门控网络(Attention Router),这种算法结构的亮点在于可以通过局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),率先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,从而更好地匹配专家模型,保证了专家之间协同处理数据的水平,促使模型精度得以提升。

基于注意力机制的门控网络(Attention Router)

抛开目前各家厂商在算法结构上的创新与优化不谈,MoE模型这种工作思路本身所带来的性能提升就非常显著——通过细粒度的数据分割和专家匹配,从而实现了更高的专家专业化和知识覆盖。

这使得MoE模型在处理处理复杂任务时能够更准确地捕捉和利用相关知识,提高了模型的性能和适用范围。因此,「智能相对论」尝试了去体验天工3.0加持的AI搜索,就发现对于用户较为笼统的问题,AI居然可以快速的完成拆解,并给出多个项目参数的详细对比,属实是强大。

天工AI搜索提问“对比一下小米su7和特斯拉model3”所得出的结果

由此我们可以看到,AI在对比两款车型的过程中,巧妙地将这一问题拆解成了续航里程、动力性能、外观设计、内饰设计、智能化与自动驾驶、市场表现与用户口碑、价格等多个项目,分别处理得出较为完整且专业的答案。

这便是“术业有专攻”的优势——MoE模型之所以受到越来越多厂商的关注,首要的关键就在于其所带来的全新解决问题的思路促使模型的性能得到了较为显著的提高。特别是伴随着行业复杂问题的涌现,这一优势将使得MoE模型得到更广泛的应用。

各大厂商争先开源MoE模型: 解决AI算力荒的另一条路径

开源的意义在于让MoE模型更好的普及。那么,对于市场而言,为什么要选择MoE模型?

抛开性能来说,MoE模型更突出的一点优势则在于算力效率的提升。

DeepSeek-MoE 16B在保持与7B参数规模模型相当的性能的同时,只需要大约40%的计算量。而37亿参数的源2.0-M32在取得与700亿参数LLaMA3相当性能水平的同时,所消耗的算力也仅为LLaMA3的1/19。

也就意味着,同样的智能水平,MoE模型可以用更少的计算量和内存需求来实现。这得益于MoE模型在应用中并非要完全激活所有专家网络,而只需要激活部分专家网络就可以解决相关问题,很好避免了过去“杀鸡用牛刀”的尴尬局面。

举个例子,尽管DeepSeek-MoE 16B的总参数量为16.4B,但每次推理只激活约2.8B的参数。与此同时,它的部署成本较低,可以在单卡40G GPU上进行部署,这使得它在实际应用中更加轻量化、灵活且经济。

在当前算力资源越来越紧张的“算力荒”局面下,MoE模型的出现和应用可以说为行业提供了一个较为现实且理想的解决方案。

更值得一提的是,MoE模型还可以轻松扩展到成百上千个专家,使得模型容量极大增加,同时也允许在大型分布式系统上进行并行计算。由于各个专家只负责一部分数据处理,因此在保持模型性能的同时,又能显著降低了单个节点的内存和计算需求。

如此一来,AI能力的普惠便有了非常可行的路径。这样的特性再加上厂商开源,将促使更多中小企业不需要重复投入大模型研发以及花费过多算力资源的情况下便能接入AI大模型,获取相关的AI能力,促进技术普及和行业创新。

当然,在这个过程中,MoE模型厂商们在为市场提供开源技术的同时,也有机会吸引更多企业转化成为付费用户,进而走通商业化路径。毕竟,MoE模型的优势摆在眼前,接下来或许将有更多的企业斗都会尝试新的架构来拓展AI能力,越早开源越能吸引更多市场主体接触并参与其中。

但是,开源最关键的优势还是在于MoE模型对当前算力问题的解决。或许,随着MoE模型被越来越多的企业所接受并应用,行业在获得相应AI能力的同时也不必困顿于算力资源紧张的问题了。

写在最后

MoE大模型作为当前人工智能领域的技术热点,其独特的架构和卓越的性能为人工智能的发展带来了新的机遇。不管是应用还是开源,随着技术的不断进步和应用场景的不断拓展,MoE大模型有望在更多领域发挥巨大的潜力。

MoE模型的本质在于为AI行业的发展提供了两条思路,一是解决应用上的性能问题,让AI有了更强大的解题思路。二是解决算力上的欠缺问题,让AI有了更全面的发展空间。由此来看MoE模型能成为行业各大厂商的宠儿,也是水到渠成的事情。

*本文图片均来源于网络

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
ai智能

相关文章

  • 从“+AI”到“AI+”,时代进入“Next Level”

    “创新的速度比创新本身更重要。”埃隆·马斯克曾这样说到。近日,由马斯克所掌舵的特斯拉,在2024年世界人工智能大会上正式推出了第二代Optimus(擎天柱)人形机器人,距离第一代面世,仅过去9个月。加速升级的人形机器人不负所望,成了今年WAIC大会(世界人工智能大会)的一大看点。除此以外,今年的WA

    标签:
    ai智能
  • OpenAI这个盘,阿里云们能接得住吗?

    降价,抢客……国产大模型跑起来了

    标签:
    阿里云
    ai智能
  • OpenAI断供,国产大模型百亿市场纷争再起

    北京时间6月25日凌晨,多个地区的OpenAI用户收到了一封来自官方的邮件。邮件显示:“您所使用的APl流量来自OpenAl目前不支持的地区。我们将从7月9日开始采取额外措施,阻止来自不在我们支持的国家和地区列表中的地区的APl接口。”所谓的API,就是应用程序编程接口。开发者通过使用OpenAI的

    标签:
    ai智能
    大模型
  • 如何加速AI原生应用进程?华为云开天aPaaS提出新范式

    每一次新旧代际转换时,都会上演这样的一幕:“畅想很多,落地很少”,AI原生应用似乎也不例外。关于AI原生应用的呼声已经持续一段时间,但普通用户对“AI原生”依然陌生。除了新业态普及的周期性,AI原生应用的爆发与否还涉及另一个议题,即怎么降低AI原生应用开发的难度和门槛。刚刚结束的华为开发者大会202

    标签:
    ai智能
  • 搞AI?中小企业拿什么和大厂拼?

    近期,苹果发布M4芯片,号称“比当今任何AIPC的任何神经引擎都强!”紧随其后微软携“Copilot+PCs”的概念加入AIPC激战。截至目前,包括联想、惠普、华为等多家主流PC厂商在内,已经至少推出了超50款AIPC产品。AI重塑行业的机遇,谁都不想错过。对于企业来说,能否积极拥抱AIPC十分关键

    标签:
    ai智能
  • 智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?

    智能体进化发展了一年,现在的RPAAgent迭代到什么程度了?从实在智能最新发布的实在Agent7.0,看RPAAgent的迭代升级抓取豆瓣信息、自己制作PPT,这款AIAgent真的实现了流程全自动化AIAgent构建到执行全自动化,持续进化RPAAgent再次降低智能体应用门槛实在智能重磅发布实

  • 崔大宝:大模型降温背后的难点、卡点、节点

    崔大宝|节点财经创始人进入2024年,大模型似乎有熄火之势:资本市场,与之关联的概念炒不动了,英伟达股价动辄暴跌重挫,引发“泡沫戳破”的担忧;消费市场,BATH们的推新活动少了,产品更新迭代的速度慢了,民众的关注度降了……热闹的大概只剩下两场酣仗:自5月15日字节跳动宣布“以厘计费”,打响国内大模型

    标签:
    大模型
  • 这一届“出道”的数字人,已经拿捧上了“铁饭碗”

    文|智能相对论作者|陈泊丞好消息!你心心念念的事业单位发录取公告了!坏消息!他们没录你,录了个数字人。图片来源网络随着数字人技术的突破,越来越多的传统企业和机构开始用上了“数字员工”。甚至很多中国人心心念念的“铁饭碗”,也被这些数字人给捧上了。数字人捧上了“铁饭碗”简单翻看一下全国各地事业单位的“录

    标签:
    数字人
  • 来到IPO关口,地平线离“三分天下”还有多远?

    黑芝麻智能敲钟后,港交所门口又有一些智驾芯片企业引发关注。据悉,近日地平线已通过中国证监会IPO备案,拟发行不超过11.5亿股境外上市普通股并在香港联合交易所上市,预计筹集约5亿美元资金。从天眼查可以了解到,该公司成立于2015年,是一家乘用车高级辅助驾驶(ADAS)和高阶自动驾驶(AD)解决方案供

  • 机器人大会引领产业动向,卓翼飞思绘制无人系统教科研新蓝图

    8月21日,万众瞩目的2024世界机器人大会暨博览会在北京亦创国际会展中心盛大开幕。这场为期5天,集“展览”“论坛”“赛事”于一体的机器人盛会,反映了当下机器人领域的繁荣生态。据官方统计数据,今年现场逛展观众高达25万人次,比去年增加25%。机器人行业有多火?看看2024世界机器人大会火爆程度便可知

  • 卓翼智能:超大载重高烈度环境特种智能系留无人平台的应用与未来

    瞄准场景需求,打造国内领先的自主可控、高质量超大载重高烈度环境特种智能系留无人平台。卓翼智能亮相HICOOL峰会以科技实力荣摘创业大赛一等奖这个比赛5年培育出16家“独角兽”HICOOL2024全球创业者峰会暨创业大赛已于8月25日在北京圆满落下帷幕,大赛共吸引了124个国家和地区的7406个创业项

  • 60万奖金召唤AI创新者,2024无锡国际人工智能创新应用大赛火热进行中!

    人工智能是新一轮科技革命和产业变革的重要驱动力量。无锡市作为中国的科技创新中心之一,正通过构建人工智能"算力+算法+数据"三要素齐备的产业生态,为产业技术创新应用提供强大支撑,通过“AI+”行动推动人工智能与多个产业交叉融合,实现技术落地和产业化,加速形成新质生产力,打造具有国际竞争力的产业创新智造

  • “云+AI”驱动操作系统创新升级,龙蜥坚持可持续发展路线

    近日,2024龙蜥操作系统大会(OpenAnolisConference)在北京圆满召开,此次大会由中国计算机学会开源发展委员会、中关村科学城委员会、海淀区委网信办、中国开源软件推进联盟指导,龙蜥社区主办,阿里云、浪潮信息、Intel、中兴通讯、Arm、中科方德等24家理事单位共同承办,主题为“进化

  • 探访数字人公司世优科技:AI数字人“情智兼备”的创新之旅

    数字人作为未来产业之一,是新一代信息技术集成创新和应用的未来产业,也是数字经济与实体经济融合的高级形态,数字人和自然人、机器人高度协同,将深刻变革人类生产生活方式,重塑全球产业发展格局。为推动数字人产业高质量发展,培育形成新质生产力,8月28日,世优科技创始人兼CEO纪智辉、世优科技李曦、韩光明接受

热门排行

编辑推荐