MoE成为大模型路线新突破,谁家最强

2024-04-30 16:44:18 来源: 中国网财经

  MoE,似乎在一夜之间突然火了。

  AIGC伴随ChatGPT出世得以在全球迅猛发展,仅过了一年多,关于大模型的讨论,焦点已经从底层技术转移至应用端。由于模型推理烧钱过于厉害,商业变现成为很多大模型企业不得不考虑的现实问题。

  但从当前大模型的底层技术看,Transformer架构并不算完美,动辄千亿的参数以及处理长文本存在信息丢失,意味着从诞生之初,它就面临着有朝一日算法提升带来的瓶颈。在算力资源昂贵之下,AI企业需要从算法优化找到突破口,寻求大模型性能提升的最优路线解。

  不同于互联网时代红利的分配模式,AI大模型对底层技术彻底颠覆的态势,每过两年就会袭来一次,旧的体系面临瓦解,以此基础上的落地应用需要被重写一次,抢占新的技术路线至关重要。在这一赛道上,不仅有科技巨头们的较量,也跑出众多创业型黑马,技术进步的真理掌握在踩对大模型路线的少数科技公司手中。

  今年2月,昆仑万维300418)推出采用业内顶尖MoE专家混合模型架构的“天工2.0”大语言模型后,2个月之后又迅速迭代至最新版本“天工3.0”,此后国内多个AI厂商迅速跟进。MoE,也被称作混合专家模型技术,极有可能超越当前Transformer架构的极限,成为新一代大模型技术路线的领头羊。

  天工大模型的演进过程

  近期,昆仑万维发布了2023年度业绩报告以及2024年第一季度财报,相比海外大跌的诸多AI概念股,昆仑万维逆势上扬,财报数据稳健,产品业务数据突飞猛进,研发收入大幅提升,赢得了资本市场的一致看多,也从侧面验证了昆仑万维的正确与前瞻性。

  ·前瞻性入局:想清楚做彻底

  2017年,Google的Transformer架构为大模型预训练提供了新方向。2018年,GPT-1和BERT的发布标志着预训练大模型成为主流,但直到2020年,AIGC发展才步入正轨。GPT-3在这一年诞生,但仅有少数的公司关注到,它改变世界的影响力。

  昆仑万维就是其中之一。2020年,公司高层在接触GPT后判断,内容行业一定会被AIGC重新洗牌。认识到AI领域的强大发展前景,昆仑万维的管理团队前瞻性判断这一技术的前景将非常广阔。相比于做追“风”者,昆仑万维更愿意研发前置,在风口到来前率先入局,并且是“All in”AIGC与AGI,事实证明是成功的。

  从2020年开始,昆仑万维开始进行AI领域算力储备和人才储备。2020年到2023年,公司研发人员数量从400余人增长至1500余人,在总员工数占比从56.57%增加到73.32%,远高于行业水平。其中,硕士及博士以上学历超过300人。同时,公司不断加大人才引进力度,吸引如颜水成教授(全球计算机科学家排名第56,华人排名第14,新加坡排名第1)等人工智能领域知名专家加入,为公司建立长期技术优势提供了有力保障。

  正是凭借这种洞察力,昆仑万维能够在ChatGPT引爆生成式人工智能市场时,迅速占领先机。即便是在风口爆发的2023年,许多AI企业也因为骤增的研发投入出现亏损与业绩下调,对比下昆仑万维仍保持了基本盘稳固,利润规模位居行业前列。最新的2023年报数据显示,2023年,公司实现营业收入49.2亿元,海外业务收入占比达86.0%,同比提升8.4个百分点;实现归属于上市公司股东的净利润12.6亿元,同比增长9.15%,利润规模位居行业前列。正是基于足够的规模收入和利润基本盘下,大模型研发投入也得以保证,形成了研发增长与业务精进的良好循环。

  从大模型推进整体进度来看,昆仑万维在业内也遥遥领先。2023年,昆仑万维在上半年推出了纯自研的千亿参数天工大模型后,下半年火速推出国内AI搜索鼻祖天工AI搜索,在2个月之后,又推出开源模型Skywork-13B系列,在如混元NLP模型、PaLM2等模型仍坚持闭源下,昆仑万维坚定开源的价值,吸引更多开发者加入,推动共建行业生态。

  如果模型只是训练的参数够大,并不能证明模型足够好,推理能力是验证模型强弱的关键。2023年9月,在权威推理榜单BenchmarkGSM8K测试中,天工以80%的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),这标志着天工的推理能力达到全球领先,接近GPT-4。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中,天工大模型均获得较高的正确率,表明天工大模型的通用能力很强,核心性能均达到了国际领先水准。

  ·瞄准新一代大模型算法顶流MoE

  正是这种前瞻性和超前的技术布局,让昆仑万维在迭代大模型的早期阶段便意识到,Transformer架构自身的局限性,需要尽快找到一种更加前沿的技术路线,昆仑万维瞄准的正是MoE。MoE也被认为是当前大语言模型赛道技术最顶尖、研发最前沿的底层架构,是全球最领先的大模型核心技术路径之一。

  相比于Transformer,MoE的优势特征更加明显,因为不简单依赖于一个模型解决所有问题,MoE可以灵活地用于提高模型整体性能。这种创新的神经网络架构设计,在机器学习领域展现出了巨大的价值。其核心价值在于通过稀疏性设计,实现模型计算效率的大幅提升,同时保持甚至提高模型的性能。

  用一个比喻来形容二者,就像是单个全科医生和不同的专科医生会诊之间的区别,很明显后者是多个专家依据自己的擅长领域发表不同见解,更能提高诊断的正确率。MoE就是这样的专家集,能适应不同的任务和数据集。MoE通过调整专家模型的数量、类型和组合方式,可以灵活地应对各种复杂的机器学习任务。

  但MoE并非是一种全新技术,最早可追溯到1991年MichaelJordan和GeoffreyHinton等人提出的论文中。2022年,LIMoE是首个应用了稀疏混合专家模型技术的多模态模型,模型性能相较于CLIP也有所提升。近期Mistral AI发布的Mistral 8x7B模型是由70亿参数的小模型组合起来的MoE 模型,直接在多个跑分上超过了700亿参数的Llama 2。

  这种低成本、高效率的特性使得MoE技术成为当前包括华尔街在内的众多领域投资与关注的焦点。去年底,发布MoE开源模型的Mistral AI完成了由a16z和Lightspeed Venture Partners总金额约4.15亿美元的投资;今年4月,押注MoE技术路线的MiniMax完成阿里参投的新一轮融资,投后估值超过25亿美元。

  昆仑万维更早地关注到MoE可能带来的巨大价值。

  自2023年6月以来,昆仑万维不断针对MoE架构技术最前沿进行研发探索。2024年2月,昆仑万维发布新版MoE大模型“天工2.0”。随后,谷歌、Meta、阶跃星辰也相继推出更新后的MoE大模型。4月17日,“天工”大模型迭代至3.0版本,拥有4000亿参数,超越了3140亿参数的Grok-1,是目前全球模型参数最大、性能最强的开源MoE模型之一。

  “天工3.0”MMBench测评表现

  基于“天工3.0”打造的“天工Sky Music”是中国首个音乐SOTA模型,首次实现中国自研大模型在AIGC垂直领域全球领跑。

  “天工SkyMusic”模型架构

  MoE技术对AI Agent应用的提升作用也非常显著,特别是在实现更复杂、更精细的决策过程中。AI Agent能够借助MoE模型,轻松应对多样化的输入数据,并通过融合不同专家模型的预测结果,作出更为精准和全面的决策。这种强大的结合不仅显著提升了AI Agent的智能程度,更使其能够灵活应对各种复杂多变的环境挑战。与此同时,MoE技术与各类应用的结合展现出巨大的潜力和广阔的发展前景,AI Agent将在未来实现更多创新和突破。

  ·全球竞争下,应用端模型的巨大价值

  AI终端应用,会是大模型的终局吗?

  从经济学理性人假设出发,基础大模型即便真正实现了“智慧涌现”,但其本身并不产生价值,真正产生价值的,是由模型衍生出来的各项实际应用。目前,大模型的应用领域可以简单分为四类,即工具型应用、通用软件、行业软件和智能硬件。而对应的四大方面应用又可赋能于千行百业。

  中国AI企业在这些领域的应用布局全球超前。根据IBM发布的《2023年全球AI采用指数》的数据显示,2023年,有高达85%的中国企业表示在过去的一段时间里加快了对AI的投入应用,63%的中国企业表示正在积极应用生成式AI,34%的中国企业正在积极探索生成式AI,比重远超于全球其他国家和地区。

  可以确切地说,中国不仅在关注投入AI技术的前沿动态上领先,在AI落地探索的实际应用更是领先,中国已经获取新技术浪潮下的新一轮竞争性优势。

  以智能硬件为例,大模型通过“蒸馏”“减枝”可被用于手机、汽车以及智能家居中。工具型应用主要面向C端用户,包括聊天机器人、搜索引擎和内容生成应用(如文本、图像、视频、代码、3D模型)。不论是哪一个领域,目前中国AI企业均处于全球领先。

  根据艾瑞咨询研究院测算,到2028年,中国人工智能产业规模将超8000亿元,五年复合增长率达到30.6%。而在商业化落地上,从人工智能衍生至AI终端应用,一旦经过成熟期后的普及推广,市场规模都有可能达到万亿级别。

  昆仑万维在这轮模型全球竞争中具有先发优势。从2009年开始布局海外市场,业务覆盖全球一百多个国家和地区,全球平均月活跃用户近4亿,已经积累了非常深厚的用户群体。利用大模型重塑搜索、音乐、视频、社交、游戏等在内的多元业务,构建AI大模型、AI搜索、AI音乐、AI视频、AI社交、AI游戏等多元AI业务矩阵。而这些领域一旦被AI技术革新后,带来的新的市场价值将不可估量。

  以大模型为底,建成的各产业新型基础设施将成为推动社会发展的新引擎。目前昆仑万维的六大矩阵业务,不仅涵盖了广泛的领域,而且每个矩阵业务均具备万亿级别的市场潜力,面对国内与海外超大的市场,想象空间巨大。中国生成式AI应用商业步伐稳健,挟先行之利,相信昆仑万维在不久之未来,相关技术落地声量将持续加大。

关注同花顺财经(ths518),获取更多机会

0

+1
小牛诊股诊断日期:2024-05-21
昆仑万维
击败了12%的股票
短期趋势弱势下跌过程中,可逢高卖出,暂不考虑买进。
中期趋势下跌有所减缓,仍应保持谨慎。
长期趋势已有415家主力机构披露2023-12-31报告期持股数据,持仓量总计3.33亿股,占流通A股30.11%
综合诊断:近期的平均成本为37.02元。空头行情中,目前反弹趋势有所减缓,投资者可适当关注。该股资金方面呈流出状态,投资者请谨慎投资。该公司运营状况尚可,多数机构认为该股长期投资价值较高,投资者可加强关注。