券商观点|通信行业深度:“合成数据+强化学习”-大模型进化的新范式

2024-09-19 13:30:56 来源: 同花顺iNews

  2024-09-19,国盛证券发布一篇通信行业的研究报告,报告指出,“合成数据+强化学习”-大模型进化的新范式。

  报告具体内容如下:

  当地时间9月12日,OpenAI发布新模型系列o1(代号“草莓”),该模型的特点主要是在给出推理结果前,花更多时间“思考”,产生较长内部思维链,在解决科学、数学、代码等类问题的表现更好。o1-preview每百万token输入15美元,每百万输出token60美元,o1-mini相对便宜,每百万token输入3美元,每百万token输出12美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择,o1-preview每周限制30条消息,o1-mini每周限制50条消息。 o1亮点一:或为OpenAI新模型“Orin”生成合成数据。据TheInformation,o1或为OpenAI新模型“Orin”生成合成数据。无独有偶,我们注意到,OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手,2024年6月发布了大模型Claude3.5Sonnet,该模型使用了合成数据,在多个测试中的表现优于GPT4o。我们发现,在人类生成的数据或将耗尽之际,合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点,尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题,但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。 o1亮点二:“合成数据+强化学习”,o1或确认大模型进化新范式。市场认为,ScalingLaw(指大模型随着参数的增大而增强能力)只存在于大模型训练阶段。但我们发现,根据OpenAI工程师JasonWei,o1使用了强化学习(RL)做思维链(ChainofThought)来训练模型;思维链可以使模型在推理阶段实现能力增强,即ScalingLaw可以不止出现在训练阶段,也出现在推理阶段。这里我们所说的强化学习(RL),指模型A生成推理结果后,由模型B给推理结果打分,帮助模型A不断调整参数、迭代、进化,分成RLAIF(基于AI反馈的强化学习)和RLHF(基于人类反馈的强化学习)多种,后者曾因被用于ChatGPT而名声大噪。我们认为,o1系列的惊艳面世,或许不仅是确认了合成数据的重要性,还意味着大模型对强化学习的倚重,而在强化学习中,我们注意到,RLAIF(基于AI反馈的强化学习)逐渐成为MetaLLama3、英伟达Nemotron-4340B、微软Orca-2等热门大模型的选择,相较于RLHF(基于人类反馈的强化学习),需要的人类标注较少,适合代码、数学等有客观评价标准的领域。我们推测,RLAIF或许也是o1在代码、数学等问题上表现更好的原因。 投资建议:根据OpenAI,o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好,这表明o1“推理时,在响应用户前,思考更多”有助于让o1表现更好,这正是推理ScalingLaw。我们认为,这有助于打破投资界过往的担忧,即“推理需要的算力比训练少,当大模型的进化转向推理,算力板块承压”;相反,推理ScalingLaw仍将利好算力板块。建议关注:1)光模块产业链:中际旭创300308)、新易盛300502)、天孚通信300394)、太辰光300570)、光迅科技002281)、华工科技000988)、腾景科技等;2)液冷服务商:英维克002837);3)PCB服务商:沪电股份002463)等;4)AIDC:润泽科技300442)等。 风险提示:大模型算法进展不及预期,大模型应用落地不及预期,全球宏观经济下行风险。

  声明:本文引用第三方机构发布报告信息源,并不保证数据的实时性、准确性和完整性,数据仅供参考,据此交易,风险自担。

关注同花顺财经(ths518),获取更多机会

0

+1
  • 保变电气
  • 银之杰
  • 大唐电信
  • 常山北明
  • 南天信息
  • 旗天科技
  • 国华网安
  • 海立股份
  • 代码|股票名称 最新 涨跌幅