券商观点|通信行业深度：“合成数据+强化学习”-大模型进化的新范式

2024-09-19 13:30:56 来源：同花顺iNews

　　2024-09-19，国盛证券发布一篇通信行业的研究报告，报告指出，“合成数据+强化学习”-大模型进化的新范式。

　　报告具体内容如下：

　　当地时间9月12日，OpenAI发布新模型系列o1（代号“草莓”），该模型的特点主要是在给出推理结果前，花更多时间“思考”，产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。o1-preview每百万token输入15美元，每百万输出token60美元，o1-mini相对便宜，每百万token输入3美元，每百万token输出12美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择，o1-preview每周限制30条消息，o1-mini每周限制50条消息。 o1亮点一：或为OpenAI新模型“Orin”生成合成数据。据TheInformation，o1或为OpenAI新模型“Orin”生成合成数据。无独有偶，我们注意到，OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手，2024年6月发布了大模型Claude3.5Sonnet，该模型使用了合成数据，在多个测试中的表现优于GPT4o。我们发现，在人类生成的数据或将耗尽之际，合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点，尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题，但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。 o1亮点二：“合成数据+强化学习”，o1或确认大模型进化新范式。市场认为，ScalingLaw（指大模型随着参数的增大而增强能力）只存在于大模型训练阶段。但我们发现，根据OpenAI工程师JasonWei，o1使用了强化学习（RL）做思维链（ChainofThought）来训练模型；思维链可以使模型在推理阶段实现能力增强，即ScalingLaw可以不止出现在训练阶段，也出现在推理阶段。这里我们所说的强化学习（RL），指模型A生成推理结果后，由模型B给推理结果打分，帮助模型A不断调整参数、迭代、进化，分成RLAIF（基于AI反馈的强化学习）和RLHF（基于人类反馈的强化学习）多种，后者曾因被用于ChatGPT而名声大噪。我们认为，o1系列的惊艳面世，或许不仅是确认了合成数据的重要性，还意味着大模型对强化学习的倚重，而在强化学习中，我们注意到，RLAIF（基于AI反馈的强化学习）逐渐成为MetaLLama3、英伟达Nemotron-4340B、微软Orca-2等热门大模型的选择，相较于RLHF（基于人类反馈的强化学习），需要的人类标注较少，适合代码、数学等有客观评价标准的领域。我们推测，RLAIF或许也是o1在代码、数学等问题上表现更好的原因。投资建议：根据OpenAI，o1模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现随着训练和测试计算量的增长而变得更好，这表明o1“推理时，在响应用户前，思考更多”有助于让o1表现更好，这正是推理ScalingLaw。我们认为，这有助于打破投资界过往的担忧，即“推理需要的算力比训练少，当大模型的进化转向推理，算力板块承压”；相反，推理ScalingLaw仍将利好算力板块。建议关注：1）光模块产业链：中际旭创（300308）、新易盛（300502）、天孚通信（300394）、太辰光（300570）、光迅科技（002281）、华工科技（000988）、腾景科技等；2）液冷服务商：英维克（002837）；3）PCB服务商：沪电股份（002463）等；4）AIDC：润泽科技（300442）等。风险提示：大模型算法进展不及预期，大模型应用落地不及预期，全球宏观经济下行风险。

　　声明：本文引用第三方机构发布报告信息源，并不保证数据的实时性、准确性和完整性，数据仅供参考，据此交易，风险自担。

关注同花顺财经（ths518），获取更多机会

0人

ETF飞跃式发展券商圈地多面开花

暴涨！超6万人爆仓

券商观点|通信行业深度：“合成数据+强化学习”-大模型进化的新范式

网站地图