币界网消息,罗福莉表示,大模型竞争已从预训练主导的chat时代,全面转向后训练主导的agent时代。当前的核心赛点是如何在agent上做好强化学习的scaling。她透露,在chat时代,用于研究、预训练和后训练的算力比例约为3:5:1而在如今的agent时代,合理的算力分配比例变为3:1:1,即预训练与后训练的算力投入已基本相当,目前顶尖模型团队在这两项的投入比例已达到1:1。同时,系统架构的要求也发生巨变,过去的强化学习基础设施主要以模型推理引擎为核心,处理纯文本演算现在的基建必须以agent为核心,支持异构集群调度,并能容忍agent在复杂工作流中因各类不可控因素中断的模糊性。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
