Bitcoin86.com

OpenAI核心成员提出新范式:一行参数不调,纯靠AI写代码刷满Atari

币界网消息,OpenAI后训练核心成员翁家翌(Jiayi Weng)以个人名义提出了一种名为「启发式学习」的强化学习新范式,并开源了全部实验代码。他用Codex(GPT-5.4)反复玩Atari打砖块游戏,但GPT-5.4自始至终没有被重新训练过。经过几轮迭代,策略代码从387分涨到了864满分。翁家翌的做法是将知识以代码的形式存储,避免了传统强化学习中的灾难性遗忘。他还在Mujoco Ant上跑出超6000分的深度强化学习级成绩,并在Atari57全套57个游戏上逼近了PPO基准。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。