OpenAI核心成员提出新范式：一行参数不调，纯靠AI写代码刷满Atari

2026-05-08 19:08:03 分类：资讯 | 知识库 | 快讯

币界网消息，OpenAI后训练核心成员翁家翌（Jiayi Weng）以个人名义提出了一种名为「启发式学习」的强化学习新范式，并开源了全部实验代码。他用Codex（GPT-5.4）反复玩Atari打砖块游戏，但GPT-5.4自始至终没有被重新训练过。经过几轮迭代，策略代码从387分涨到了864满分。翁家翌的做法是将知识以代码的形式存储，避免了传统强化学习中的灾难性遗忘。他还在Mujoco Ant上跑出超6000分的深度强化学习级成绩，并在Atari57全套57个游戏上逼近了PPO基准。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。