Bitcoin86.com

Zyphra开源ZAYA1-74B预览版:全AMD硬件端到端训练,4B激活74B总参数

币界网消息,Zyphra开源的ZAYA1-74B预览版采用全AMD硬件进行端到端训练,模型总参数达到740亿,单次激活40亿。该模型基于混合专家(MoE)架构,预训练和上下文扩展全流程均在AMD MI300X加速卡上完成。为优化长文本效率,模型将全局注意力层替换为4K窗口大小的滑动窗口注意力(SWA),官方测试显示这一设计在不牺牲性能的前提下,显著减少了KV缓存的占用。训练过程中使用了15万亿token的预训练语料,并在3万亿token的中间训练中逐步将上下文窗口扩展至256K。Zyphra选择公布PASS成绩,以证明该基座具备产生正确推理步骤的能力,完整的满血版ZAYA1-74B预计将在未来几周内发布。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。