Bitcoin86.com

DeepSeekV4发布:1.6T参数旗舰支持1M上下文,推理算力仅V3.2的27%

币界网消息,DeepSeek发布了V4系列,旗舰模型总参数为1.6T,支持1M上下文,推理算力仅为V3.2的27%。该系列包含两款MOE模型:v4-pro总参数1.6T,每token激活49B(490亿)v4-flash总参数284B(2840亿),激活13B(130亿)。架构升级包括混合注意力机制,显著降低长上下文开销,v4-pro单token推理FLOPS仅为V3.2的27%。预训练数据超过32T token,后训练分两阶段进行,v4-pro-max自称当前最强开源模型,推理表现接近闭源前沿。权重以FP4+FP8混合精度存储。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。