币界网消息,微软开源了3.8B参数的文生图底座模型系列Lens,4步推理仅需0.84秒,性能媲美6B+级模型。该模型在峰值bf16 tflops算力归一化测试中,训练仅消耗阿里巴巴通义实验室z-image约19.3%的算力。训练数据集lens-800m包含8亿图像-文本对,样本由gpt-4.1生成,提示词平均长度达109个单词,具有极高的语义信息密度。微软发布了三种权重版本,默认版采用rl-tuned强化学习微调,蒸馏极速版lens-turbo可在4步内完成推理,底座版lens-base则是无rl、无蒸馏的纯底座,支持1:2至2:1任意宽高比与最高1440x1440混合分辨率生成。相关模型权重已上架hugging face,提供safetensors与diffusers格式入口,采用MIT许可协议。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
