问题——当前视觉大模型在创意生成方面表现突出,但在专业场景的“可编辑性”和“一致性”上仍存在明显短板。
商业广告、品牌物料、产品展示、界面设计及影视后期等领域,往往要求对画面局部进行精确调整,并确保主体、材质、光影与背景保持稳定。
然而不少既有生成模型在执行局部改动时容易出现“牵一发而动全身”的现象:移动或重绘一个对象后,周边细节随之改变,导致素材难以直接进入生产流程。
原因——业内普遍认为,上述问题的根源在于模型对图像的内部表征仍偏“扁平”。
图像在计算中往往被视为整体像素分布,缺乏对对象远近、遮挡关系与层次结构的显式刻画。
由于缺少“图层”这一接近人类设计工作流的中间结构,模型在修改对象位置、尺度或局部纹理时,难以稳定推断被遮挡区域的合理背景,也难以在不扰动其他区域的情况下完成精细改动,从而造成编辑结果不可预测、返工成本高。
影响——阿里此次开源的Qwen-Image-Layered提出以“图层级理解与生成”改善一致性编辑体验。
该模型强调通过“分层”和“补全”建立更贴近现实物理关系的表征:一方面将图像拆解为多个可操作的层级元素,另一方面在对象移动或调整时对被遮挡区域进行纹理与结构补全,以降低主体漂移和背景重绘带来的失真。
若相关能力在更多数据与场景中得到验证,将有望使生成内容从“单次成图”向“可持续迭代的素材”转变,满足专业制作对版本管理、稳定复用和精确控制的需求,进而提升内容生产效率。
对策——从技术路径看,该模型在编码与架构层面引入了面向图层的机制:通过在传统RGB信息之外加入透明度相关通道,强化模型对“可叠加、可分离”元素的理解;并结合新的网络结构与位置编码方式,增强对层级空间关系的表达,使其在编辑时能够更有针对性地处理对象边界、遮挡与背景补全。
同时,训练层面引入来自专业设计文件的真实图层逻辑,使模型在学习阶段接触更贴近行业实践的分层范式。
对于产业应用而言,下一步关键在于完善与现有设计软件、制作管线的对接能力,建立可评测的编辑一致性指标体系,推动在广告制作、UI资产生成、短视频包装等细分场景开展标准化测试与小规模落地,逐步形成“生成—编辑—审校—交付”的闭环流程。
前景——从行业趋势观察,视觉生成技术正在从“生成更像”走向“编辑更稳、交付更快”。
图层级能力的引入,代表一种从像素层面迈向结构层面的路线选择,有助于降低专业人员在抠图、修补、版本迭代上的时间消耗,并让创意生产更接近工程化、流程化。
与此同时,面向专业市场的模型能力仍需在复杂遮挡、多主体交互、材质一致性、风格统一以及跨多轮编辑稳定性等方面持续打磨。
随着开源生态与工具链不断完善,图层化生成有望成为专业视觉生产的重要能力模块,推动创意产业从“人力密集型修图”向“结构化编辑驱动的高效生产”升级。
此次技术突破展现了我国企业在人工智能基础研究领域的创新能力。
随着开源策略的推进,相关技术成果将惠及更广泛的开发者社区,有望催生更多创新应用。
在数字经济快速发展的背景下,此类核心技术突破将持续赋能实体经济,为产业数字化转型提供坚实的技术支撑。