通义千问发布Qwen-Image-Layered:AI P图进入“图层”时代,可无限拆解

今日,阿里巴巴通义千问团队发布了一款革命性的图像生成模型——Qwen-Image-Layered。该模型通过其独创的“图像解耦”技术,首次实现了将任意静态图片自动分解为多个可独立编辑的图层,彻底解决了当前AI图片编辑中的核心痛点,让“指哪改哪”的精准操控成为现实。


告别“一改全动”,迎来“图层”自由

目前的AI图片编辑普遍存在两大难题:要么进行全局编辑,容易“牵一发而动全身”,破坏未修改区域;要么依赖于区域掩码(mask)进行局部修改,但往往难以处理模糊或被遮挡的物体边界。

Qwen-Image-Layered创新性地解决了这一问题。它能够像剥洋葱一样,将一张扁平的图片智能地分解为多个包含独立语义的RGBA图层。每一层都拥有自己的颜色(RGB)和透明度(Alpha)信息,用户可以对单一图层进行任意操作,而不会影响到图像的其他部分。


核心功能与应用场景

借助这种先进的图层化能力,Qwen-Image-Layered 带来了前所未有的编辑自由度。

主要应用 功能描述
重新着色 精准地改变图中某个物体或区域的颜色,而不会影响周边。
物体替换/移动 轻松选中图片中的某个元素,进行自由拖动、缩放,或替换成其他内容。
无痕修改 无论是修改图片中的文字,还是删除不需要的物体,都能做到天衣无缝。
无限层级分解 模型支持将一张图按需分解为不同数量的图层(如3层或8层),并且任何一个图层都可以被再次进行“递归”分解,实现无限精细化的编辑。

技术开放,共促生态

这一突破性进展的背后,是通义千问团队自研的 RGBA-VAE 和 VLD-MMDiT 创新架构,它们成功地让模型学会了从“生成图像”到“理解并解构图像”的进化。

为了推动AI创意生态的发展,通义千问团队已经将Qwen-Image-Layered的技术报告、源代码及在线体验Demo全面开放。

Qwen-Image-Layered的发布,标志着AI图像编辑正从“生成”迈向“精细化创作”,为每一位用户带来了媲美专业软件的直观、精准与强大的编辑能力。