京东探索研究院开源空间智能图像模型 JoyAI-Image-Edit

AI资讯 国内 2026年04月08日 💬 0
京东探索研究院近日正式开源自研图像编辑模型 JoyAI-Image-Edit。该模型聚焦图像三维空间理解与编辑能力,旨在解决传统 AI 修图工具在空间逻辑处理方面的技术瓶颈。

技术突破:从平面编辑到空间理解

据京东方面介绍,JoyAI-Image-Edit 的核心创新在于将空间智能能力融入模型底层架构。传统图像编辑模型多基于二维平面进行像素级操作,在处理物体位移、视角变换、遮挡关系等任务时易出现几何失真或逻辑冲突。
新模型通过引入三维空间表征机制,能够识别并还原图像场景中的深度信息、物体相对位置及光影关系。在编辑操作中,模型可依据真实世界空间规律自动调整遮挡层次、透视角度与光照一致性,从而提升生成结果的物理合理性。

核心功能:三类空间编辑能力

根据技术文档,JoyAI-Image-Edit 重点支持以下三类空间编辑任务:
能力类型
功能描述
典型应用
视角变换
通过自然语言指令指定相机参数,生成目标视角图像
商品多角度展示、虚拟拍摄
空间漫游
支持连续视角移动,生成连贯的多帧画面序列
虚拟场景浏览、动态预览
物体关系操控
调整物体前后位置、相对距离,自动处理遮挡与投影
场景重构、布局优化
此外,该模型兼容 15 类通用图像编辑能力,包括物体替换、局部擦除、风格迁移、长文本引导生成等,可满足多样化内容生产需求。

应用场景:覆盖内容生产与智能感知

京东方面表示,JoyAI-Image-Edit 的技术能力可服务于多个产业场景:
  • 电商内容制作:支持商品图自动换背景、多视角生成,降低商家视觉内容生产成本;
  • 创意设计辅助:为设计师提供空间关系可控的素材编辑工具;
  • 3D 重建支持:通过单张或多张图像辅助生成三维模型初稿;
  • 具身智能感知:为机器人视觉系统提供场景空间理解能力,助力环境建模与路径规划。
公司特别指出,在具身智能领域,空间理解能力是机器人实现”感知 – 决策 – 行动”闭环的关键基础,该模型的开源有望降低相关技术研发门槛。

开源策略与生态建设

此次开源采用社区友好的许可协议,模型权重、推理代码及技术文档已通过京东 AI 开放平台发布。京东探索研究院表示,开源旨在促进学术研究与产业应用的协同创新,欢迎开发者基于该模型开展二次开发与场景探索。
近期,京东在人工智能领域持续加大投入:除基础大模型开源外,其 AI 服务调用量同比增长显著,并计划建设具身智能数据采集中心,强化算法训练与场景落地的数据支撑。

行业观察

多位计算机视觉领域专家指出,将三维空间理解能力引入通用图像编辑模型,代表了 AIGC 技术从”视觉逼真”向”物理合理”演进的重要方向。如何在保持编辑灵活性的同时确保空间逻辑一致性,仍是当前技术攻关的重点。
随着开源生态的完善,该类模型在降低专业内容创作门槛、赋能实体产业智能化方面的潜力有望进一步释放。