
近日,国内 AI 大模型厂商 DeepSeek 在网页端与移动端 App 同步开启识图模式灰度测试,正式补齐了其在多模态能力上的关键短板。与多数产品将视觉功能作为文本对话的附属功能不同,DeepSeek 将识图模式与现有的快速模式、专家模式并列,设置为独立的一级入口,释放出将视觉理解作为核心能力重点布局的强烈信号。
产品入口:战略级定位,独立一级入口
从产品界面设计可以清晰看出 DeepSeek 对视觉能力的重视程度。用户更新至最新版本后,在模式切换栏中能够看到 “识图模式” 与 “快速模式”、”专家模式” 并排展示,成为三大基础对话模式之一。
这种产品架构设计与行业内常见的 “在文本输入框旁添加图片按钮” 的做法形成鲜明对比,表明 DeepSeek 并非将视觉理解视为文本对话的补充功能,而是将其提升到了与文本生成同等重要的战略高度,预示着未来可能会围绕视觉能力推出更多衍生功能与应用场景。
灰度测试:分批次开放,部分用户可体验
目前,识图模式正处于分批次灰度测试阶段,不同用户的使用权限存在差异:
- 完全可用用户:已获得完整测试权限,可正常上传图片并发起相关对话
- 入口可见用户:能够在界面上看到识图模式入口,但点击后会收到 “识图模式暂不可用,请稍后再试” 的系统提示
- 未开放用户:界面上暂未显示识图模式相关入口
DeepSeek 官方尚未公布全面开放的具体时间表,预计将根据测试反馈逐步扩大覆盖范围,优化系统稳定性与响应速度。
能力实测:聚焦纯视觉理解,暂未支持生成类功能
从实际测试情况来看,现阶段上线的识图模式主要聚焦于图片理解与分析能力,核心覆盖三大应用场景:
- 视觉问答:针对图片内容进行精准提问与解答
- 图片理解:对图片中的物体、场景、文字进行全面描述与解读
- 截图分析:识别并解析网页截图、文档截图、代码截图等内容
值得注意的是,目前该模式尚未开放图像生成、视频理解以及跨模态生成等能力。这意味着 DeepSeek 现阶段的识图模式更符合视觉语言模型(VLM) 的技术范畴,而非完整的多模态生成工具,其核心目标是先夯实 “看懂图片” 的基础能力。
行业意义:补齐关键短板,完善产品矩阵
此次识图模式的灰度上线,标志着 DeepSeek 完成了从纯文本大模型向多模态大模型的重要跨越。作为国内技术实力突出的大模型厂商,DeepSeek 此前在代码生成、数学推理、长文本处理等领域已建立起显著优势,视觉能力的补齐将进一步完善其产品矩阵,提升在通用人工智能领域的综合竞争力。
随着测试的深入推进,预计 DeepSeek 将逐步扩展识图模式的能力边界,未来可能会加入 OCR 增强、表格识别、图表分析、公式解析等更专业的视觉功能,并探索图像生成与视频理解等更高阶的多模态能力。