4月29日,DeepSeek正在网页端和App端灰度测试“识图模式”。这一模式与“快速模式”“专家模式”并列,测试用户进入后可上传图片,让DeepSeek对图片内容进行理解、描述和分析。
这标志着DeepSeek补上了“静态图像理解”这块短板。
就在前一天上午,DeepSeek多模态团队负责人陈小康在X平台发布了一条推文:“Soon,we see you.”配图是两只蓝色的小鲸鱼,左边那只戴着画有“XX”的黑色眼罩,右边的没戴眼罩、正常露出眼睛。
这条推文很快被删除,但截图已经在技术社区流传开来。
第二天,部分用户发现,DeepSeek输入框上方出现了三个并列的标签,除了原有的“快速模式”和“专家模式”,多出了一个“识图模式”。鼠标悬停后弹出的提示语是“图片理解功能内测中”。
不过,这一标签并非所有用户都能看到。部分用户虽然看到入口,但尝试使用时系统提示“识图模式暂不可用,请稍后再试”。
DeepSeek官方至今未发布任何正式公告。
在V4上线之前,DeepSeek主线产品里和“看图”有关的功能是“快速模式”支持识别图片中的文字,仍是OCR调用,不是真正意义上的视觉理解。这一次测试的“识图模式”,已经超出文字识别的范畴。
