DeepSeek 是一家总部位于杭州的人工智能公司,通过一项名为“图像识别模式”的新功能,向其主聊天机器人新增图像和视频识别能力,使其与其他主要 AI 聊天机器人看齐。该功能发布恰逢中国芯片供应链的一个重大里程碑:四家国内半导体公司——华为昇腾、寒武纪、海光信息和摩尔线程——确认在同一天支持 DeepSeek 最新旗舰模型 DeepSeek-V4,标志着一种转变:相比之下,此前在 Nvidia 生态圈之外通常需要数月的适配期。
DeepSeek 悄然推出图像识别模式,同时还上线了本月早些时候发布的另外两种模式:“专家(expert)”和“闪速(flash)”。据负责 DeepSeek 多模态团队的陈晓康介绍,该工具最初在网站和移动应用上都对一小批用户进行了测试。公司资深研究员陈德礼在一则帖子中庆祝上线,并提到了公司的标志:“小鲸鱼现在能看见了。”
图像与视频功能是在 DeepSeek 发布 DeepSeek-V4 预览并提供模型权重供公众下载和使用后的仅几天内推出的。V4 被设计为两个不同的模型:DeepSeek-V4-Pro,包含 1.6 万亿参数,面向复杂推理与多步骤自动化工作流;DeepSeek-V4-Flash,针对以更低成本处理大量请求进行了优化。两个模型都支持 100 万 tokens 的上下文窗口,并采用混合注意力设计;公司表示该设计能在推理过程中降低算力与内存需求。
引发业界关注的并不只是模型本身,而是 V4 发布当天所展示的协同硬件支持。华为昇腾确认其 A2、A3 和 950 芯片兼容,其中昇腾 950 通过融合计算流程与并行处理流来加速对 V4-Pro 和 V4-Flash 的推理。寒武纪使用开源的 vLLM 推理框架完成了适配,并在 GitHub 上发布了代码。海光信息在其 DCU 平台上进行了深度模型优化,以实现从模型发布到部署的顺畅过渡。摩尔线程则与北京人工智能研究院合作,使用 FlagOS 软件栈在其 MTT S5000 卡上运行 V4。
多种芯片平台在同一天提供支持,代表着与历史模式的不同。过去,Nvidia 生态圈之外的硬件通常需要数月才能支持主要新模型。行业观察者指出,在发布当天就实现四种不同国产芯片平台的兼容,表明中国半导体与 AI 基础设施的成熟度出现了真正的变化。
DeepSeek 本次发布的更广泛意义,超出了单个技术成果本身。通过让 V4 能够原生同时运行在多种中国芯片上,DeepSeek 降低了对出口限制的依赖风险——这些限制此前一直阻碍中国公司获取最先进的美国处理器。成本效率仍然是 DeepSeek 战略的核心:公司把保持模型运行成本低作为重点,从而让企业能够构建自动化系统,而无需承担难以承受的计算开支。
行业观察者将这一发布描述为体现了整条供应链的成熟,而不仅仅是一项单独的技术突破。DeepSeek、芯片制造商与软件框架之间的协同,展示了完善的生态系统一体化发展。这一路线表明,AI 的竞争格局正在从关注单个模型的复杂性,转向长期维持完整、具成本效益且自主的系统能力。
DeepSeek 为其聊天机器人新增了哪些新能力?
DeepSeek 新增了“图像识别模式”,使其聊天机器人不仅能理解文本,还能理解照片和视频。该功能最初在网站和移动应用上对一小批用户进行了测试,从而使 DeepSeek 的能力与其他提供类似能力的主要 AI 聊天机器人保持一致。
发布当天有哪些中国芯片公司支持 DeepSeek-V4?
四家中国芯片公司确认在发布当天支持 DeepSeek-V4:华为昇腾 (使用 A2、A3 和 950 芯片)、寒武纪、海光信息以及摩尔线程。此前,在 Nvidia 生态圈之外,多芯片平台在同一天实现兼容性一直较为罕见,通常需要数月的适配工作。
DeepSeek-V4 的两个版本是什么?它们有什么区别?
DeepSeek-V4-Pro 具备 1.6 万亿参数,面向复杂推理与多步骤自动化工作流;而 DeepSeek-V4-Flash 针对以更低成本处理大量请求进行了优化。两者都支持 100 万 tokens 的上下文窗口,并使用混合注意力设计,以降低算力与内存需求。