DeepSeek 将于下周发布多模态 V4 模型

据英国《金融时报》 2 月 28 日报道,中国 AI 实验室 DeepSeek 将于下周发布其下一代多模态大语言模型 V4。该模型将原生支持图像、视频和文本生成,这是该公司自 2025 年 1 月推出 R1 推理模型以来的首次重大更新。

比预期更全面的模型

早期报道将 V4 主要定位为一个专注于编程的模型。当 The Information 在 1 月首次报道该项目时,内部基准测试表明 V4 在编程任务上将超越 Anthropic 和 OpenAI 的竞争对手,在处理长编程提示方面取得了进展。该模型最初预计在 2 月中旬左右推出,恰逢农历新年。

发布时间虽然推迟了,但模型的范围已经扩大。《金融时报》报道称,V4 现在具备完整的多模态能力,旨在填补 DeepSeek 所认为的高性能、低成本开源多模态模型的市场空白。DeepSeek 计划在发布时公布简要的技术说明,并在大约一个月后发布详细的工程报告。

此次发布正值 DeepSeek 硬件合作伙伴关系发生显著转变之际。据路透社 2 月 25 日报道,DeepSeek 打破了行业惯例,没有向英伟达和 AMD提供 V4 版本的预发布访问权限,而是让包括华为和寒武纪在内的中国芯片制造商提前数周获得优化该模型以适配其处理器的机会。

一位特朗普政府高级官员向路透社表示,DeepSeek 的最新模型是在中国大陆使用英伟达最先进的 Blackwell 芯片集群进行训练的,这可能违反了美国出口管制规定。该官员还补充说,DeepSeek 可能试图消除使用美国芯片的技术痕迹,并公开声称其训练依赖华为硬件。

自2025年1月DeepSeek崛起以来,其模型在开源平台Hugging Face上的下载量已超过7500万次。预计V4版本的发布将加剧与美国AI实验室的竞争,而此时华盛顿方面仍在继续收紧针对中国AI行业的芯片出口限制。

研究公司Creative Strategies的首席执行官Ben Bajarin表示:"对英伟达和AMD的通用数据加速器业务影响微乎其微——大多数企业并未运行DeepSeek,它更多是作为一个基准测试模型而非实际应用。"