据 ai987.cn 于 2026 年 6 月 27 日收到的消息 ‣ 中国人工智能研究实验室 DeepSeek 于 2026 年 3 月 9 日发布了 V4 版本模型。这是一个拥有 1.2 万亿参数的开源多模态模型,采用 MIT 许可证发布。V4 在 MMLU 推理基准测试中取得 89.4% 的成绩,超越了 GPT-5.3 的 88.1% 和 Claude 3.7 的 87.9%,成为首个在该榜单上领先当代闭源前沿模型的开放权重模型。

在代码生成能力测试 HumanEval 上,V4 以 94.2% 的得分略微领先于 Claude 3.7 的 94.0%,并显著高于 GPT-5.3 的 91.7%。在数学竞赛基准 MATH 上,V4 以 91.1% 创下开源模型新纪录,同时也超越了此前所有已发布的闭源模型成绩。不过在多模态空间推理基准 MMMU 上,V4 的 72.4% 仍落后于 GPT-5.3 的 76.1%。
V4 采用专家混合架构,虽然总参数量达 1.2 万亿,但每次前向传播仅激活 370 亿参数。这种设计使其推理成本接近 370 亿参数的稠密模型。以 4 比特量化配置运行时,仅需 4 块 A100 80GB GPU,这套硬件在主流云平台均可获取。全精度运行则需要 8 块 H100 80GB GPU。
DeepSeek 通过自有 API 以每百万输入令牌 0.14 美元的价格提供服务,相比之下 GPT-5.3 和 Claude 3.7 的同类定价分别为 2.50 美元和 3.00 美元,价格差距达 17 到 21 倍。对于月处理 100 亿令牌的中型应用,年度成本差距可达 28 万美元以上。MIT 许可证允许任何组织免费下载、微调并商业部署,无需支付费用或共享修改。
V4 原生支持文本、代码和图像理解,可读取图表、分析截图、提取图像文字,但不具备图像生成能力,也不支持原生视频处理。模型在中英文表现最强,其他语言性能有待进一步评估。
开放权重发布不包含安全对齐微调,这是基础模型而非指令调优版本。这与 Meta 发布 Llama 时同步提供安全微调版本形成对比。安全研究人员曾在早期 DeepSeek 模型家族中记录到接近 100% 的对抗性越狱成功率。部署 V4 的组织必须自行实施安全过滤层、内容分类和速率限制。
DeepSeek 隶属于中国量化对冲基金高飞资本。V4 的训练在最新一轮美国 H100 GPU 出口管制生效前完成,使用合法获取的算力。DeepSeek 展示出的训练效率优势(约为美国实验室所需算力的 1/5 到 1/10)削弱了通过算力限制维持美国 AI 领先地位的政策逻辑。MIT 许可证的极致宽松性也使主权 AI 计划能够无依赖地部署前沿模型。
开源生态方面,V4 重塑了竞争格局。Meta 此前寄望 Llama 4 填补与闭源模型的差距,该定位已被 V4 占据。Mistral 的高效 MoE 架构差异化优势被 V4 在前沿性能上压制。阿里巴巴通义千问系列失去开源性能冠军地位。开源社区已在 48 小时内发布多个指令微调、代码专用和安全对齐变体。
企业采用取决于四个核心变量:成本敏感度、安全需求、部署偏好和特定能力需求。高吞吐推理、代码生成、数学推理、文档处理且具备自建安全层能力的场景最适合 V4。需要复杂多步智能体工作流、高精度空间视觉推理、超 128K 长上下文或合规限制使用中国源模型的场景,仍可能选择闭源替代方案。
截至 3 月 11 日,V4 在 HuggingFace 累计下载量超过 8 万次。这标志着 AI 前沿不再是美国大型科技公司的专属领域,开源模型在核心基准上实现超越,且以极低成本永久分发给全球用户。
综合自网络信息