ai987.cn

智哥的个人AI技能学习日志

DeepSeek V4 开源模型超越 GPT-5.3 登顶 MMLU 榜首

2026-06-27

Written by

据 ai987.cn 于 2026 年 6 月 27 日收到的消息 ‣ 中国人工智能研究实验室 DeepSeek 于 2026 年 3 月 9 日发布了 V4 版本模型。这是一个拥有 1.2 万亿参数的开源多模态模型，采用 MIT 许可证发布。V4 在 MMLU 推理基准测试中取得 89.4% 的成绩，超越了 GPT-5.3 的 88.1% 和 Claude 3.7 的 87.9%，成为首个在该榜单上领先当代闭源前沿模型的开放权重模型。

DeepSeek V4 开源模型超越 GPT-5.3 登顶 MMLU 榜首 - Image 1

在代码生成能力测试 HumanEval 上，V4 以 94.2% 的得分略微领先于 Claude 3.7 的 94.0%，并显著高于 GPT-5.3 的 91.7%。在数学竞赛基准 MATH 上，V4 以 91.1% 创下开源模型新纪录，同时也超越了此前所有已发布的闭源模型成绩。不过在多模态空间推理基准 MMMU 上，V4 的 72.4% 仍落后于 GPT-5.3 的 76.1%。

V4 采用专家混合架构，虽然总参数量达 1.2 万亿，但每次前向传播仅激活 370 亿参数。这种设计使其推理成本接近 370 亿参数的稠密模型。以 4 比特量化配置运行时，仅需 4 块 A100 80GB GPU，这套硬件在主流云平台均可获取。全精度运行则需要 8 块 H100 80GB GPU。

DeepSeek 通过自有 API 以每百万输入令牌 0.14 美元的价格提供服务，相比之下 GPT-5.3 和 Claude 3.7 的同类定价分别为 2.50 美元和 3.00 美元，价格差距达 17 到 21 倍。对于月处理 100 亿令牌的中型应用，年度成本差距可达 28 万美元以上。MIT 许可证允许任何组织免费下载、微调并商业部署，无需支付费用或共享修改。

V4 原生支持文本、代码和图像理解，可读取图表、分析截图、提取图像文字，但不具备图像生成能力，也不支持原生视频处理。模型在中英文表现最强，其他语言性能有待进一步评估。

开放权重发布不包含安全对齐微调，这是基础模型而非指令调优版本。这与 Meta 发布 Llama 时同步提供安全微调版本形成对比。安全研究人员曾在早期 DeepSeek 模型家族中记录到接近 100% 的对抗性越狱成功率。部署 V4 的组织必须自行实施安全过滤层、内容分类和速率限制。

DeepSeek 隶属于中国量化对冲基金高飞资本。V4 的训练在最新一轮美国 H100 GPU 出口管制生效前完成，使用合法获取的算力。DeepSeek 展示出的训练效率优势（约为美国实验室所需算力的 1/5 到 1/10）削弱了通过算力限制维持美国 AI 领先地位的政策逻辑。MIT 许可证的极致宽松性也使主权 AI 计划能够无依赖地部署前沿模型。

开源生态方面，V4 重塑了竞争格局。Meta 此前寄望 Llama 4 填补与闭源模型的差距，该定位已被 V4 占据。Mistral 的高效 MoE 架构差异化优势被 V4 在前沿性能上压制。阿里巴巴通义千问系列失去开源性能冠军地位。开源社区已在 48 小时内发布多个指令微调、代码专用和安全对齐变体。

企业采用取决于四个核心变量：成本敏感度、安全需求、部署偏好和特定能力需求。高吞吐推理、代码生成、数学推理、文档处理且具备自建安全层能力的场景最适合 V4。需要复杂多步智能体工作流、高精度空间视觉推理、超 128K 长上下文或合规限制使用中国源模型的场景，仍可能选择闭源替代方案。

截至 3 月 11 日，V4 在 HuggingFace 累计下载量超过 8 万次。这标志着 AI 前沿不再是美国大型科技公司的专属领域，开源模型在核心基准上实现超越，且以极低成本永久分发给全球用户。

综合自网络信息

⌜ 免责声明 ⌝
本站仅为个人学习AI（人工智能）知识的相关日志，网页内容（如有图片或视频亦包括在内）短期缓存均无商业目的。
遇有侵害您合法权益之处欲申诉删改，可联络处理（删/改）！

DeepSeek V4 开源模型超越 GPT-5.3 登顶 MMLU 榜首

More posts

DeepSeek V4 开源模型超越 GPT-5.3 登顶 MMLU 榜首

技术现代化基金推新提案呼吁 投资两亿美元加速联邦数字化转型

AI创业避开花哨竞争 聚焦枯燥痛点打造独角兽

未来人类X98工作站发布 192GB内存加持本地AI大模型运行

技术现代化基金推新提案呼吁投资两亿美元加速联邦数字化转型

AI创业避开花哨竞争聚焦枯燥痛点打造独角兽