文章详情

DeepSeek发布V3重大更新：在代码和视觉上实现质的飞跃，附带5大评估维度

就在3月24日晚，也就是刚刚，没有预兆，DeepSeek 悄悄在 Hugging Face 平台上面更新了它的 V3 模型，DeepSeek-V3-0324。看了许多 X...

更新:

2025-04-03 07:00:03

文章详情介绍

DeepSeek发布V3重大更新：在代码和视觉上实现质的飞跃，附带5大评估维度

就在3月24日晚，也就是刚刚，没有预兆，DeepSeek 悄悄在 Hugging Face 平台上面更新了它的 V3 模型，DeepSeek-V3-0324。

DeepSeek发布V3重大更新：在代码和视觉上实现质的飞跃，附带5大评估维度

看了许多 X 网友的帖子发现，DeepSeek-V3-0324 模型（以下统称最新版V3）在前端代码的生成能力上有了质的提升，审美方面也提升了不少，甚至有网友说可以媲美 Claude 3.7 Sonnet。

DeepSeek发布V3重大更新：在代码和视觉上实现质的飞跃，附带5大评估维度

网友表示最新版 V3 的编码能力已经接近目前地表最强扛把子 Claude 3.7 了。

DeepSeek发布V3重大更新：在代码和视觉上实现质的飞跃，附带5大评估维度

DeepSeek 也在官方微信群通知，V3 模型已经完成小版本的升级，该版本的最新模型也已经同步至官网、App 和小程序，关闭“深度思考”就可体验。

DeepSeek发布V3重大更新：在代码和视觉上实现质的飞跃，附带5大评估维度

最新版 V3 主要更新：

1. 上下文窗口达到 128k（之前64k）( fp注：此条持疑，旧版本也是 128k，只是很多平台都部署的 64k ）；

2. 代码能力有了质的提升，审美也跟上了；

3. 还是老规矩，免费、开源、可商用，更新变成了 MIT 开源许可。

Founder Park 正在搭建开发者社群，邀请积极尝试、测试新模型、新技术的开发者、创业者们加入，请扫码详细填写你的产品/项目信息，通过审核后工作人员会拉你入群～ DeepSeek发布V3重大更新：在代码和视觉上实现质的飞跃，附带5大评估维度进群之后，你有机会得到：

高浓度的主流模型（如 DeepSeek 等）开发交流；

资源对接，与 API、云厂商、模型厂商直接交流反馈的机会；

好用、有趣的产品/案例，Founder Park 会主动做宣传。

01模型规模与架构

DeepSeek-V3 模型参数 685B，每个 token 激活 37 亿参数，继续沿用 “混合专家系统”（MoE）架构，由 256 个 “专家模型” 组成，根据问题选择 8 位专家协作，采用多头潜在注意力（MLA）降低推理时 KV 缓存，提升推理效率；引入无辅助损失的负载平衡策略，动态调整专家负载；使用多 token 预测（MTP）目标，增加训练信号密度，提高数据效率。

同时，最新版 V3 上下文窗从 64k 提升到128k，支持超长文本理解和生成。不过，有细心的群友发现论文已经的 128k 了，但是官方 API 文档中还是 64k，可能是做了限制，又或是还没更新。

DeepSeek发布V3重大更新：在代码和视觉上实现质的飞跃，附带5大评估维度