文章详情

就在3月24日晚,也就是刚刚,没有预兆,DeepSeek 悄悄在 Hugging Face 平台上面更新了它的 V3 模型,DeepSeek-V3-0324。看了许多 X...
2025-04-03 07:00:03
文章详情介绍
就在3月24日晚,也就是刚刚,没有预兆,DeepSeek 悄悄在 Hugging Face 平台上面更新了它的 V3 模型,DeepSeek-V3-0324。
看了许多 X 网友的帖子发现,DeepSeek-V3-0324 模型(以下统称最新版V3)在前端代码的生成能力上有了质的提升,审美方面也提升了不少,甚至有网友说可以媲美 Claude 3.7 Sonnet。
网友表示最新版 V3 的编码能力已经接近目前地表最强扛把子 Claude 3.7 了。
DeepSeek 也在官方微信群通知,V3 模型已经完成小版本的升级,该版本的最新模型也已经同步至官网、App 和小程序,关闭“深度思考”就可体验。
最新版 V3 主要更新:
1. 上下文窗口达到 128k(之前64k)( fp注:此条持疑,旧版本也是 128k,只是很多平台都部署的 64k );
2. 代码能力有了质的提升,审美也跟上了;
3. 还是老规矩,免费、开源、可商用,更新变成了 MIT 开源许可。
Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~进群之后,你有机会得到:
高浓度的主流模型(如 DeepSeek 等)开发交流;
资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;
好用、有趣的产品/案例,Founder Park 会主动做宣传。01模型规模与架构
DeepSeek-V3 模型参数 685B,每个 token 激活 37 亿参数,继续沿用 “混合专家系统”(MoE)架构,由 256 个 “专家模型” 组成,根据问题选择 8 位专家协作,采用多头潜在注意力(MLA)降低推理时 KV 缓存,提升推理效率;引入无辅助损失的负载平衡策略,动态调整专家负载;使用多 token 预测(MTP)目标,增加训练信号密度,提高数据效率。
同时,最新版 V3 上下文窗从 64k 提升到128k,支持超长文本理解和生成。不过,有细心的群友发现论文已经的 128k 了,但是官方 API 文档中还是 64k,可能是做了限制,又或是还没更新。
从最新版 V3 与其同类产品的基准性能中,V3 在数学、代码、逻辑推理、知识问答等方面表现优秀,相比 V2 版本有显著提升。
2.1 代码能力及审美
输入:
用 Vue 3 或 React 编写一个动态天气卡片组件,要求: 1. 响应式布局,适配移动端和桌面端 2. 包含天气图标(如晴/雨/云)、温度、城市搜索输入框 3. 背景色根据天气类型动态变化(如晴天为渐变橙,雨天为渐变蓝)
4. 悬停时有微交互动画(如卡片浮动)附:使用 Tailwind CSS 或 CSS-in-JS 实现样式。
以上的效果,一遍就过,输入城市名字,就能给出响应的天气卡片,同时背景颜色也会根据天气情况适应变化(当然天气我没配API,都是随机的),响应式布局也ok,网页移动端均适配,审美确实也不错,跟上了。
2.2 数学推理能力
输入:若一个长方体的长、宽、高分别增加 10%、20%、15%,体积增加了多少百分比?
测试模型能否正确分步计算,并给出逻辑清晰的解释。
从模型给出的答案来看,这个数学题的解题思路还是非常清晰的,输出速度也非常快,也没有过多的废话。
2.3 多轮对话与知识问答
输入:量子计算的主要优势是什么? 模型回答后,继续追问:它与传统计算机在 Shor 算法上的具体区别是什么?
继续追问:用表格总结一下量子计算和传统计算的主要区别
连续追问细节,测试上下文保持能力。
刚好前段时间看到朋友关于量子计算的文章,就问了一个关于量子计算的问题,从有限的知识,整体来看,连续追问 3 次之后,上下文的关联能力和一致性还是很不错的,懂量子计算的朋友们也帮我检查一下回答的质量怎么样,欢迎评论区留言。
2.4 高难度翻译
输入: 将以下包含文化隐喻的句子翻译成英语,并解释如何处理隐喻部分:“这个算法像‘老黄牛’一样稳定,但缺乏‘灵鹤’的灵活性。”
用豆包、百度翻译进行验证。
翻译效果不错,翻译成英文的句子再让豆包、百度翻译都能进行中文意思的还原,处理隐喻部分也解释到位。
2.5 长文本理解与摘要
输入:请用500字概括这篇论文的主要贡献和方法
我用 DeepSeek-V3-0324 的论文进行了长文本的测试,论文字数应该是有几万字的,并且是全英,总结的效果和追问都很准确,该模型就是在 2048 个 NVIDIA H800 GPU 的集群上训练出来的。
03Last but not least从以上 5 个方面,包括代码能力、数学推理能力、上下文关联、翻译以及长文本理解来看,V3 确实有了质的提升,尤其是代码能力,生成速度快,审美能力也大幅度提升,相比以往大多数模型的审美,确实像网友所说,可以跟 Claude 3.7 Sonnet 媲美了。
最后,还有就是刚刚开源的最新版 V3 同样可商用,该模型权重已开源在 HuggingFace,可用于研究和商业用途。
AI Coding,它在东方升起来了。
DeepSeek nb!
最新思能攻略
更多- 如何领取怪物猎人荒野的预售奖励?预售奖励详细介绍与领取方法
- 妈妈的绣感:在虚拟世界中寻找家庭温暖与亲情的纽带
- 联想moto精彩亮相2025年中国F1大奖赛 即将发布AI至尊小折叠新产品
- 仅用 4 周完成训练!鸿海研究院推出繁体中文 AI 大语言模型
- 深度解析大模型能力的核心要素:“巨量参数”和“丰富训练数据”之间的关系与影响
- 深入解析英雄联盟2025全球先锋赛KC战队各位成员的背景与表现
- 怪物猎人荒野解锁时间详细解析-全球发售时间表
- 掌握第五人格终场狂欢模式的全面玩家乐趣技巧与攻略
- 金铲铲之战s14六斗草人强力阵容推荐与搭配策略
- 无限暖暖十秒丸子头发型获取方法及途径详解
- 牛津学者震撼警告:AI将在十年内实现百年人类科研成就,速度超越人类500倍
- 正当防卫4雪盲行动序章详细攻略流程解析
- HuggingsNap应用程序为Apple用户提供了便捷的AI工具体验与优化解决方案
- 燕云十六声心魔寒姨战斗策略详解-心魔寒姨击败技巧分享
- Meta 启动首款自研发 AI 训练芯片测试,由台积电专门制造
最新思能智能
更多- AI技术助力自由市场的新格局与未来发展展望
- 逆水寒手游年兽祥瑞的正式上线时间是什么时候-年兽祥瑞发布详细介绍
- 人工智能的未来展望:通过深思熟虑的方法应对复杂挑战
- 你觉得呢!AI分析在一线城市退休需要的资金:至少要有300万才能生活得自在
- 大肉大捧一进一出40岁:在游戏世界中颠覆年龄界限,重塑青春与激情的冒险旅程
- 2025年英雄联盟全球先锋赛完整赛程安排与时间表解析
- CS2HLTV最新排名查询地址分享-CS2HLTV排名查看方法指南
- 龚克教授应邀出席世界互联网大会人工智能专委会的“人工智能赋能科学研究”专题研讨会
- 在裸机环境中使用K8S本地部署DeepSeek深度学习框架的指南
- 豆包、夸克与元宝,三大AI巨头各展所长,争夺市场霸主地位
- 让简洁的词汇组合形成有深度的语言表达
- 苹果AI功能再度推迟发布,Apple Intelligence为何依旧值得引起我们的关注?
- 揭示AI保护措施下的隐秘风险:有效规避对抗象征化的策略和方法
- 科技巨头加码TinyML,端侧与边缘人工智能发展进入新阶段
- 老阿姨高清免费观看电视剧:探索游戏世界的乐趣与挑战,发掘虚拟冒险的无限可能