DeepSeek V3升级！开源版上线Hugging Face，编码能力超Claude3.7（组图）

1天前来源：香港01 原文链接评论2条

据内媒《每日经济新闻》报道，3月24日晚，DeepSeek发布了模型更新——DeepSeek-V3-0324。本次更新为DeepSeek V3模型的版本更新，并非市场此前一直期待的DeepSeek-V4或R2。目前，其开源版本已上线Hugging Face。据悉，其开源版本模型体积为6850亿参数。

DeepSeek V3升级！开源版上线Hugging Face，编码能力超Claude3.7（组图） - 1

此前于2024年12月发布的DeepSeek-V3模型曾以「557.6万美金比肩Claude 3.5效果」的高性价比著称，其多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前，还没有任何关于新版DeepSeek-V3的能力基准测试榜单出现。

DeepSeek V3升级！开源版上线Hugging Face，编码能力超Claude3.7（组图） - 2

Deepseek V3-0324开源版上线Hugging Face。

DeepSeek V3升级！开源版上线Hugging Face，编码能力超Claude3.7（组图） - 3

Deepseek V3-0324发布，用户已可使用。

其后，DeepSeek于2025年1月发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型，该模型在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。

V3是一个拥有6710亿参数的专家混合模型（Moe），其中370亿参数处于激活状态。在传统的大模型中，通常会采用密集的神经网络结构，模型需要对每一个输入token都会被激活并参与计算，会耗费大量算力。

此外，传统的混合专家模型中，不平衡的专家负载是一个很大难题。当负载不均衡时，会引发路由崩溃现象，这就好比交通拥堵时道路瘫痪一样，数据在模型中的传递受到阻碍，导致计算效率大幅下降。

为了解决这个问题，常规的做法是依赖辅助损失来平衡负载。然而，这种方法存在一个弊端，那就是辅助损失一旦设置过大，就会对模型性能产生负面影响，就像为了疏通交通而设置过多限制，却影响了整体的通行效率。

DeepSeek V3升级！开源版上线Hugging Face，编码能力超Claude3.7（组图） - 4

An illustration titled DeepSeek in Suqian, Jiangsu Province, China, on January 25, 2025. (Photo by Costfoto/NurPhoto via Getty Images)

DeepSeek对V3进行了大胆创新，提出了辅助损失免费的负载均衡策略，引入「偏差项」。在模型训练过程中，每个专家都被赋予了一个偏差项，它会被添加到相应的亲和力分数上，以此来决定top-K路由。

此外，V3还采用了节点受限的路由机制，以限制通信成本。在大规模分布式训练中，跨节点的通信开销是一个重要的性能瓶颈。通过确保每个输入最多只能被发送到预设数量的节点上，V3能够显著减少跨节点通信的流量，从而提高训练效率。

根据国外开源评测平台kcores-llm-arena对V3-0324最新测试数据显示，其代码编码能力达到了328.3分，超过了普通版的Claude 3.7 Sonnet（322.3），可以比肩334.8分的思维链版本。

关键词： DeepSeek 升级开源版 Hugging Face

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络content@sydneytoday.com。

最新评论(2)

廖小淼 1天前

赶紧去Hugging Face体验一把！

UP-UP-RU 1天前

这版本更新看起来很强，但没V4稍微失望

热评新闻

“错过了，就真的回不去了！”澳联储降息引爆房价反弹，华人看房族后悔未及时“上车”（组图）

突发爆炸！整个机场瘫痪“堪比911”，千架航班取消，乘客摸黑逃命（视频/组图）

中餐厅惨遭血洗！现场7名亚裔被杀，老板2岁女儿逃过一劫（组图）

东航惨烈空难致132人遇难！事发3年仍未公布调查报告，遇难者家属发文质疑被删帖（组图）

澳华人区街道沦为“战场”！飙车党噪音扰民，孩童半夜被吓哭，有人被迫搬家（组图）

悉尼Westfield外公交站发生袭击事件，一男一女被刺伤（图）

澳学区房拍卖引激烈竞争，中国夫妇$152.6万拿下！卖家笑开花（组图）

澳洲性教育专家在中国大开眼界：女孩放屁无人侧目、姨妈巾直接外露、性教育差异更让她惊掉下巴（组图）

大S豪宅恐被查封！儿女已经搬走，豪宅内景和遗物全曝光了（组图）

家长注意！华人女孩Eastwood街头遭陌生男子搂抱，家长暴怒呵斥！疑专挑小女孩下手（组图）