游戏传奇首页
游戏我的天下首页
最好看的新闻,最实用的信息
03月27日 19.3°C-19.3°C
澳元 : 人民币=4.58
悉尼
今日澳洲app下载
登录 注册

DeepSeek V3升级!开源版上线Hugging Face,编码能力超Claude3.7(组图)

1天前 来源: 香港01 原文链接 评论2条

据内媒《每日经济新闻》报道,3月24日晚,DeepSeek发布了模型更新——DeepSeek-V3-0324。本次更新为DeepSeek V3模型的版本更新,并非市场此前一直期待的DeepSeek-V4或R2。目前,其开源版本已上线Hugging Face。据悉,其开源版本模型体积为6850亿参数。

DeepSeek V3升级!开源版上线Hugging Face,编码能力超Claude3.7(组图) - 1

此前于2024年12月发布的DeepSeek-V3模型曾以「557.6万美金比肩Claude 3.5效果」的高性价比著称,其多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前,还没有任何关于新版DeepSeek-V3的能力基准测试榜单出现。

DeepSeek V3升级!开源版上线Hugging Face,编码能力超Claude3.7(组图) - 2

Deepseek V3-0324开源版上线Hugging Face。

DeepSeek V3升级!开源版上线Hugging Face,编码能力超Claude3.7(组图) - 3

Deepseek V3-0324发布,用户已可使用。

其后,DeepSeek于2025年1月发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型,该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。

V3是一个拥有6710亿参数的专家混合模型(Moe),其中370亿参数处于激活状态。在传统的大模型中,通常会采用密集的神经网络结构,模型需要对每一个输入token都会被激活并参与计算,会耗费大量算力。

此外,传统的混合专家模型中,不平衡的专家负载是一个很大难题。当负载不均衡时,会引发路由崩溃现象,这就好比交通拥堵时道路瘫痪一样,数据在模型中的传递受到阻碍,导致计算效率大幅下降。

为了解决这个问题,常规的做法是依赖辅助损失来平衡负载。然而,这种方法存在一个弊端,那就是辅助损失一旦设置过大,就会对模型性能产生负面影响,就像为了疏通交通而设置过多限制,却影响了整体的通行效率。

DeepSeek V3升级!开源版上线Hugging Face,编码能力超Claude3.7(组图) - 4

An illustration titled DeepSeek in Suqian, Jiangsu Province, China, on January 25, 2025. (Photo by Costfoto/NurPhoto via Getty Images)

DeepSeek对V3进行了大胆创新,提出了辅助损失免费的负载均衡策略,引入「偏差项」。在模型训练过程中,每个专家都被赋予了一个偏差项,它会被添加到相应的亲和力分数上,以此来决定top-K路由。

此外,V3还采用了节点受限的路由机制,以限制通信成本。在大规模分布式训练中,跨节点的通信开销是一个重要的性能瓶颈。通过确保每个输入最多只能被发送到预设数量的节点上,V3能够显著减少跨节点通信的流量,从而提高训练效率。

根据国外开源评测平台kcores-llm-arena对V3-0324最新测试数据显示,其代码编码能力达到了328.3分,超过了普通版的Claude 3.7 Sonnet(322.3),可以比肩334.8分的思维链版本。

今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(2)
廖小淼
廖小淼 1天前 回复
赶紧去Hugging Face体验一把!
UP-UP-RU
UP-UP-RU 1天前 回复
这版本更新看起来很强,但没V4稍微失望


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

分享新闻电话: (02) 8999 8797

联系邮箱: info@sydneytoday.com 商业合作: business@sydneytoday.com网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:news@sydneytoday.com

友情链接: 华人找房 到家 今日支付Umall今日优选