游戏传奇首页

游戏我的天下首页

最好看的新闻，最实用的信息

04月06日 25.2°C-28.0°C
澳元 : 人民币=4.4

悉尼

今日悉尼

SYDNEY TODAY

今日澳洲app下载

登录注册

大模型新王诞生！Claude 3首次超越GPT4（组图）

2024-03-29 来源：华尔街见闻原文链接评论0条

一觉醒来，大模型世界迎来了“新王登基”！

当地时间周三，聊天机器人竞技场Chatbot Arena更新对战排行榜，Claude 3反超GPT-4，一举摘得“最强王者”桂冠。

这次登顶榜首的是Claude 3系列的超大杯Opus，它以2分Elo的微弱优势，险胜GPT-4-1106-preview模型，GPT-4-0125-preview位列第三。

大模型新王诞生！Claude 3首次超越GPT4（组图） - 1

而且，不仅仅是超大杯Opus，Claude 3家族其他两个成员大杯Sonnet和小杯Haiku都杀进了TOP10，分别获得了第四和第六的好成绩。

大模型新王诞生！Claude 3首次超越GPT4（组图） - 2 小杯Haiku达到GPT-4级别

尤其是小杯Haiku，被官方单独拉出来表扬。

“Haiku给所有人留下了深刻的印象，根据我们的用户偏好，Claude 3 Haiku已经达到了GPT-4级别！”运行Chatbot Arena的LMSYS平台发帖大赞，“它的速度、功能和上下文长度目前在市场上是独一份的。”

大模型新王诞生！Claude 3首次超越GPT4（组图） - 3

更难等可贵的是，Haiku参数规模远远小于Opus以及任何的GPT-4模型，而且它的价格是Opus的1/60，响应速度却是它的10倍。

GPT-4自去年5月被纳入Chatbot Arena榜单以来一直牢牢霸占榜首，但现在，Claude 3凭借其出色表现，尤其是其在高级任务处理上的能力，成功颠覆了这一格局。

“这是史上第一次，面向高级任务的第一模型Opus和面向成本效率的Haiku均出自非OpenAI的供应商，”独立AI研究员Simon Willison在接受媒体采访时表示，“这非常让人欣慰——在这个领域，顶尖供应商的多样性对大家都有好处。”

大模型新王诞生！Claude 3首次超越GPT4（组图） - 4 “向新国王下跪！”

吃瓜网友也纷纷对Claude 3竖起大拇指。

“印象深刻，Very nice!”

大模型新王诞生！Claude 3首次超越GPT4（组图） - 5

还有人建议苹果将Claude设置为默认AI工具。

大模型新王诞生！Claude 3首次超越GPT4（组图） - 6

更有人直呼：“旧王已死。安息吧，GPT-4。”

大模型新王诞生！Claude 3首次超越GPT4（组图） - 7

“向新国王下跪！”

大模型新王诞生！Claude 3首次超越GPT4（组图） - 8

相比之下，网友对GPT-4的感情更加复杂。

“GPT-4变得非常蹩脚。”

大模型新王诞生！Claude 3首次超越GPT4（组图） - 10

最近几个月，有关GPT-4变懒的话题在网上闹得沸沸洋洋。

据称，GPT在高峰时段使用时，响应会变得非常缓慢且敷衍，甚至还会拒绝回应，单方面中断对话。

比如，它在进行编程工作时会习惯性地跳过部分代码，还出现了让人类自己写代码的名场面。

大模型新王诞生！Claude 3首次超越GPT4（组图） - 11

大模型新王诞生！Claude 3首次超越GPT4（组图） - 12 评分准确吗？

在一阵赞扬Claude 3的声音中，也夹杂着质疑的声音。

大模型新王诞生！Claude 3首次超越GPT4（组图） - 13

那么，Chatbot Arena究竟是如何给这些大模型打分的？

Chatbot Arena由伯克利大学主导团队的LMSYS开发。平台采用匿名、随机的方式让不同的大模型“打擂台”，并让人类用户担任裁判，最后根据大模型所得的积分进行排名。

具体来说，系统每次会随机选择两个不同的大模型和用户匿名聊天，让用户决定哪款大模型的表现更好一些，系统会根据用户的选择对大模型进行打分，然后将分数汇总整理形成最终的积分，最后以排行榜的形式呈现。

大模型新王诞生！Claude 3首次超越GPT4（组图） - 14

自推出以来，已有超过40万名用户成为Chatbot Arena的裁判。新一轮排名又吸引了7万名用户加入。

在本次激烈的“擂台赛”中，Claude 3通过成千上万次的对战，在GPT-4、Gemini等一众强劲对手中杀出重围，成为新的大模型之王。

大模型新王诞生！Claude 3首次超越GPT4（组图） - 15

值得一提的是，在评价一个大模型的好坏时，用户的“感觉”也就是体验感至关重要。

“所谓的参数标准无法真正评价大模型的价值，”AI软件开发者Anton Bacaj此前发贴说，“我刚和Claude 3 Opus进行了一场长时间的编码会话，真的是远超GPT-4。”

Claude 3的进化可能会令OpenAI感到一丝不安，一些用户已经开始在工作中“叛变”，放弃ChatGPT，转而使用Claude 3。

“自从有了Claude 3 Opus，我再也没有用过ChatGPT。”

大模型新王诞生！Claude 3首次超越GPT4（组图） - 16

软件开发者Pietro Schirano在X平台写道：“老实说，Claude 3 > GPT-4最令人震惊的事情之一，就是切换太容易了。”

但也有人指出，Chatbot Arena并没有考虑到添加工具后的表现，这恰恰是GPT-4的强项。

大模型新王诞生！Claude 3首次超越GPT4（组图） - 17

另外，Claude 3 Opus和GPT-4之间的分数非常接近，而且GPT-4已经问世一年了，预计今年某个时候会出现更强大的 GPT-4.5或GPT-5。

毋庸置疑，到那时这两大模型之间的PK将会更加激烈。

关键词：大模型世界登顶榜首 Claude3 Opus GPT-4 Haiku

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络content@sydneytoday.com。

相关新闻

大模型的2024，这可能是最早的一篇年度总结文（组图）

分析师，很遗憾，GPT-4解读财报确实更好！（组图）

AI届的拼多多来了！能力媲美GPT-4，价格为其1%（组图）

百度李彦宏：文心大模型4.0在中文上已超越GPT-4（组图）

对手相继突破GPT-4，OpenAI该放出“GPT-5”了？（组图）

百度李彦宏：文心大模型4.0在中文上已超越GPT-4（组图）

更快更强，Claude 3全面超越GPT4，能归纳15万单词（组图）

谷歌发布史上最强大模型Gemini，打爆GPT-4（组图）

对标GPT-4，谷歌发布大语言模型PaLM 2，可在手机运行，云、搜索、电邮等一网打尽（组图）

曹德旺谈人工智能：能做饭吃吗？如果大家都去研究会饿死（组图）

它颠覆了你对AI的认知，ChatGPT-4来了，全世界科技大厂黯然失色（组图）

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

今日评论网友评论仅供其表达个人看法，并不表明网站立场。

最新评论(0)

暂无评论

热评新闻

特朗普关税威胁下，澳央行维持4.10%利率不变（组图）

美国人疯狂囤货！中国对美所有进口商品征34%关税！特朗普坦言贸易战不容易，吁人民坚持到底（视频/组图）

“再待10分钟！”澳华男招妓却不举，恼怒持刀威胁！女子竟空手折白刃，终逃出生天（组图）

“女儿，赶紧报个平安！”悉尼华女离奇失联，中国父母正紧急赴澳寻人（组图）

“真的像坐牢！”困在澳洲的华人中年女性移民，“到头来，竟是没得选”（组图）

澳华人区最强“钉子户”！3次拒绝开发商报价，将被高楼包围（组图）

为了“倒头睡满8小时”的幸福感，这些澳洲华人回国后，选择二度“回流”返澳（组图）

澳洲取消公民身份，锁定10万华人？小红书虚假信息引忧虑，专家：恐影响华人选民（图）

“坎爷”宣布与澳籍妻子分手！后者频繁大尺度亮相引争议，分手原因是…（组图）

“江山易改，本性难移！”澳外长黄英贤珀斯力挺林文清，批达顿会“再敲战鼓”（组图）

相关搜索

调降被救疫情现场直播新签证新法案找工作所致性致开辟工作签证宝活墨尔本一串

评论

收藏

Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

分享新闻电话: (02) 8999 8797

联系邮箱: info@sydneytoday.com 商业合作: business@sydneytoday.com 网站地图

法律顾问：AHL法律 – 澳洲最大华人律师行新闻爆料：news@sydneytoday.com

友情链接：华人找房到家今日支付 Umall今日优选