公认的编程栽植能力第一!Claude 3.7 Sonnet刚刚登顶 WebDev 竞技场榜首欧洲杯体育。
大幅甩第二名 100 多分,在榜单前十的其它相邻模子分差仅为几分、几尽头的情况下。
那第二名是谁呢?依然 Claude 我方—— Claude 3.5 Sonnet。
WebDev 榜单与咱们所熟知 Chatbot Arena 榜单"同宗同源",亦然由 LMArena(LMSYS Org)打造,不外更专注于 AI 编程、网页利用栽植能力。
值得一提的是,DeepSeek R1 当作榜单前十惟一的开源模子名循序三,超越 early-grok-3、o3-mini-high、Claude 3.5 Haiku 等。
对于 Claude 3.7 Sonnet 高分登顶,有网友暗意并不惊诧。
毕竟,这两天网友们汗漫实测 Claude 3.7,一次又一次被惊艳到,最新实测更是再次刷新网友对 Claude 3.7 的判辨。
比如前两世界面这个 Claude 3.7 Sonnet 用 p5js 编写布料模拟服从在网上疯传:
有位学者看到后,还晒出了我方 1986 年在 MIT 的硕士论文,主题恰是"布料外不雅建模"。他提到,夙昔完成这项责任需要数天时辰,而刻下 AI 只需几分钟就能超越他,不禁艳羡:
天然他们刻下还付我薪水,但这么的日子还能握续多久呢?
刻下,更扎心了老铁。
网友又作念出了另一版,依然带有明暗联系的那种:
网友暗意"这种服从即使是在高档图形学课中,也很少有教何如作念的"。
除此以外,Reddit 上一位老哥的最新共享也激勉网友热议。
他暗意倏得思起一个我方在 1997 年用 Visual Basic 4 编写的陈腐利用身手,于是将这个 27 年前的 EXE 文献上传到了 Claude 3.7 并央求和洽为 Python 代码,限制 Claude 不仅分析了文献组件,还在 5 分钟内用 Pygame 写出齐备和洽且可运行的 Python 代码。
这位老哥还晒出了我方与 Claude 3.7 的聊天纪录:
网友 get 新玩法后纷纷启动效仿。
另外,有网友体验了 Claude 3.7 的新GitHub 集胜仗能后暗意"它更正了工程师领路软件的形状":
不错 Frok 一个代码库选拔一个特定的文献夹,然后向它发问对于代码的任何问题,Claude 还会流露每个文献夹在高下文窗口中所占的百分比,匡助你更好地领路代码结构和践诺。
沃顿商学院训诲 Ethan Mollick 也放出了最新实测。
举例,基于" Bartleby the Scrivner "故事创建的小游戏:
还不错用 Claude 3.7 制作一个互动式的"时光机谈具,省略穿越回夙昔":
Ethan Mollick 专诚写了一篇 Blog 先容 Claude 3.7。
有酷爱的是,这篇 Blog 被 Anthropic 官方留意到了,官方暗意Claude 3.7 莫得那么大(花几千万好意思元磨练的那种)。但之后的模子规模会增长。
参考流畅:
[ 1 ] https://x.com/lmarena_ai/status/1894840263379689490
[ 2 ] https://x.com/deedydas/status/1894871849269633162
[ 3 ] https://x.com/deedydas/status/1894841573311197239
[ 4 ] https://x.com/deedydas/status/1894576702749381082
[ 5 ] https://x.com/emollick/status/1894258450852401243欧洲杯体育