不只是“小升级”!DeepSeek-R1新版获海外盛赞,
更新时间:2025-05-29 20:37:14 浏览次数:

  5月29日凌晨,DeepSeek-R1-0528正式在Hugging Face平台开源。此前一日,DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级,用户可通过官方网页、App、小程序进行测试,API接口和使用方式保持不变。

  在此次更新中,模型代码能力的提升最为显著。知名代码测试平台LiveCodeBench显示,更新后的R1性能可以媲美OpenAI o3模型的高版本。

  除代码能力外,R1新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k,长文本提取的准确率也有显著提升。

  知名AI评论人Haider在社交媒体上评价称,这是开源的一大胜利。

  瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang则表示,在这一“小”进步之后,我们确实可以期待更大突破的到来。

  
 

  “小升级”实现“大跨越”:升级后的R1性能媲美o3模型高版本

  DeepSeek延续了其一贯的低调风格,此次升级率先在群进行官宣,并轻描淡写地将其定义为“小版本升级”。

  然而,众多开发者实测后发现,此次的“小”升级,并不小。升级后的DeepSeek-R1,模型能力可以说实现了跨越式提升。

  
 

  据测试者反馈,DeepSeek-R1-0528能够
 

  除代码能力外,新版本模型的文本理解与推理能力亦实现跨越式升级。其在Extended NYT Connections基准测试中,相比于前一代DeepSeek-R1,最新的0528版本的提升非常明显,得分从38.6%大幅升至49.8%。

  
 

  目前,ChatBot Arena也已经“上架”了最新版本的DeepSeek-R1,但还没有任何的测试结果。

  
 

  为了更全面地测试DeepSeek-R1-0528的编程能力,作为一款经典的休闲游戏,俄罗斯方块游戏的开发涉及图形绘制、游戏逻辑处理、用户交互等多个方面,能够很好地考察模型对于综合编程知识的掌握和运用能力。

  DeepSeek仅思考了7秒,就开始输出代码。然而,初步生成的游戏无法正常运作,虽有预设的分数与关卡显示,但游戏区域内并没有俄罗斯方块。

  
 

  随后,
 

  从游戏页面来看,色彩搭配鲜明且协调,不同颜色的方块在深色背景下十分醒目,游戏区域布局合理,操作说明也清晰明了。

  在游戏逻辑方面,方块的下落、移动和旋转都很流畅,没有出现延迟或卡顿现象。

  可以说,已经具备了一个成熟俄罗斯方块游戏应有的功能和体验。

  接下来,难度升级。对于大模型而言,对物理世界进行准确模拟长期以来都是一项极具挑战性的任务。

  此次,因为任务更复杂,R1思考时间也相应变长,耗时54秒后开始输出代码。

  
 

  可以看出,R1的整体完成度极高,完全可以作为中小学科普动画的原型演示。

  从界面呈现看,太阳居于中心,在交互功能方面,右侧控制面板设计简洁且功能丰富。

  同时,页面“行星信息”板块还最后,财报中数据繁杂,文本较长,非常考察模型准确提取文本的能力。

  
 

  DeepSeek-R1生成的网页令人眼前一亮。在数据方面,尽管可能还存在一些细微的提升空间。比如,在涨跌幅的颜色上,我们通常用红色表示上涨,绿色表示下跌。但可能由于整体来看,R1已充分彰显其在复杂任务处理上的卓越潜力。

  “全球AI竞赛关键节点”!DeepSeek-R1新版获海外盛赞

  DeepSeek最新发布的R1模型升级版在全球AI领域掀起热议,多位国际主流科技大佬及行业高管纷纷发声,盛赞其技术突破。

  机器学习研究者kalomaze实测后赞叹道,“DeepSeek太出色了。”

  Hyperbolic Labs联合创始人兼首席技术官Yuchen Jin表示,新版R1似乎是唯一能回答9.9减9.11等于几的模型。

  知名AI评论人Haider直呼,这是开源的一大胜利。“AI撰稿人乔治·霍普金表示,瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang指出,DeepSeek的最新版R1模型,正悄然成为谷歌Gemini 2.5 Pro的强劲竞争对手。“

推荐图文

鄂ICP备2024040700号-2
武汉砺行体育文化传媒有限公司-版权所有
数据源自网络仅供参考