不只是“小升级”！DeepSeek-R1新版获海外盛赞，

更新时间：2025-05-29 20:37:14 浏览次数：

　　5月29日凌晨，DeepSeek-R1-0528正式在Hugging Face平台开源。此前一日，DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级，用户可通过官方网页、App、小程序进行测试，API接口和使用方式保持不变。

　　在此次更新中，模型代码能力的提升最为显著。知名代码测试平台LiveCodeBench显示，更新后的R1性能可以媲美OpenAI o3模型的高版本。

　　除代码能力外，R1新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k，长文本提取的准确率也有显著提升。

　　知名AI评论人Haider在社交媒体上评价称，这是开源的一大胜利。

　　瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang则表示，在这一“小”进步之后，我们确实可以期待更大突破的到来。

　　“小升级”实现“大跨越”：升级后的R1性能媲美o3模型高版本

　　DeepSeek延续了其一贯的低调风格，此次升级率先在群进行官宣，并轻描淡写地将其定义为“小版本升级”。

　　然而，众多开发者实测后发现，此次的“小”升级，并不小。升级后的DeepSeek-R1，模型能力可以说实现了跨越式提升。

　　据测试者反馈，DeepSeek-R1-0528能够

　　除代码能力外，新版本模型的文本理解与推理能力亦实现跨越式升级。其在Extended NYT Connections基准测试中，相比于前一代DeepSeek-R1，最新的0528版本的提升非常明显，得分从38.6%大幅升至49.8%。

　　目前，ChatBot Arena也已经“上架”了最新版本的DeepSeek-R1，但还没有任何的测试结果。

　　为了更全面地测试DeepSeek-R1-0528的编程能力，作为一款经典的休闲游戏，俄罗斯方块游戏的开发涉及图形绘制、游戏逻辑处理、用户交互等多个方面，能够很好地考察模型对于综合编程知识的掌握和运用能力。

　　DeepSeek仅思考了7秒，就开始输出代码。然而，初步生成的游戏无法正常运作，虽有预设的分数与关卡显示，但游戏区域内并没有俄罗斯方块。

　　随后，

　　从游戏页面来看，色彩搭配鲜明且协调，不同颜色的方块在深色背景下十分醒目，游戏区域布局合理，操作说明也清晰明了。

　　在游戏逻辑方面，方块的下落、移动和旋转都很流畅，没有出现延迟或卡顿现象。

　　可以说，已经具备了一个成熟俄罗斯方块游戏应有的功能和体验。

　　接下来，难度升级。对于大模型而言，对物理世界进行准确模拟长期以来都是一项极具挑战性的任务。

　　此次，因为任务更复杂，R1思考时间也相应变长，耗时54秒后开始输出代码。

　　可以看出，R1的整体完成度极高，完全可以作为中小学科普动画的原型演示。

　　从界面呈现看，太阳居于中心，在交互功能方面，右侧控制面板设计简洁且功能丰富。

　　同时，页面“行星信息”板块还最后，财报中数据繁杂，文本较长，非常考察模型准确提取文本的能力。

　　DeepSeek-R1生成的网页令人眼前一亮。在数据方面，尽管可能还存在一些细微的提升空间。比如，在涨跌幅的颜色上，我们通常用红色表示上涨，绿色表示下跌。但可能由于整体来看，R1已充分彰显其在复杂任务处理上的卓越潜力。

　　“全球AI竞赛关键节点”！DeepSeek-R1新版获海外盛赞

　　DeepSeek最新发布的R1模型升级版在全球AI领域掀起热议，多位国际主流科技大佬及行业高管纷纷发声，盛赞其技术突破。

　　机器学习研究者kalomaze实测后赞叹道，“DeepSeek太出色了。”

　　Hyperbolic Labs联合创始人兼首席技术官Yuchen Jin表示，新版R1似乎是唯一能回答9.9减9.11等于几的模型。

　　知名AI评论人Haider直呼，这是开源的一大胜利。“AI撰稿人乔治·霍普金表示，瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang指出，DeepSeek的最新版R1模型，正悄然成为谷歌Gemini 2.5 Pro的强劲竞争对手。“