欧美午夜精品-免费在线观看高清影视网站-999免费视频-韩国久久久-在线中文av-1024欧美-在线啪-成人影片在线-秋霞在线观看秋-国产精品国产三级国产专区52-国产在线高清视频-国产999在线-国产白拍-毛片在哪里看-日韩视频h-欧美日韩一区精品-在线只有精品-插插插色综合-成年人看的毛片-毛片av免费

DeepSeek-R1迎來0528小版本升級:編程性能大提升

DeepSeek-R1迎來0528小版本升級:編程性能大提升

瀟湘 / 2025-05-29 15:15135336

昨日晚間,深度求索旗下的大語言模型DeeoSeek-R1悄悄進行了一次小版本升級,但并未在官網發布更新公告,僅僅是在官方交流群中進行了通知,目前在官網、APP、小程序上均已可用。如果不出所料,近日官網將會發布更新公告。

35a7b7d26eb82caefddb4ef058847f2f.jpeg

根據Live CodeBench編程代碼測試平臺的評分,更新到0528版本的DeepSeek-R1的代碼編程性能超越了OpenAI于今年年初推出的o3 mini high。

v2-333ae1d92b5badac4d95567580003e2d_720w.jpg

根據知乎博主@toyama nao的測試,DeepSeek-R1 0528版本的邏輯成績有14.4%的大幅提升,更新之后再次躋身推理模型的第一梯隊,其中模型使用成本最亮眼,只有OpneAI o3 (high)的5%,不過通過測試的平均耗時較長。

GsEvGVFXMAAzRPs.jpg

GsFK8zNXAAAqS8f.jpg

在外網博主@Lech Mazur基于《紐約時報》解謎游戲的所設計的基準測試Extended NYT Connections中,DeepSeek-R1 0528版本的得分由38.6提升49.8,提升幅度高達29%。在Thematic Generation benchmark測試中,DeepSeek-R1 0528版本的得分(越低越好)由1.80縮減至1.74,排名則是由第9名躍升至第5名。

DeepSeek團隊還是非常謙虛,僅僅是一個小版本升級就有如此高的性能提升,換成別家說不定都命名成新模型了。


發表評論注冊|