DeepSeek 入驻 Cursor —— 表现能否超越 Claude?

DeepSeek 刚刚在 Cursor 平台上线了它的两款模型:DeepSeek V3 和 R1。目前,许多开发者(包括我们在内)主要依赖 Claude 3.5 Sonnet(最新版本 claude-3-5-sonnet-20241022)作为主要语言模型,因此我们决定对这几款新模型进行实战对比。

关于 DeepSeek

DeepSeek 最近因开源了其备受瞩目的 R1 模型而登上新闻头条,该模型的各项性能指标与 OpenAI 的 o1 相比毫不逊色,绝非易事。官方公布的编程相关基准测试数据也显示,大多数情况下它的表现有望超越 Claude 3.5 Sonnet 和 GPT-4o。Cursor 一贯动作迅速,新模型上架后,大家就迫不及待地开展了实际应用测试。

对比基准
DeepSeek R1 与 V3 的性能数据(由 DeepSeek 发布)与 OpenAI 的 o1 和 o1-mini 进行对比。

测试任务概述

此次测试分为两个主要部分:

  1. 聊天模式 —— 讨论如何在 Next.js 应用中为对话框添加服务端操作;

  2. 代码生成模式 —— 修改一个 CircleCI 配置文件,移除前端部署相关内容以及不再需要的 E2E 测试步骤。

需要说明的是,目前代理模式只对 Anthropic 模型和 GPT-4o 开放,因此这里不涉及该部分测试。


聊天模式

任务描述

问题要求说明如何在 Next.js 应用中,为一个对话框组件正确添加服务端操作。具体提示如下:

“如何实现一个服务端操作,并将其正确传递给这个对话框?”

同时,我们还附上了包含对话框组件的相关文件作为上下文。

DeepSeek R1 的表现

从媒体关注度来看,R1 自然成为首选测试对象。使用 R1 时,很快发现两个问题:

  1. 输出流式传输速度较慢
    R1 在输出时显得不够敏捷,等待时间较长。

  2. 回答开头带有较大的 <think>
    虽然这个预处理块如果能提升最终答案的质量,我们并不介意,但它与缓慢的流式输出叠加,明显延迟了实际回答的呈现。例如,它在回答一开始就输出了一大段 <think> 内容,再加上缓慢的流式传输,整个过程耗时较长。理论上,通过设置 Cursor 规则来跳过这部分内容是可以解决的,但此处我们测试的是默认状态。

此外,R1 的回答中提到需要安装 next-safe-action/hooks 来解决问题,但实际上并未在后续的回答中展示如何使用这个方案。对于这样简单的问题来说,仅仅建议安装额外的包显得有些大材小用。

DeepSeek V3 的表现

V3 的表现也不俗,甚至推荐使用 React 19 的新特性 useFormStatus,这表明它对较新的代码库有一定的学习。不过,它在实现上有一个致命问题:直接在客户端组件中调用了创建的服务端操作,而在 Next.js 中,这种写法是不可行的。比如,如果直接在客户端调用服务端代码,可能会导致页面报错或无法正常运行。
另外,V3 同样在输出流式传输上显得较慢,但由于它没有 R1 那样的冗长 <think> 块,总体体验稍微好一些。

Claude 3.5 Sonnet 的表现

Claude 3.5 Sonnet 的响应速度最快,即便在“慢请求模式”下(例如当每月超过 500 次付费请求时)。虽然它没有采用最新的 React 特性(例如 useFormStatus),并且同样直接在客户端组件中调用服务端操作,但它给出的解决方案更接近实际可用的答案。只需在服务端操作中加上 use server 声明,就能满足 Next.js 的要求。


代码生成模式

任务描述

在这部分测试中,我们提供了一个用于部署全栈应用的 CircleCI 配置文件。该应用拥有一个纯 React 前端和一个 Node.js 后端。部署流程中包含多个步骤,需要同时完成以下两点:

  1. 移除所有与前端部署相关的部分;

  2. 识别出既然只有后端存在,E2E 测试(使用 Cypress)也不再必要,并将其相关步骤一并去除。

提示内容明确指出“移除所有与前端部署相关的部分”,同时配置文件作为上下文也一并提供。

DeepSeek R1 的表现

对于 Composer 任务,我们原本期待带有 <think> 块的 R1 能在处理多个部分变动时表现更为出色。然而实际情况并不理想:

  • R1 遗漏了几处明显与前端部署相关的内容(例如提及构建 webapp 的引用),但它正确识别出不再需要 deploy-netlify 这一步骤,这部分表现值得肯定;

  • 同时,R1 移除了标记为 deploy_production_api 的后端部署步骤,但未能发现 E2E 测试已无意义这一问题。

DeepSeek V3 的表现

V3 在 Composer 任务上比 R1稍有优势,它修正了一些 R1 遗漏的问题,但同时也暴露出自己的不足——例如保留了 deploy-netlify 的步骤。值得一提的是,V3 在保持后端部署步骤完整方面表现不错,但同样未能判断出 E2E 测试部分可以删除。

Claude 3.5 Sonnet 的表现

老牌的 Sonnet 在这项任务中表现最佳:

  • 它成功移除了大部分与前端部署相关的命令,虽然也未能删除 deploy-netlify 步骤;

  • 在后端部署步骤方面,Sonnet 同样保持了完整;

  • 最关键的是,Sonnet 精准识别出由于只剩后端,E2E 测试完全没必要,并将包括 Cypress 二进制缓存等所有相关部分一并移除。这一点无疑是最佳解决方案的体现。


总结

Cursor 平台不断引入新模型,总能给开发者带来新的惊喜。尽管这两项测试任务较为简单,但足以展示 DeepSeek 模型在实际场景中的表现,与 Claude 3.5 Sonnet 相比,各有优劣。

综合来看,无论是在响应速度还是输出质量上,Claude 3.5 Sonnet 均显著领先于 DeepSeek 的两款模型。虽然未来响应速度方面可能会因服务器分布等因素得到改善,但就目前的实际测试结果来看,Sonnet 在实用性上依然稳居首位。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/895318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

持久性HTTPVS.非持久性HTTP

1. HTTP协议基础 HTTP&#xff08;HyperText Transfer Protocol&#xff09;是Web通信的核心协议&#xff0c;定义了客户端&#xff08;浏览器&#xff09;与服务器之间传输数据的规则。 在HTTP/1.0及之前的版本中&#xff0c;默认使用非持久性连接&#xff0c;而HTTP/1.1及更…

大数据与大模型:数字时代的共生力量

引言&#xff1a;大数据与大模型的崭新时代 在数字化浪潮汹涌澎湃的当下&#xff0c;大数据与大模型无疑是最为耀眼的两颗明星 &#xff0c;深刻地改变着我们的生活、工作和思维方式。大数据&#xff0c;作为信息时代的宝藏&#xff0c;蕴含着无尽的价值。从电商平台的海量交易…

中间件-redis-(ubantu)

1、安装依赖包 sudo apt-get update sudo apt-get install redis 一旦安装完成&#xff0c;Redis 服务将会自动启动。想要检查服务的状态&#xff0c;输入下面的命令&#xff1a; rootvims:/etc/redis# sudo systemctl status redis-server ● redis-server.service - Adva…

网络安全架构师怎么考 网络安全 架构

安全通信网络 随着现代技术的不断发展&#xff0c;等级保护对象通常通过网络实现资源共享和数据交互&#xff0c;当大量的设备连成网络后&#xff0c;网络安全成了最为关注的问题。按照“一个中心&#xff0c;三重防御”的纵深防御思想&#xff0c;边界外部通过广域网或城域网…

[2025年最新]2024.3版本idea无法安装插件问题解决

背景 随着大模型的持续发展&#xff0c;特别年前年后deepseek的优异表现&#xff0c;编程过程中&#xff0c;需要解决ai来辅助编程&#xff0c;因此需要安装一些大模型插件 问题描述 在线安装插件的时候会遇到以下问题&#xff1a; 1.数据一直在加载&#xff0c;加载的很满 2.点…

自动驾驶---如何打造一款属于自己的自动驾驶系统

在笔者的专栏《自动驾驶Planning决策规划》中&#xff0c;主要讲解了行车的相关知识&#xff0c;从Routing&#xff0c;到Behavior Planning&#xff0c;再到Motion Planning&#xff0c;以及最后的Control&#xff0c;笔者都做了相关介绍&#xff0c;其中主要包括算法在量产上…

centos7 升级openssl并安装python3

参考文章&#xff1a;https://www.cnblogs.com/chuanzhang053/p/17653635.html 卸载已有版本 yum remove -y openssl openssl-devel下载1.1版本 wget https://www.openssl.org/source/openssl-1.1.1v.tar.gztar -zxf openssl-1.1.1v.tar.gz 查看openssl.conf文件的目录 fin…

【python】3_容器

目录 一、列表 list 1.1基本语法 1.2 常用操作方法 1.3 列表的遍历 二、元组 tuple 特点&#xff1a; 三、字符串 常用操作方法&#xff1a; 四、序列 操作方法&#xff1a;切片 五、元素 特点&#xff1a; 基本语法&#xff1a; 集合常用功能&#xff1a; 六、字…

三角拓扑聚合优化器TTAO-Transformer-BiLSTM多变量回归预测(Maltab)

三角拓扑聚合优化器TTAO-Transformer-BiLSTM多变量回归预测&#xff08;Maltab&#xff09; 完整代码私信回复三角拓扑聚合优化器TTAO-Transformer-BiLSTM多变量回归预测&#xff08;Maltab&#xff09; 一、引言 1、研究背景和意义 在现代数据科学领域&#xff0c;时间序列…

Jenkins+gitee 搭建自动化部署

Jenkinsgitee 搭建自动化部署 环境说明&#xff1a; 软件版本备注CentOS8.5.2111JDK1.8.0_211Maven3.8.8git2.27.0Jenkins2.319最好选稳定版本&#xff0c;不然安装插件有点麻烦 一、安装Jenkins程序 1、到官网下载相应的版本war或者直接使用yum安装 Jenkins官网下载 直接…

AI 编程开发插件codeium Windsurf(vscode、editor) 安装

1、vscode中安装&#xff1a; 2、vscode中使用 3、输入注册的账号密码&#xff0c;就可以使用。 4、或者直接下载editor 5、安装editor 下一步&#xff0c;下一步&#xff0c;直到安装成功&#xff0c;中间可以改下安装位置&#xff0c;如果C盘空间不够。 同样提示注册或者登录…

【Mac排错】ls: command not found 终端命令失效的解决办法

【TroubleShooting on Mac】ls: command not found 终端命令失效的解决办法 A Solution to Solve “Command not found” of Terminal on Mac 一直在使用心爱的MacBook Pro的Terminal&#xff0c;并且为她定制了不同的Profile。 这样&#xff0c;看起来她可以在不同季节&…

502 Bad Gateway 错误详解:从表现推测原因,逐步排查直至解决

502 Bad Gateway 错误通常意味着服务器之间的通信失败&#xff0c;但导致的具体原因往往因场景而异。 场景一&#xff1a;高峰期频繁出现 502 错误 1.1 现象 在流量高峰期间&#xff08;如促销活动、直播发布等&#xff09;&#xff0c;页面访问变慢甚至出现 502 错误&#…

河北某石油管廊自动化监测

1. 项目简介 近年来&#xff0c;国家密集出台油气管道建设相关政策和规划引导中国油气管道加快建设&#xff0c;2017年&#xff0c;在《中长期油气管网规划》中对2025年和2030年油气管道发展目标均作出了相应的规划目标。另一方面&#xff0c;随着油气管道行业的发展&#xff…

问题:通过策略模式+工厂模式+模板方法模式实现ifelse优化

项目场景&#xff1a; 提示&#xff1a;这里简述项目相关背景&#xff1a; 示例&#xff1a;商城系统有会员系统&#xff0c;不同会员有不同优惠程度&#xff0c;普通会员不优惠&#xff1b;黄金会员打8折&#xff1b;白金会员优惠50元&#xff0c;再打7折&#xff1b; 问题描…

深入 JVM 虚拟机:字符串常量池演变与 intern() 方法工作原理解析

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall ︱vue3-element-admin︱youlai-boot︱vue-uniapp-template 🌺 仓库主页: GitCode︱ Gitee ︱ Github 💖 欢迎点赞 👍 收藏 ⭐评论 📝 如有错误敬请纠正! 前言 在 Java 开发中,字符串常量池(String Constant…

Android ndk兼容 64bit so报错

1、报错logcat如下 2025-01-13 11:34:41.963 4687-4687 DEBUG pid-4687 A #01 pc 00000000000063b8 /system/lib64/liblog.so (__android_log_default_aborter16) (BuildId: 467c2038cdfa767245f9280e657fdb85) 2025…

centos安装Nexus Repository OSS(Maven私服)

1. 下载链接&#xff1a;https://help.sonatype.com/en/download.html 2. 注意页面下载页面中的要求&#xff1a;JDK17&#xff08;启动时提示最低JDK1.8最高JDK17&#xff0c;但是使用JDK1.8无法正常启动&#xff09; 3. mkdir /opt/nexus 将压缩包上传到该目录并解压。 tar …

b站——《【强化学习】一小时完全入门》学习笔记及代码(1-3 多臂老虎机)

问题陈述 我们有两个多臂老虎机&#xff08;Multi-Armed Bandit&#xff09;&#xff0c;分别称为左边的老虎机和右边的老虎机。每个老虎机的奖励服从不同的正态分布&#xff1a; 左边的老虎机&#xff1a;奖励服从均值为 500&#xff0c;标准差为 50 的正态分布&#xff0c;即…

1.推荐算法基本概念

推荐算法是一个非常重要且广泛应用的领域&#xff0c;特别是在电子商务、社交媒体、内容推荐等领域。第一课我们将介绍推荐算法的基本概念和分类&#xff0c;并简单讲解两种常见的推荐算法&#xff1a;协同过滤和基于内容的推荐。 推荐算法的基本概念 推荐系统的目标是根据用…