AI Agent 时代开幕-Manus AI与OpenAI Agent SDK掀起新风暴

【本周AI新闻: AI Agent 时代开幕-Manus AI与OpenAI Agent SDK掀起新风暴】 https://www.bilibili.com/video/BV1bkQyYCEvQ/?share_source=copy_web&vd_source=32ed33e1165d68429b2e2eb4749f3f26

最近AI圈子里最火的话题非Manus莫属!这款由中国武汉创业公司“蝴蝶效应”推出的通用AI代理自上周发布以来,在全球范围内掀起了一阵热潮。不仅在国内备受瞩目,在国际科技圈也频频刷屏。连推特联合创始人杰克·多西(Jack Dorsey)和Hugging Face产品负责人维克多·穆斯塔尔(Victor Mustar)都对其赞不绝口,甚至有人称其为“第二个DeepSeek”——毕竟,这款AI的实力和它的“出身”都让人意想不到。

Manus到底是什么?

官方介绍称,Manus是全球首个真正意义上的“通用AI代理”。它并不像传统AI聊天机器人那样仅依赖单一大模型,而是集成了多个AI模型(包括Anthropic的Claude 3.5 Sonnet和阿里巴巴的开源Qwen的微调版本),并通过多个独立运行的代理协作完成各种任务。换句话说,它不仅会聊天,更具备主动执行复杂任务的能力。

当然,虽然热度空前,但能亲自体验到Manus的用户少之又少。当前,仅有不到1%的候补名单用户收到了邀请码,而Manus的Discord频道成员却已超过18.6万,足见市场期待值之高。

MIT科技评论的实测

MIT科技评论最近拿到了Manus的测试权限。整体体验下来,这款AI确实像一个超高效的智能实习生。它有时候会误解指令,甚至偶尔偷懒,但逻辑清晰、适应力强,而且给出详细反馈后会显著改进。虽然目前并不完美,但确实充满潜力。

Manus的界面设计简洁,默认语言为英语。登陆后,用户会看到一个类似ChatGPT或DeepSeek的主页,左侧显示历史对话记录,中间是聊天输入框。此外,官方还提供了一系列示例任务,如商业策略制定、交互式学习以及定制化音频冥想等。

一个独特的功能是**“Manus’s Computer”**窗口,允许用户实时查看Manus执行任务的过程,甚至在关键时刻介入调整,这点比大多数AI助手都更透明。

为了评测Manus的能力,测试员设置了三个任务:

  1. 列出知名的中国科技记者
  2. 搜寻纽约市两居室房源
  3. 推荐“35岁以下创新者”候选人
任务1:寻找中国科技记者

初版名单仅包含5个记者,外加5个“荣誉提名”。部分记者的代表作被标注,部分却没有。问Manus原因,得到的答案令人哭笑不得——“偷懒了。”
它直言自己在“优化研究效率”的过程中,部分信息没补充完整。在要求统一标准后,它迅速调整,最终给出了30名记者的详细列表,并附上了他们目前所在的媒体和代表作。值得一提的是,Manus的输出可以直接下载为Word或Excel文件,方便后续整理和分享。

不过,它在处理付费墙内容时遇到了障碍,许多新闻网站识别其为“可疑行为”并拒绝访问。如果未来版本能在遇到此类问题时主动请求用户协助,体验会更进一步。

任务2:搜寻纽约房源

Manus起初误解了“某种户外空间”的概念,直接筛掉了所有没有私人阳台或露台的房源。但经过调整,它最终生成了一个分层推荐列表,类似Wirecutter风格,包括“最佳整体选择”、“性价比最高”和“豪华选项”等类别。这项任务花了不到半小时,比整理记者名单快得多,可能是因为房地产数据更公开、结构化程度更高。

任务3:“35岁以下创新者”候选人

这个任务的难度最大。Manus需要研究往年榜单、制定搜索策略、筛选候选人,并确保多元化。然而,由于无法访问学术论文和部分新闻网站,研究进展受限。三小时后,它仅找到3个完整背景资料的候选人。最终,在强制要求下,它凑出了50个名字,但部分领域和机构过度集中,反映出研究仍有漏洞。在进一步补充“中国候选人”后,它确实找到了一些合适的人选,但不少是国内媒体常见的“明星创新者”。

最终评测

从实测来看,Manus确实是一个直观、适合无代码背景用户的AI工具。在某些任务上,它比ChatGPT DeepResearch表现更好,尤其擅长在开放网络上进行深入研究。但它的处理速度较慢,特别是涉及大范围搜索时,效率还有提升空间。

然而,它的稳定性仍需优化。测试过程中,Manus偶尔崩溃,甚至因服务器负载过高拒绝创建新任务。相比ChatGPT DeepResearch,它的任务失败率更高。Manus的首席科学家Peak Ji表示,团队正努力改善这一问题。而根据中国媒体36Kr的报道,每次任务的成本仅约2美元,远低于DeepResearch的20美元,成本优势明显。

Manus的一大亮点是透明且可定制的工作流程。它会主动询问问题,并在“知识”记忆中保留用户的重要指令,以便未来任务中使用。每个任务的操作步骤也可以回放和分享,提高了可控性和协作体验。

虽然Manus当前仍存在一些短板,但它已经展示了中国AI公司在通用智能代理上的独特创新能力,不再只是跟随西方步伐,而是在自主塑造AI技术的发展方向。未来,如果服务器架构得到优化,它有望成为白领、独立开发者和小型团队的新宠

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/897970.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多时间尺度的配电网深度强化学习无功优化策略的Python示例代码框架

以下是一个简单的多时间尺度的配电网深度强化学习无功优化策略的Python示例代码框架,用于帮助你理解如何使用深度强化学习(以深度Q网络 DQN 为例)来处理配电网的无功优化问题。在实际应用中,你可能需要根据具体的配电网模型和需求…

剑指 Offer II 081. 允许重复选择元素的组合

comments: true edit_url: https://github.com/doocs/leetcode/edit/main/lcof2/%E5%89%91%E6%8C%87%20Offer%20II%20081.%20%E5%85%81%E8%AE%B8%E9%87%8D%E5%A4%8D%E9%80%89%E6%8B%A9%E5%85%83%E7%B4%A0%E7%9A%84%E7%BB%84%E5%90%88/README.md 剑指 Offer II 081. 允许重复选择…

Webpack 前端性能优化全攻略

文章目录 1. 性能优化全景图1.1 优化维度概览1.2 优化效果指标 2. 构建速度优化2.1 缓存策略2.2 并行处理2.3 减少构建范围 3. 输出质量优化3.1 代码分割3.2 Tree Shaking3.3 压缩优化 4. 运行时性能优化4.1 懒加载4.2 预加载4.3 资源优化 5. 高级优化策略5.1 持久化缓存5.2 模…

虚拟电商-数据库分库分表(二)

本文章介绍:使用Sharding-JDBC实现数据库分库分表,数据库分片策略,实现数据库按月分表 一、Sharding-JDBC使用 1.1.准备环境 步骤一:分库分表sql脚本导入 创建了两个数据库:chongba_schedule0 和chongba_schedule1…

向量数据库对比以及Chroma操作

一、向量数据库与传统类型数据库 向量数据库(Vector Storage Engine)与传统类型的数据库如关系型数据库(MySQL)、文档型数据库(MongoDB)、键值存储(Redis)、全文搜索引擎&#xff0…

python列表基础知识

列表 创建列表 1.列表的定义:可变的,有序的数据结构,可以随时添加或者删除其中的元素 2.基本语法:字面量【元素1,元素2,元素3】使用[]创建列表 定义变量:变量名称【元素1,元素2&…

Node.js 的模块作用域和 module 对象详细介绍

目录 代码示例 1. 创建模块文件 module-demo.js 2. 导入模块并使用 module-demo.js 运行结果 总结 在 Node.js 中,每个文件都是一个独立的模块,具有自己的作用域。与浏览器 JavaScript 代码不同,Node.js 采用模块作用域,这意味…

美畅物联丨WebRTC 技术详解:构建实时通信的数字桥梁

在互联网技术飞速发展的今天,实时通信已成为数字生活的核心需求。WebRTC作为一个开源项目,凭借卓越的技术实力与创新理念,为网页和移动应用带来了颠覆性的实时通信能力。它突破了传统通信方式的限制,实现了音频、视频和数据在用户…

excel中两个表格的合并

使用函数: VLOOKUP函数 如果涉及在excel中两个工作表之间进行配对合并,则: VLOOKUP(C1,工作表名字!A:B,2,0) 参考: excel表格中vlookup函数的使用方法步骤https://haokan.baidu.com/v?pdwisenatural&vid132733503560775…

单引号与双引号在不同编程语言中的使用与支持

在编程语言中,单引号和双引号是常见的符号,它们通常用来表示字符和字符串。然而,如何使用这两种符号在不同的编程语言中有所不同,甚至有一些语言并不区分单引号和双引号的用途。本文将详细介绍不同编程语言中单引号与双引号的支持…

怎么鉴别金媒v10.51和v10.5的区别!单单从CRM上区分!

2.怎么鉴别程序是10.5还是10.51 ?* 作为商业用户,升级完全没有这个担心,但是这次升级从全局来看清晰度不是很高,不像10.5的升级后台UI都变化了!你说有漏洞但是我没遇到过 所以我也不知道升级了啥只能看版本数字是无法区…

python脚本实现服务器内存和cpu使用监控,并记录日志,可以设置阈值和采样频率

Python 脚本,实现以下功能: 按日期自动生成日志文件(例如 cpu_mem_20231001.csv)当 CPU 或内存超过阈值时触发记录独立记录报警事件(保存到 alert.log)支持自定义阈值和监控间隔 脚本代码 import psutil …

【Oracle】19c数据库控制文件多路径配置

一、关闭数据库(2个节点实例都要关闭) srvctl stop database -d ora19c 二、多路径控制文件 打开其中一个节点到nomount状态 sqlplus / as sysdba startup nomount; [oracleora19c1:/home/oracle]$ rman target / RMAN> restore controlfile to…

大模型训练全流程深度解析

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north 文章目录 1. 大模型训练概览1.1 训练流程总览1.2 关键技术指标 2. 数据准备2.1 数据收集与清洗2.2 数据…

【Linux】进程(1)进程概念和进程状态

🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:Linux 目录 前言 一、什么是进程 二、task_struct的内容 三、Linux下进程基本操作 四、父进程和子进程 1. 用fork函数创建子进程 五、进程状态 1. 三种重…

lws-minimal-ws-server前端分析

index.html index.html是前端入口 <html><head><meta charsetutf-8 http-equiv"Content-Language" content"en"/><!-- 引入js --><script src"/example.js"></script></head><body><img s…

L1-7 统一命名规范(java)

你所在的公司刚刚招收了几位程序员&#xff0c;然而这些程序员之前在不同的公司工作&#xff0c;所以他们习惯的变量命名规范可能存在差异&#xff0c;需要让他们都习惯公司要求的命名规范&#xff0c;然而这样可能会降低他们的工作效率。 你的上司找到了你&#xff0c;希望你…

Flexus应用服务器L实例、X实例以及ECS(弹性计算服务)之间的区别及其适用场景

为了更好地理解Flexus应用服务器L实例、X实例以及ECS&#xff08;弹性计算服务&#xff09;之间的区别及其适用场景&#xff0c;下面我将通过具体的例子来说明每种类型的使用情况。 1. Flexus L实例 特点: 针对高并发和负载均衡进行了优化。它可能包括更快的网络接口、更高效…

WebRTC中音视频服务质量QoS之RTT衡量网络往返时延的加权平均RTT计算机制‌详解

WebRTC中音视频服务质量QoS之RTT衡量网络往返时延加权平均RTT计算机制‌的详解 WebRTC中音视频服务质量QoS之RTT衡量网络往返时延加权平均RTT计算机制‌的详解 WebRTC中音视频服务质量QoS之RTT衡量网络往返时延加权平均RTT计算机制‌的详解前言一、 RTT 网络往返时延的原理‌1、…

odbus TCP转Modbus RTU网关快速配置案例

Modbus TCP 转Modbus RTU网关快速配置案例 在工业自动化领域&#xff0c;Modbus 协议以其简洁和高效而著称&#xff0c;成为众多设备通信的首选。 随着技术的发展和应用场景的变化&#xff0c;Modbus 协议也发展出了不同的版本&#xff0c;其中 Modbus TCP 和 Modbus RTU 是两种…