最近一周,AI圈最热的词当属Manus。作为北京红色蝴蝶科技有限公司推出,尚处于封闭测试阶段的创新型AI智能体产品,Manus在过去几天既经历了“下一个DeepSeek”的高规格赞誉,也经历了因任务失败率高等问题而引发的质疑。


北京时间3月10日至11日,Manus在官方社交平台回应了外界关切的各种问题,公司联合创始人、首席科学家季逸超披露了Manus使用的底层模型与开源代码。3月10日17点,Manus也进行了2小时的维护,季逸超表示,维护后Manus的故障率大幅下降,但系统压力也更大,正努力解决问题。


Manus“更新前后”的产品表现有何不同?新京报贝壳财经记者对此进行了视频、网页、文字、游戏四个维度的测试。测试发现,3月11日更新后,Manus任务的成功率确实有明显进步,但也出现了“当前服务负载较高,无法创建任务”的情况。


“我们应该提倡各种AI原生的颠覆式创新,Manus团队值得提倡和鼓励,不是因为其营销方式,而是因为他们正不断追求新一代的AI原生应用模式和体验,不管是新的交互方式、新的服务方式还是新的商业模式,对行业的发展都很重要。”快思慢想研究院院长,原商汤智能产业研究院创始院长田丰告诉新京报贝壳财经记者。


记者实测:更新后任务成功率从50%上升至66.66%


相比于大语言模型类产品的交互窗口是一个小小的对话框,Manus的优势在于不仅可以思考,还可以执行用户的命令,且是完全“可视化”——通过屏幕右侧“Manus的电脑”窗口,用户可以完整看到Manus从思考、浏览网页到写程序甚至检测bug的全过程,这种产品设计带给人的新奇感就犹如头一次看到DeepSeek深度思考的过程一样,这也是新京报贝壳财经记者体验该产品的第一个感受。


但在体验后,许多用户反馈Manus完成用户提交任务的成功率并不高。对此,3月9日至10日,记者向Manus提出了8项任务要求,其成功完成了4项任务,另有4项任务因各种原因未完成,照此计算,任务成功率为50%。


视频说:Manus的“九子夺嫡模拟器”游戏任务执行界面


例如记者要求Manus以清朝康熙时期“九子夺嫡”为背景,使用Python设计一款“皇子模拟器”游戏,其最初运转良好,如使用4分钟上网浏览资料,研究了清朝历史和康熙九子夺嫡的背景,又分别花费2分钟创建了皇子资料、实现游戏介绍和角色选择功能,并在15分钟时完成了结局系统,但当其开始“测试游戏功能并修复bug”时,程序出现了停滞不动的状况,截至发稿时已过24小时,任务仍未完成。


而当记者要求Manus以贝壳财经已发布的视频为模板,新制作一个10秒钟的视频新闻时,Manus首先发现自己无法打开记者提供的抖音视频链接,并首次“求助”了记者,但记者提供视频后,其在“准备视觉素材”时再次陷入卡顿,任务未能完成。


Manus向记者“求助”要求提供视频内容 电脑截图


而在已完成的4项任务中,有2项任务也并未达到及格水平。如记者再度尝试进行视频制作任务并直接提供素材后,Manus才成功完成了这一任务,但其提供的成品视频中只有闪烁的文字内容,且文字最后溢出了屏幕,并未达到参考视频的效果。


左为新京报贝壳财经记者提供的参考视频,右为Manus生成的视频 电脑截图


而3月11日Manus的更新后,记者向其提出了6项任务要求,Manus成功完成了4项,相比更新前,成功率达到了66.66%,而失败的2项任务也并非中断,而是在任务开始之前就提示“当前服务负载较高,无法创建任务。请几分钟后再试。”


对于更新后的Manus,季逸超表示,“好消息是,我们几乎把Manus的上下文限制翻了一倍,还增强了沙盒硬件,使得故障率大幅下降。坏消息是,随着故障率降低,现在会话运行时间变长了,系统‘汗如雨下’,失败率又开始回升……只能暂时限制一下运行速度。我们正在努力解决……也许这就是封闭测试阶段的‘魅力’所在。”


回答问题一般耗时15分钟 答案比大语言模型更全面但并非“无所不能”


贝壳财经记者测试发现,根据任务难度的不同,Manus执行任务的时间也不同,如对“设计采访提纲与视频采访脚本方案”等几项文字类任务,Manus的执行时间约为15分钟至20分钟,而对于“设计金融科普互动产品”这项涉及网页交互的任务,Manus耗时31分钟,最终成功制作出了一个可以进行互动的网页产品,虽然其中一些具体场景的画面仍未完成,处于“半成品”,但这已经超越了大语言模型产品的能力范围。

Manus制作的金融科普互动产品,可以看到缺乏图像,但下方试题已经可以与用户互动


贝壳财经记者通过实测发现,Manus执行任务的时间一般在15分钟左右,对于文字类的回复其执行相对轻松,并且能生成多个文档。如记者同时对DeepSeek和Manus提出“浏览B站热门视频,推测可能爆火的科技新闻类选题,并设计文案”这一任务时,DeepSeek思考76秒后给出了回答,Manus则花费了超过15分钟,但相比DeepSeek给出了单一的文字回答,Manus一口气给出了包括“B站科技内容受众分析”“B站热门科技视频分析”“潜在爆款话题分析”“视频完整文案”在内的四个文档,回答的内容更加充分。


当然,Manus也并非一个“无所不能”的AI助手,如记者下达一个设计漫画作品的任务时,Manus只生成了文字框架和分镜设计,表示“作为AI助手,我无法直接绘制图像或创建视觉艺术作品”。同时,记者观察Manus的云端电脑发现,其在浏览网站时使用的是游客身份,当遇到一些需要登录才能浏览的内容,或者会员内容时,就会发生访问失败的情况,因此相比人类网络用户,Manus受到的限制更多,这也增加了它任务失败的概率。


田丰告诉记者,“在需要精准信源的领域,比如分析特斯拉股价,Manus只能抓取雪球、搜狐等二手信息,却无法直接获取财报原文。这可能涉及两方面问题:一是系统缺乏优先抓取权威信源的逻辑设计,二是受限于网络访问权限无法爬取一手数据。这种信息落差会对用户决策造成实质性误导。”


此外,在简单任务的表现上,Manus在效率上无法和更加垂直的产品相比,例如记者使用Manus耗时15分钟生成了一张PDF版本的“招聘启事”,而使用Kimi+的PPT生成功能,数分钟就生成了8页PPT招聘启事。


这也许就是为何Manus团队在产品爆火后给出了提示,称“大家目前看到的Manus还是一个襁褓中的小婴儿,离在正式版中想交付给大家的体验还差很远。像模型幻觉、交付物友好度、运行速度等方面都还有很大的提升空间。


外部关注度上升 Manus创新更多在产品层面而非模型层面


另一方面,同为广受关注的AI产品,相比DeepSeek,Manus在初期“爆火”的传播路径上有所不同:DeepSeek是从国外科技社区先行火爆,之后再传回国内,而Manus则是由国内先行传播,特别是首个详细实测是从自媒体的公众号开始,加上Manus产品创始人肖弘本身曾推出过微伴助手等企业微信营销应用,因此对于Manus爆火是基于“营销”的质疑始终不绝于耳。


但贝壳财经记者注意到,相比3月6日Manus初期火爆时外网平台英文用户几乎“无人问津”的态势,近几日英文用户对Manus的讨论正开始逐渐增多,如谷歌搜索创始团队成员DeedyDas在3月9日发文称,“深度研究+自动操作+电脑使用+可爱+记忆功能,Manus就是我们所承诺应该有的AI Agent。”3月11日,贝壳财经记者发现X平台上搜索靠前的关于Manus的讨论均为英文用户。


田丰告诉贝壳财经记者,Manus作为产品的核心突破在于构建了任务调度引擎。具体来说有三个创新点:它能够将复杂任务分解成清晰的子任务清单,比如完整展示调研步骤的逻辑框架;它像增强版搜索引擎,会主动抓取网页资料进行归纳整理,而不是被动等待指令;它支持实时查看任务进度条,若其支持中段修改任务,理论上这种迭代机制能大幅提升效率。


在他看来,Manus目前短板也很明显,根据他3月10日的实测,Manus执行复杂任务时超过40%会失败,“例如我要求分析40个AI工具,系统需要在全流程中持续携带上下文,最终可能因为超出算力限制或服务器负载,任务崩溃了。可以说,当前Manus更适合生活场景而非专业场景。”


“坦率地说,目前用户能够测试的Manus产品更像是0.1内测版本,而并非1.0版本,所以该产品需要快速迭代,才不会偃旗息鼓。Manus展现了细粒度、开放性的任务流、自动化引擎,虽然有些磕磕绊绊,但给了大家很好的指向,同时这也是一款AI原生应用,因为只有通过多款大模型才能支持工具流。”田丰说。


3月11日,有消息称Manus平台将与阿里通义千问团队达成战略合作,对此,阿里通义方面回复新京报贝壳财经记者称,“Manus和通义千问确实在进行开源模型方面的合作。我们期待与更多全球AI创新者开展合作。”


由此来看,Manus的创新更多在产品层面而非模型层面,多位观看Manus云电脑窗口的用户告诉贝壳财经记者,看着Manus在窗口中“很努力”地执行任务,“一下子就理解了什么是AI Agent”。智灵动力CTO朱旭琪则在接受贝壳财经记者采访时表示,Manus把OpenAI曾展示过的“虚拟机”操作做出了比较好的交互性,可圈可点。


对于Manus所代表的AI Agent类产品在未来的发展,田丰认为,当前最大的阻碍是生态封闭。如当用户要求比价京东拼多多,Manus只能搜到新闻稿而拿不到真实商品数据,因为平台屏蔽了搜索引擎爬虫。解决路径有两个:一是通过生态协商开放MCP接口,二是模拟人类操作接管用户账号完成动作。但两者都存在现实阻碍——前者难过大厂的“护城河”,后者则需要用户交出账号控制权存在信任危机。而一款AI Agent产品能否在这样的困境中“突出重围”,还需要多重考验。


记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 付春愔