Manus，困在沙盒中的手办

Manus 的开放注册标志着其商业化进程的正式启动。但是，Manus 到底擅长什么？

如果检视 Manus 的精选用例库，我们会发现约一半的用例是咨询报告（图 1），诸如，《B2B 供应商寻源报告》、《成衣行业 AI 产品分析》、《制定门店销售提升策略》等等：

图 1：“出报告”是 Manus 引以为傲的场景

咨询报告市场甚为肥厚。据 Forbes 统计，仅管理咨询行业 2024 年在全球的市场规模就超越了 1 万亿美元（麦肯锡 135 亿、BCG 120 亿、Bain 60 亿）。而一份由 3～5 个聪明的麦肯锡顾问花上十几周时间打磨的方案报告往往要破费甲方大几十万乃至数百万美元。

对于 Manus 而言，这种文本与逻辑密集、暴利且高大上的领域是理想的颠覆对象。毕竟，相较于扮演客服小姐姐或程序员大叔，用$19/月的Agent扮演藤校背景、年薪$ 200K+的麦肯锡顾问是更令投资人信服的 AGI 故事。所以，Manus 对咨询报告市场这块“肥肉”的图谋也并不令人意外。

沙盒

虽然 Manus 自信满满，但它真的能胜任管理咨询问题吗（例如下题）？“如何在 12 个月内提升 Tesla 的利润率?”

处理如此复杂的战略问题需要专家洞察、企业专有数据（工厂、产线、设备等）、以及第三方机构的 Benchmark。而网络搜索（Web Search），对于交付质量要求极高的管理咨询而言，并不是非常可靠的数据源。但该数据源（偶尔结合极少量的企业专有数据）几乎支撑了 Manus 所有的咨询报告任务。

好在当下，Manus 与用户之间的关系也没那么严肃：Manus 不会对交付质量负责，而用户也没有付出高昂的费用。这种不严肃的关系，基于不那么可靠的数据，产生了众多“没那么严肃”的报告，例如《查询 YC 的 B2B 初创公司》、《橡胶垫的供应商寻源》、《Karpathy.ai 的 SEO 优化方案》等等；这些报告也许有点用，但不多。

于是，我们看到一个有趣的景象：“不可靠的数据”和“不严肃的报告”打造了一只廉价的沙盒（图 2），将 Manus 对管理咨询的图谋困囿其中。

图2: 困囿 Manus 的沙盒

也许有人会说：“尽管数据层面表现不济，但 Manus 的“芯”是好的。一旦数据齐备，其推理能力还是有一战之力。”

如果让我说，困住 Manus 的不仅仅是数据。

飞轮

也许在未来的某天，AGI 终将颠覆人类的思维方式。但至少在当下，评价一个 Agent 的优劣仍然取决于其是否能够完美“复刻”模仿对象的思虑和行为。

以此类推，在数据之外，Manus 图谋的成败则取决于其是否能驱动 Hypothesis 飞轮（Hypothesis-Driven Flywheel）。

由麦肯锡启用于上世纪六十年代，Hypothesis 飞轮是驱动管理咨询项目的核心方法论。而该方法论得以延绵六十余年而不衰的主因是其具备一整套应对多样、复杂业务的 Hypothesis 演进机制。

如果让顾问驱动飞轮解决下述问题，其过程将大致由三部分构成（图 3）：“如何在 12 个月内提升 Tesla 的利润率?”

图3：Hypothesis 飞轮

其一，预判（Initial Hypothesis）。顾问利用先验知识（公开资料、行业经验、对 Tesla 业务的的理解等），带着对问题根因的预判启动项目；

其二，演进（Evolving）。顾问将 Hypothesis 拆解为指标，并从指标分析中提取洞察以验证 Hypothesis，验证包括正反两个结果（图 4）：

图4：Hypothesis 演进示例

正向洞察则以细节优化当前 Hypothesis，或形成新的 Hypothesis。例如，在“成本控制不足造成单车利润下降”的预判之上，通过产线和供应链指标分析，以洞察“新工厂初期爬坡成本过高”优化 Hypothesis，并将后续分析的重点聚焦到新工厂相关的指标上；

负向洞察排除错误的 Hypothesis。例如，虽然预判“营销及管理费用上升”是利润下降的主因之一，但经过外部专家访谈后，发现营销费用远低于传统车企，遂终结该 Hypothesis。

飞轮周而复始，以“Hypothesis->Analytics->Insights->Hypothesis”的迭代闭环不断演进，直到“Aha！Moment”的出现；

其三，“Aha！Moment”。当顾问发现了清晰、由数据支撑的问题根因，即可依据飞轮迭代过程中所产生的细节产生最终建议。

所以，Manus 能否复刻顾问的解题过程？

手办

答案是：NO。

如果乍一看，Manus 的复刻还有点似模似样：其表现出了对飞轮方法论的一定认知（图 5）；也生成了优化产线效率、打造韧性供应链等还算靠谱的预判。

图5：Manus 生成的解题规划

但如果细看，我们会发现 Manus 其实并未真正转动飞轮，仅仅完成一圈迭代后便草草地给出了最终建议（图 6）。

图6：Manus 仅仅完成了一次迭代

而在这个过程中，对于复刻顾问而言，Manus 至少存在“三不”问题：

首先，Manus 的方法论不能满足飞轮。在项目开始之初，Manus 会在“todo.md”文件中一次性生成完整规划并在后续严格执行之。而 Hypothesis 的演进是一个动态搜索过程，顾问会随时调整规划，更新和终结既有 Hypothesis，或构建新的 Hypothesis（图7），因此，Manus 和飞轮存在方法论级别的矛盾。

图7: 一次性规划 vs 动态规划

其次，Manus 的执行不沾业务。在任务规划之后，Manus 更热衷于在任务间传递基座大模型所生成的内容，而对内容本身并没有真正的见解，也自然谈不上优化。垂直领域的 Agent 至少还能利用知识图谱或基于业务数据的 Ground Truth 以校验思考过程，但 Manus 在这方面的能力几乎为零（图8）。

图8：Manus基本不沾业务

最后，Manus 对推理质量并不负责。Anthropic 在其论文《On the Biology of a Large Language Model》中阐述：面对 Hypothesis 式的验证，如果大模型在 CoT 过程中遇到障碍（例如，没有合适的计算工具），其会“以终为始”编造推理（Unfaithful Motivated Reasoning）以迎合 Hypothesis（图 9）：

图9：因为大模型无法求解 cos(23423)，其会编造一个 cos(23423) 约等于 0.8 以“迎合”最终答案

而 Manus 对此类编造并不负责任。例如，为了支撑 Hypothesis“优化产线效率提升单车利润”，在完全无法获取真实数据的情况下，基座大模型在推理过程中编造了洞察： “Tesla 的工厂利用率为 70%，不及 85%的行业标准”。虽然“70%”和“85%”这两个数字完全没有出处，但 Manus 仍然将其作为正向洞察以支撑 Hypothesis。

这样看来，“三不”的 Manus 对顾问只是“手办”级别的模仿 - 虽然外壳看起来似模似样，但里子却有天壤之别。

总而言之，Manus 就犹如沙盒中的一只手办，沙盒限制了其数据和任务的范围，而手办级的复刻对于高级人类思虑和行为而言则更像个玩具。也许技术的进步可以突破沙盒的界限，但玩具式的思维却很难改变。

当然，Manus 的问题也并非其独有，各类 Deep Research 也或多或少地面临类似的挑战。但对于图谋咨询报告市场的Agent而言，立足于转动飞轮可能是破局的良方。

Manus，困在沙盒中的手办

热门文章

相关推荐

站点推荐

热门标签