有关 AI Agent

08-30-2025

最近学习了很多 Agent 如何构建的想法,自己要做了梳理。

现在比较火的 Agent 产品是 Manus,包括类似的产品,有一个网页的入口,通过 Chat+虚拟机的方式。

虚拟机是创造了一个环境,把用户的需求的上下文都在这里管理。但这是一种很重的方式。

所以,我在思考的一个问题是:构建Agent是选择虚拟机的方式,还是Chrome 插件,也许虚拟机更先进,但 Chrome 插件也有更方便的地方。

为什么是插件呢?我每天重度使用的一个工具是 Monica Chrome 浏览器插件,是 Manus 这家公司的另一个产品。

对比 Manus,我更喜欢 Monica 插件,每天高频使用,几十上百次。

Monica Chrome插件了解我全部的基于浏览器工作的上下文——它的工作更像是 AI-in-the-Loop,在我需要的时候,快速顶上。不过很多人会讲 Monica 插件不算 Agent,但距离 Agent 只差一步,这个 Anthropic 的 Chrome 插件做到了。

Monica 插件我主要用来:

  • 做摘要/翻译,然后根据提到的内容进行快速了解,最后才决定要不要完整的阅读
  • 帮我写邮件、写 twitter/threads/reddit 帖子
  • 抽取网页的正文,更重要的是,可以抽取很多个网页的正文,然后按照我定义的 Prompt 创建一篇新的报告
  • 抽取网页的数据,比如表格、图片、视频等,保存为我需要的格式,例如 JSON、CSV 等

最近我也重度的使用了 Dia,但是对于多网页上下文的利用,远远不如 Monica 插件。

当然 Monica 也有一些缺点:

  • 这方面功能很久没有迭代了,交互体验有点儿差,Dia 好一些,一方面反应了团队的远见,另一方面可能也反应了后续选择的不同。
  • 缺少了多模态的理解
  • 模型的输出长度有限,但有的时候,我做的报告会比较长,不得不进行缩减。
  • 还不算 Agent,还不能自动化做一些事情

使用 Monica 插件,帮我很大程度提高了效率,我时常会想,Chrome 插件机制真的是一个大漏,并且谷歌也不好收紧这个权限。

现在 Anthropic 也推出了 Chrome 插件——这是必然的,思路和 claude code 一致,根植于某一个上下文中。

所以,我的核心思考之一是:AI Agent 的产品,不必像移动互联网一样,争做入口,一定要把用户绑定在这里,在这里重建全部的上下文。成本太高,效率太低。

更好的是,当用户需要的时候,在上下文中唤起,像在上下文里长出来的一样。对上下文是天然的了解。

模型能力这么强了,Chrome 插件形式的 Agent,不会只有 Anthropic 的,期待看到更多。

更重要的,下一个具备这样上下文获取能力的是:

  • 平台级别的超级入口:微信,或者衣食住行的超级入口
  • 手机厂商:苹果、谷歌、华为、小米等。