← Back to Terminal

关于Clawbot的另一些想法

李宸宇

突然发现,其实OpenClaw之后,agentic systems的版图清晰了不少,因为本来说agents are like OS更多停留在比喻层面,而现在看到了更多实质上的对应。

我觉得大类上可以分为两种:

  1. Run-centric的workflow模式(n8n、Dify、ComfyUI)——传统环环相扣一路跑到底
  2. Runtime-centric的常驻模式(OpenClaw)——始终在线的控制平面

两者都是在传统系统设计里非常成熟的范式,只不过在agentic的context下enable了不同的应用场景。

Workflow更多是作为一个给定输入、按流程跑完给输出的session。常用的场景是作为app的后端,提供定制化LLM"专业"能力。虽然session也可以通过webhook之类的触发,但是本身session是没有办法always-on的。

需要指出的是,区分这两者的关键词不是"event-driven"。n8n的workflow从trigger node启动,Dify把trigger定义为schedule或外部事件驱动的启动节点,ComfyUI把workflow提交到execution queue再通过WebSocket推送状态——它们都能被事件唤醒。真正区分run-centric和runtime-centric的是三件事:

Run-centricRuntime-centric
触发语义API/Schedule/Webhook触发一次运行持续监听多个事件源(ambient channel)
驻留方式运行完即退出(ephemeral run)进程常驻(always-on control plane)
状态所有权随运行消亡(session context)跨运行持久化(durable state)

而OpenClaw之所以会更"像"一个24h随时在线的个人助理,正是因为多了一层无限循环的runtime像航母一样可以连续几乎同时launch/回收多个session任务,并保持自身永远在线。需要注意的是这里的"航母"的发动机并不是一个24h不停燃烧token的LLM,而是一个传统软件工程意义上的deterministic的Loop。OpenClaw的Gateway正是这样一个always-on process——session state由gateway host持有,内建cron、hooks、webhooks,run在每个session lane内串行,但可以跨session并发。

Workflow式的应用强调的是结果的可预测性,按照固定步骤得出固定结果。在非LLM的系统中主要应用在数据处理、企业流程、金融/政府审批场景下。而runtime-centric的应用更接近微服务架构,强调的是系统能够根据给定的事件反射式地做出反应,比如说物联网中的条件触发,高频交易的实时数据流分析,社交媒体的上传、处理、发布流程。

OpenClaw不是runtime-centric agent的第一例——LangGraph已经主打durable execution和long-running stateful agents,Letta主打stateful agents,AutoGen把agent runtime当作基础设施概念来写——但是可以说是runtime-centric agent真正第一次触达终端用户(之前更多停留在只有开发者能够接触到的基础设施层面)。可以预见OpenClaw作为个人助理将只是runtime-centric agent范式大规模渗透的开始。

这个格局与计算产业的早期历史惊人地相似。IBM大型机时代是企业优先的:强大、集中、分时共享、由IT部门控制。PC革命的突围恰恰是绕开了企业,直接走向个人——先是极客(Altair、Apple II),再是消费者(Macintosh、Windows)。当前大多数agent创业公司走的是B2B SaaS路线——LangChain、CrewAI、AutoGen面向工程团队和企业客户,清晰的营收、明确的场景、更容易的GTM——这在结构上就是大型机模式。OpenClaw直接面向个人用户,更接近PC的突围路径。

B2B SaaS的agent公司当然能做出好生意——SaaS靠数据和流程把客户黏住,留存率不错。但云时代的教训很清楚:能赚钱和能拿到瓶颈标准是两回事。IaaS(AWS、Azure、GCP)靠砸钱砸出了寡头格局,营业利润率约35%,护城河说白了就是“你建不起”。SaaS(Salesforce、Workday)靠数据锁定留住客户,但只能在自己的垂直领域里转。PaaS(Docker、Kubernetes、Heroku)影响力大得惊人,但一直没找到好的变现方式,最后都走向了开放标准。三层都赚到了钱,但没有哪一层拿到过Windows那种级别的市场权力。这不是偶然的。IaaS和PaaS是基础设施生意,每多一个客户就要多花真金白银;SaaS边际成本虽然低,但只能锁住垂直场景,做不到Windows那种横跨所有应用的水平锁定;开源标准又堵死了单一API锁定的可能;再加上没有OEM预装这种分发渠道。Windows的瓶颈标准能成立靠的是几个条件同时满足——在云这边,每一层都缺了不同的那一块。IBM靠大型机赚了钱,AWS靠IaaS赚了更多的钱——事实上AWS卖的是整条基础设施栈而不只是操作系统授权,覆盖面更广,绝对利润也更高。没有瓶颈标准不等于不是好生意,尤其当潜在市场足够大的时候。但瓶颈标准这种级别的市场权力——单位收入利润率最高、锁定最深、最难被替代——历史上只在个人计算的软件层出现过:微软和英特尔。现在的B2B SaaS agent公司能签企业合同、能做出留存,但离瓶颈标准还差得远。如果OpenClaw只停留在开发者工具的层面,那它走的就是PaaS的老路——历史上最难变现的一层。但对普通用户来说,OpenClaw不是什么抽象的runtime——它是你跟所有agent、工具、服务打交道的那个默认入口。前者是Docker,后者是Windows。Agent时代真正的分叉点就在这里:是做开发者基础设施的一部分,还是做每个人的默认agentic OS。

从商业版图上来看的话,值得思考的是OpenClaw是否是个人微机时代的微软的对应。

但更精确的类比也许不是Windows,而是Docker或Node.js——一个开发者runtime,而不是消费者OS平台。这意味着近期的关键战场是开发者采纳,而不是消费者渗透。不过这并不削弱类比的价值——Docker和Node.js恰恰是通过先赢得开发者来重塑各自生态的。

因为能够跑到GitHub上克隆手作代码仓库的极客毕竟是少数,现在30万的OpenClaw GitHub加星数量跟全球智能手机的渗透率比起来依然是零头。企业SaaS用户习惯了网页操作,但是基数庞大的C端用户形成肌肉记忆的还是预装/中心化商店里的点击安装。

当封装成熟到可以像智能手机一样渗透到普通消费者之后,是否平台化,建立类似App Store一样的应用商店(Clawhub),让其他的应用服务运行在类似OpenClaw这样的runtime上是自然的下一步。

但个人计算的利润和权力,历史上从来不是按"整机价值"平均分配的。它集中在瓶颈标准上。微软拿到异常高的利润,不是因为它做的事最多,而是因为它同时占住了五个条件:瓶颈标准(Windows API是开发者必须面向的接口)、间接网络效应(用户要应用多的平台,开发者要用户多的平台)、极低边际成本(软件复制成本趋近于零)、向后兼容锁定(应用一旦写了就不想重写)、以及对补充品的联动变现(Office运行在Windows上,Windows预装在OEM硬件上)。美国政府在反垄断案里把这个机制拆得很清楚:Windows的垄断权力不只靠市场份额,而是靠applications barrier to entry——克隆Windows API既昂贵又几乎追不上。谁控制了"开发者必须面向谁写应用、OEM必须预装什么、用户默认先接触什么"这三个接口,谁就拿到了PC时代最厚的rent layer。

所以问题不是OpenClaw能不能做平台,而是它能不能控制agent时代的瓶颈标准。

Agent时代的技术栈大致是:模型 → 工具接口 → agent runtime → 应用。瓶颈可能落在其中任何一层:模型层(OpenAI/Anthropic的API)、工具生态(插件、API标准、agent协议)、身份与权限层(因为agent是自主行动的,谁控制授权谁就控制行为边界)、或者runtime本身。OpenClaw坐在runtime这一层——能否拿到瓶颈标准的位置,取决于开发者写agent时,哪一层是他们最不愿意换掉的——那一层就是瓶颈标准。

把平台化拆开看,其实是四层:

插件接口——别人怎么接进来。插件怎么打包、manifest长什么样、能注册哪些tools、schema怎么定义。OpenClaw已经有雏形。

权限模型——接进来后能做什么。agent不是等用户点按钮,而是被授权后自主调用工具,所以权限比传统app更关键。OpenClaw的Gateway协议里已经有operator scopes、node caps、全局allow/deny。

发现层——用户怎么找到并装上扩展。ClawHub基本就是这个。

结算层——生态里的钱怎么流。只有发现没有结算,你是npm;同时握住发现和结算,才接近App Store。ClawHub目前是free public registry,结算层还没有产品化。

压缩成一句话:只有插件接口,你是框架;加上权限,你是runtime;再加发现层,你是生态;再加结算层,你才开始像平台。

这四层并不是理论抽象——个人计算史上已经有一个完整的样本。早期Windows的模式是开放的:程序可以直接访问文件系统、注册表、网络和其他进程,代价是恶意软件泛滥、系统不稳定、驱动冲突不断。iOS翻转了这个模型:app → 沙箱 → 审批过的API → 系统资源,换来了安全、稳定、可预测——但也换来了一个高度受控的生态系统。

iOS的架构恰好映射到这四层:

平台层iOS对应
插件接口iOS SDK
权限模型沙箱(Sandbox)
发现层App Store
结算层App Store计费

Apple用了十年把这四层从零建到完整。如果agent runtime沿着同样的路径演化——从开放的框架走向受控的平台——那么这四层的完成度,而不是GitHub星标数,才是衡量谁离瓶颈标准最近的真正指标。

OpenClaw现在摸到了runtime + discovery,但还没有走到platform capture。Stars是注意力,不是install base;更不是像当年Windows那样的OEM预装权。当前桌面OS(Windows约67%)、移动OS(Android约68%、iOS约32%)和浏览器(Chrome约69%)的份额结构本身就说明,新runtime要夺走默认位并不容易。

曾经微软所占据的个人微机操作系统与英特尔所占据的CPU设计制造是微机时代利润最丰厚的生态位。OpenClaw是否会占据这样的位置,取决于它能否从runtime提供者进化为瓶颈标准的控制者——不只是让agent跑起来,而是让所有人都必须面向它来写agent。