关于Clawbot的另一些想法

李宸宇

突然发现，其实OpenClaw之后，agentic systems的版图清晰了不少，因为本来说agents are like OS更多停留在比喻层面，而现在看到了更多实质上的对应。

我觉得大类上可以分为两种：

Run-centric的workflow模式（n8n、Dify、ComfyUI）——传统环环相扣一路跑到底
Runtime-centric的常驻模式（OpenClaw）——始终在线的控制平面

两者都是在传统系统设计里非常成熟的范式，只不过在agentic的context下enable了不同的应用场景。

Workflow更多是作为一个给定输入、按流程跑完给输出的session。常用的场景是作为app的后端，提供定制化LLM"专业"能力。虽然session也可以通过webhook之类的触发，但是本身session是没有办法always-on的。

需要指出的是，区分这两者的关键词不是"event-driven"。n8n的workflow从trigger node启动，Dify把trigger定义为schedule或外部事件驱动的启动节点，ComfyUI把workflow提交到execution queue再通过WebSocket推送状态——它们都能被事件唤醒。真正区分run-centric和runtime-centric的是三件事：

	Run-centric	Runtime-centric
触发语义	API/Schedule/Webhook触发一次运行	持续监听多个事件源（ambient channel）
驻留方式	运行完即退出（ephemeral run）	进程常驻（always-on control plane）
状态所有权	随运行消亡（session context）	跨运行持久化（durable state）

而OpenClaw之所以会更"像"一个24h随时在线的个人助理，正是因为多了一层无限循环的runtime像航母一样可以连续几乎同时launch/回收多个session任务，并保持自身永远在线。需要注意的是这里的"航母"的发动机并不是一个24h不停燃烧token的LLM，而是一个传统软件工程意义上的deterministic的Loop。OpenClaw的Gateway正是这样一个always-on process——session state由gateway host持有，内建cron、hooks、webhooks，run在每个session lane内串行，但可以跨session并发。

Workflow式的应用强调的是结果的可预测性，按照固定步骤得出固定结果。在非LLM的系统中主要应用在数据处理、企业流程、金融/政府审批场景下。而runtime-centric的应用更接近微服务架构，强调的是系统能够根据给定的事件反射式地做出反应，比如说物联网中的条件触发，高频交易的实时数据流分析，社交媒体的上传、处理、发布流程。

OpenClaw不是runtime-centric agent的第一例——LangGraph已经主打durable execution和long-running stateful agents，Letta主打stateful agents，AutoGen把agent runtime当作基础设施概念来写——但是可以说是runtime-centric agent真正第一次触达终端用户（之前更多停留在只有开发者能够接触到的基础设施层面）。可以预见OpenClaw作为个人助理将只是runtime-centric agent范式大规模渗透的开始。

这个格局与计算产业的早期历史惊人地相似。IBM大型机时代是企业优先的：强大、集中、分时共享、由IT部门控制。PC革命的突围恰恰是绕开了企业，直接走向个人——先是极客（Altair、Apple II），再是消费者（Macintosh、Windows）。当前大多数agent创业公司走的是B2B SaaS路线——LangChain、CrewAI、AutoGen面向工程团队和企业客户，清晰的营收、明确的场景、更容易的GTM——这在结构上就是大型机模式。OpenClaw直接面向个人用户，更接近PC的突围路径。

B2B SaaS的agent公司当然能做出好生意——SaaS靠数据和流程把客户黏住，留存率不错。但云时代的教训很清楚：能赚钱和能拿到瓶颈标准是两回事。IaaS（AWS、Azure、GCP）靠砸钱砸出了寡头格局，营业利润率约35%，护城河说白了就是“你建不起”。SaaS（Salesforce、Workday）靠数据锁定留住客户，但只能在自己的垂直领域里转。PaaS（Docker、Kubernetes、Heroku）影响力大得惊人，但一直没找到好的变现方式，最后都走向了开放标准。三层都赚到了钱，但没有哪一层拿到过Windows那种级别的市场权力。这不是偶然的。IaaS和PaaS是基础设施生意，每多一个客户就要多花真金白银；SaaS边际成本虽然低，但只能锁住垂直场景，做不到Windows那种横跨所有应用的水平锁定；开源标准又堵死了单一API锁定的可能；再加上没有OEM预装这种分发渠道。Windows的瓶颈标准能成立靠的是几个条件同时满足——在云这边，每一层都缺了不同的那一块。IBM靠大型机赚了钱，AWS靠IaaS赚了更多的钱——事实上AWS卖的是整条基础设施栈而不只是操作系统授权，覆盖面更广，绝对利润也更高。没有瓶颈标准不等于不是好生意，尤其当潜在市场足够大的时候。但瓶颈标准这种级别的市场权力——单位收入利润率最高、锁定最深、最难被替代——历史上只在个人计算的软件层出现过：微软和英特尔。现在的B2B SaaS agent公司能签企业合同、能做出留存，但离瓶颈标准还差得远。如果OpenClaw只停留在开发者工具的层面，那它走的就是PaaS的老路——历史上最难变现的一层。但对普通用户来说，OpenClaw不是什么抽象的runtime——它是你跟所有agent、工具、服务打交道的那个默认入口。前者是Docker，后者是Windows。Agent时代真正的分叉点就在这里：是做开发者基础设施的一部分，还是做每个人的默认agentic OS。

从商业版图上来看的话，值得思考的是OpenClaw是否是个人微机时代的微软的对应。

但更精确的类比也许不是Windows，而是Docker或Node.js——一个开发者runtime，而不是消费者OS平台。这意味着近期的关键战场是开发者采纳，而不是消费者渗透。不过这并不削弱类比的价值——Docker和Node.js恰恰是通过先赢得开发者来重塑各自生态的。

因为能够跑到GitHub上克隆手作代码仓库的极客毕竟是少数，现在30万的OpenClaw GitHub加星数量跟全球智能手机的渗透率比起来依然是零头。企业SaaS用户习惯了网页操作，但是基数庞大的C端用户形成肌肉记忆的还是预装/中心化商店里的点击安装。

当封装成熟到可以像智能手机一样渗透到普通消费者之后，是否平台化，建立类似App Store一样的应用商店（Clawhub），让其他的应用服务运行在类似OpenClaw这样的runtime上是自然的下一步。

但个人计算的利润和权力，历史上从来不是按"整机价值"平均分配的。它集中在瓶颈标准上。微软拿到异常高的利润，不是因为它做的事最多，而是因为它同时占住了五个条件：瓶颈标准（Windows API是开发者必须面向的接口）、间接网络效应（用户要应用多的平台，开发者要用户多的平台）、极低边际成本（软件复制成本趋近于零）、向后兼容锁定（应用一旦写了就不想重写）、以及对补充品的联动变现（Office运行在Windows上，Windows预装在OEM硬件上）。美国政府在反垄断案里把这个机制拆得很清楚：Windows的垄断权力不只靠市场份额，而是靠applications barrier to entry——克隆Windows API既昂贵又几乎追不上。谁控制了"开发者必须面向谁写应用、OEM必须预装什么、用户默认先接触什么"这三个接口，谁就拿到了PC时代最厚的rent layer。

所以问题不是OpenClaw能不能做平台，而是它能不能控制agent时代的瓶颈标准。

Agent时代的技术栈大致是：模型 → 工具接口 → agent runtime → 应用。瓶颈可能落在其中任何一层：模型层（OpenAI/Anthropic的API）、工具生态（插件、API标准、agent协议）、身份与权限层（因为agent是自主行动的，谁控制授权谁就控制行为边界）、或者runtime本身。OpenClaw坐在runtime这一层——能否拿到瓶颈标准的位置，取决于开发者写agent时，哪一层是他们最不愿意换掉的——那一层就是瓶颈标准。

把平台化拆开看，其实是四层：

插件接口——别人怎么接进来。插件怎么打包、manifest长什么样、能注册哪些tools、schema怎么定义。OpenClaw已经有雏形。

权限模型——接进来后能做什么。agent不是等用户点按钮，而是被授权后自主调用工具，所以权限比传统app更关键。OpenClaw的Gateway协议里已经有operator scopes、node caps、全局allow/deny。

发现层——用户怎么找到并装上扩展。ClawHub基本就是这个。

结算层——生态里的钱怎么流。只有发现没有结算，你是npm；同时握住发现和结算，才接近App Store。ClawHub目前是free public registry，结算层还没有产品化。

压缩成一句话：只有插件接口，你是框架；加上权限，你是runtime；再加发现层，你是生态；再加结算层，你才开始像平台。

这四层并不是理论抽象——个人计算史上已经有一个完整的样本。早期Windows的模式是开放的：程序可以直接访问文件系统、注册表、网络和其他进程，代价是恶意软件泛滥、系统不稳定、驱动冲突不断。iOS翻转了这个模型：app → 沙箱 → 审批过的API → 系统资源，换来了安全、稳定、可预测——但也换来了一个高度受控的生态系统。

iOS的架构恰好映射到这四层：

平台层	iOS对应
插件接口	iOS SDK
权限模型	沙箱（Sandbox）
发现层	App Store
结算层	App Store计费

Apple用了十年把这四层从零建到完整。如果agent runtime沿着同样的路径演化——从开放的框架走向受控的平台——那么这四层的完成度，而不是GitHub星标数，才是衡量谁离瓶颈标准最近的真正指标。

OpenClaw现在摸到了runtime + discovery，但还没有走到platform capture。Stars是注意力，不是install base；更不是像当年Windows那样的OEM预装权。当前桌面OS（Windows约67%）、移动OS（Android约68%、iOS约32%）和浏览器（Chrome约69%）的份额结构本身就说明，新runtime要夺走默认位并不容易。

曾经微软所占据的个人微机操作系统与英特尔所占据的CPU设计制造是微机时代利润最丰厚的生态位。OpenClaw是否会占据这样的位置，取决于它能否从runtime提供者进化为瓶颈标准的控制者——不只是让agent跑起来，而是让所有人都必须面向它来写agent。