摘要:在生成式人工智能从单纯的“对话框”向能够执行复杂任务的“自主代理(Agent)”演进的当下,Clawdbot(简称Clawd,当前经历了“曲折”的改名过程,已更名为OpenClaw,本文仍用Clawd代指它 )作为一个开源的、本地优先的AI代理网关,正在重塑个人与AI的交互范式。不同于ChatGPT或Claude等依赖云端托管的SaaS服务,Clawd通过独特的Gateway-Node架构,将大模型的推理能力下沉至用户私有硬件,并通过标准化的协议连接至飞书、Telegram、Discord等主流即时通讯平台。
本文作者来自飞书 Lark QA-Technical Platform-Security 安全专项团队,我们正在积极构建大模型提效安全质量保证相关的工作,希望能和大家一起沟通学习!
人工智能的发展正在经历从“信息检索”到“任务执行”的范式转移。早期的LLM(大语言模型)应用主要集中在内容生成与问答,而下一代AI应用的核心在于“Agency”——即AI感知环境、规划路径并执行操作的能力。然而,主流的云端Agent解决方案面临着数据隐私不可控、上下文记忆碎片化以及与本地环境交互受限等根本性挑战。
Clawd Bot应运而生。它不仅仅是一个聊天机器人,更是一个跨平台的个人AI操作系统。Clawd提出了一种“自带设备(BYOD)”的运行模式,核心组件运行在用户控制的Mac Mini、Linux服务器或树莓派上,而将推理任务通过API外包给Claude Opus、GPT-4或本地开源模型。这种架构不仅确保了用户对记忆和数据的完全掌控,还赋予了AI深度访问本地文件系统、Shell和浏览器的能力,使其成为真正意义上的“数字副驾驶”。
250px|700px|reset
想象一下这样的场景:
- 清晨:在你醒来之前,Clawd 已经为你准备好了包含今日日程、重要邮件摘要和行业新闻的晨间简报,并以图片形式发送到你的手机飞书。
- 通勤路上:你通过飞书发送一条语音,让家里的 Clawd 运行一个复杂的代码测试,并在你到达办公室前将结果报告给你。
- 深夜:你随口提到的“下周要整理项目文档”被 Clawd 记住,几天后,它在你休息时主动完成了飞书文档的初稿整理,并等待你的审阅。
这正是 Clawd 所引领的范式转变:从“被动响应”的工具,进化为“主动执行”的伙伴。它将 AI 的控制权从遥远的云端服务器,交还到用户自己手中,部署在你信赖的本地设备(如 Mac Mini、个人电脑)或VPS 上。
一、Clawd 如何运作?核心架构与工作原理解析
250px|700px|reset
- Clawdbot 是什么?一句话解读
Clawdbot 是由 Peter Steinberger (PSPDFKit 创始人) 开发的开源个人 AI 助手项目。与传统网页版AI(例如ChatGPT 或 Claude)不同,Clawdbot 直接运行在你常用的聊天软件里——你在飞书发消息,它在飞书回复;你在 Discord 提问,它在 Discord 解答;你在飞书提问,他在飞书给出执行结果。
关键理解: Clawdbot 不是一个 AI 模型,而是一个「AI 网关」——它负责连接你的聊天软件和 AI 大模型 API,让 AI 能力无缝融入日常沟通工具。
- 核心架构深度解析:Gateway与Nodes的协同
Clawd采用了以网关为中心(Gateway-Centric)的分布式微服务架构。这种设计不仅解耦了通信通道与智能体逻辑,还实现了对多模态输入输出的统一管理。主要将其划分为三部分:
250px|700px|reset
- 神经中枢:Gateway (网关)
Gateway是Clawd系统的核心心脏,是一个基于Node.js(要求v22+)构建的长运行守护进程。它充当了所有外部通信与内部逻辑之间的总线。
- 单一事实来源(Single Source of Truth): 设计上,Gateway被定义为系统的单一控制平面。它独占管理所有的Channel连接(如飞书的WebSocket连接、Telegram的Bot API轮询)。这种单例模式(Singleton)至关重要,因为许多即时通讯协议(特别是基于Web模拟的协议如飞书 Web)不允许并发会话。Gateway通过维护这些持久连接,确保了消息收发的稳定性和状态的一致性。
- 网络模型与环回优先(Loopback-First): 安全性是本地Agent的首要考量。Gateway默认绑定在本地环回地址(127.0.0.1:18789),这意味着它不直接向公网暴露端口。这种“环回优先”的网络模型强制要求所有外部访问——无论是来自移动端的Node连接,还是远程管理——必须通过安全的隧道技术(如SSH Tunnel或Tailscale)进行。这从根本上减少了攻击面,防止了未授权的公网扫描和入侵。
协议与控制平面:
Gateway暴露了一个类型化的WebSocket API,用于处理请求/响应(Req/Resp)和服务器推送事件(Server Push Events)。
- 控制客户端:CLI命令行工具、macOS原生应用、Web管理后台(Dashboard)均作为WebSocket客户端连接至Gateway。
- 事件总线:Gateway负责分发agent(代理状态)、chat(聊天消息)、presence(在线状态)、health(系统健康)、heartbeat(心跳检测)和cron(定时任务)等核心事件。这种事件驱动的架构使得系统能够实时响应环境变化,例如当用户在手机端上线时,Gateway能立即感知并调整消息路由策略。
- 感知触手:Nodes (节点)
如果说Gateway是Clawd的大脑,那么Nodes就是它的手脚和感官。Node是运行在iOS、Android或macOS等终端设备上的轻量级客户端程序,它们通过WebSocket连接回Gateway,将设备的物理能力虚拟化为可供Agent调用的工具
- 能力虚拟化与远程调用:
Node的设计体现了“端云协同”的思想(这里的“云”指用户的私有服务器)。Agent无需运行在手机上,却能通过Gateway远程调用手机的硬件能力:
- 视觉能力 (camera.*):Agent可以调用camera.snap指令,触发Android或iOS Node拍摄照片;或调用camera.clip录制短视频。这使得Agent具备了“看见”物理世界的能力。例如,用户可以询问“我的冰箱里还剩什么?”,Agent随即调用摄像头拍摄并分析图像。
- 地理感知 (location.get):Node能够获取设备的GPS坐标,使得Agent能够提供基于位置的服务(LBS),如“我现在的坐标天气如何?”或“帮我记录停车位置”。
- 屏幕交互 (screen.record):在Android端,Node甚至支持屏幕录制,为未来的UI自动化操作奠定了基础。
🏷️ 连接机制: Node通过WebSocket与Gateway建立持久连接。为了穿透复杂的网络环境(如从蜂窝网络连接到家中的服务器),Clawd深度集成了Tailscale。Node可以利用Tailscale构建的Mesh网络,直接以内网IP访问Gateway,既保证了连接的稳定性,又维持了端到端的加密安全。
- 交互界面:Canvas (画布)
为了突破传统Chatbot纯文本交互的局限,Clawd引入了Canvas概念,这是一种由Agent驱动的动态视觉界面。
- 技术实现: Gateway内置了一个HTTP文件服务器(默认监听端口18793),专门用于服务Canvas内容。Canvas本质上是一个由Agent生成的HTML/JavaScript应用,运行在Node端的WebView容器中。
- 动态交互范式:
- 传统的RAG或Agent通常只能返回文本或静态图片。而Clawd的Canvas允许Agent编写代码来渲染交互式图表、实时地图、看板或复杂的表单。
- 场景示例:当用户要求“分析本周的服务器负载”时,Agent不仅能返回文字总结,还能在Canvas上绘制一个可缩放的ECharts折线图,用户可以在手机上直接交互查看细节。这种能力将Clawd从一个“对话框”升级为了一个“动态应用生成器” 。
总结来说,Clawd 的工作流程是:用户通过 聊天App 发送指令 → 网关 接收并路由给 Agent → Agent 结合 内存 与 技能 进行思考,决策调用何种 工具 → 工具 在本地设备上执行操作(如运行脚本、访问网络)→ 执行结果返回给 Agent → Agent 组织语言生成回复 → 网关 将回复发送回用户的 聊天App。
正是这套“网关-大脑-技能-内存”的闭环架构,让 Clawd 突破了传统聊天机器人的限制,成为一个真正能“动手干活”的智能助理。
二、Clawd 究竟能做什么?核心能力详解
Clawd 的魅力不仅在于其灵活的架构,更在于它所释放的一系列颠覆性能力。这些能力共同构成了一个强大、主动且深度个性化的 AI 助手体验。
250px|700px|reset
2.1 跨平台通信网关
这是 Clawd 的基础。它打破了 AI 助手的平台壁垒,让你可以在任何习惯的聊天工具中与它无缝交互。
- 广泛的渠道支持:原生支持 飞书, Telegram, Discord, iMessage, Slack 等十多种主流即时通讯工具。
- 统一的会话体验:无论你从哪个 App 发送消息,Clawd 都能维持同一个会话上下文,记忆和身份保持一致,确保了跨平台交互的连贯性。
- 媒体与语音支持:不仅支持文本,还可以接收和发送图片、文档、音频等多种媒体文件。通过集成语音识别(如 Whisper)和语音合成(如 ElevenLabs)技术,你甚至可以直接与它进行语音对话。
2.2 主动提醒与定时任务
这是 Clawd 从“被动工具”转变为“主动伙伴”的关键。它不需要你时刻记住去查询,而是会在需要时主动找到你。
- 心跳机制 (Heartbeat):Clawd 会按预设的周期(如每 30 分钟)“唤醒”一次,检查 HEARTBEAT.md 文件中的指令。你可以设定“每天早上8点总结我的日程和邮件”或“每小时检查一次特定网站的更新”等任务。
- Cron Jobs:你可以用自然语言或直接配置 Cron 表达式来创建定时任务。例如,让它在每个工作日结束时自动提交代码,或在每周五生成周报草稿。
- 外部触发器 (Webhooks):Clawd 可以通过 Webhook 接收来自其他应用(如 GitHub, Zapier, IFTTT)的事件通知,并触发相应的自动化流程。例如,当 GitHub 有新的 PR 时,自动触发代码审查。
2.3 完整的系统与浏览器访问能力
Clawd 的核心是行动。它被授予了直接操作其所在设备的能力,从而能够完成真正的“工作”。
- Shell 访问:Clawd 可以执行任意的 Shell 命令。这意味着它可以管理文件、运行脚本、安装软件、控制服务——几乎等同于一个可以通过自然语言指挥的系统管理员。这是其强大自动化能力的基石,也是其安全风险的核心。
- 浏览器控制:通过与 Chrome/Chromium 浏览器的深度集成,Clawd 可以像人一样操作浏览器——访问网页、填写表单、点击按钮、抓取信息,甚至处理登录和支付流程。这使得网页自动化任务变得异常简单。
- 文件系统读写:Clawd 对其工作区拥有完全的读写权限,可以创建、修改、分析本地文件,使其能够处理文档、管理项目、记录笔记。
2.4 可扩展的技能与插件系统
Clawd 的能力不是固定的,而是可以通过技能系统无限扩展的。
- 社区驱动的能力市场 (ClawdHub):拥有一个活跃的社区技能市场,用户可以轻松安装如“日历管理”、“邮件收发”、“智能家居控制”、“Jira 任务跟踪”等数百种技能,即插即用。
- AI 辅助的技能开发:最独特的是,Clawd 自身就能帮助你创建新技能。你只需要用自然语言描述你想要实现的功能,它就能为你生成技能所需的 SKILL.md 和相关脚本。这极大地降低了能力扩展的门槛。
- 多 Agent 协作:Clawd 支持配置多个具有不同角色、技能和权限的 Agent。你可以创建一个“代码专家” Agent,一个“日程管理” Agent,甚至让它们之间相互协作,将复杂任务分解执行。
核心优势的交汇点:情境感知的主动智能
当这些能力结合在一起时,Clawd 便展现出其最核心的优势:情境感知的主动智能。
- 记忆 + 主动性:它记得你上周提到的项目截止日期,并会在本周主动提醒你,并附上相关的文件列表。
- 通信 + 系统访问:它能读取你邮件中的会议邀请,自动检查你日历的冲突,并通过 Telegram 询问你是否接受。
- 浏览器 + 技能:在收到一张技术图片后,它能利用浏览器自动化技能检索,并将相关的技术内容整理浓缩供你快速了解。
这种将 记忆(知道该做什么)、主动性(知道何时做)和行动力(知道如何做) 结合的能力,是 Clawd 真正区别于所有其他 AI 产品的地方。
三、部署方案与成本分析
将 Clawd 部署起来是体验其魅力的第一步。得益于其轻量化的设计,部署选项非常灵活,可以适应从个人爱好者到小型团队的不同需求和预算。硬件要求之低甚至令人惊讶:单核 CPU、1GB 内存和 500MB 磁盘空间 即可运行。
真正的成本大头在于其背后的 AI 模型订阅费用。下面我们分析几种主流的部署方案及其成本构成。
Clawd 的运行成本主要分为两部分:硬件/服务器成本 和 AI 模型 API 成本。
- 硬件/服务器成本:
- VPS:如阿里云、腾讯云和火山引擎等服务商提供的入门级 VPS,月费通常在 一年 在 100-500元 左右。这是最受欢迎的“省心”选项。
- 本地硬件:如树莓派或旧电脑,硬件成本是一次性的(或为零),长期运行仅产生少量电费。
- AI 模型 API 成本:这是 Clawd 运行的持续性开销,完全取决于你的使用强度和所选模型。
- 入门级使用:对于日常任务提醒、轻度自动化等场景,选择如 Claude Pro (每个月订阅约 $20 - $50 美元 之间折合人民币 150 - 400元)。
- 重度使用:如果频繁进行代码生成、长文档分析、多 Agent 协作等复杂任务,可能会消耗大量 Token。
- 免费/本地模型:Clawd 也支持通过 LM Studio 或 Ollama 等工具接入本地运行的开源模型这可以完全消除 API 费用,但通常模型能力(尤其是在复杂推理和工具使用上)会弱于顶级的商业模型,且对本地硬件有更高要求。
成本优化建议:
- 从 VPS 开始:对于大多数新用户,租用一台常规配置 VPS 是最具性价比和稳定性的入门方式。
- 按需选择模型:在 Clawd 的配置文件中,可以为不同的任务或 Agent 设置不同的模型。例如,日常聊天使用便宜的模型,而代码任务则调用更强大的模型,从而平衡成本和效果。
- 监控 Token 消耗:Clawd 提供了使用情况追踪功能,定期检查 Token 消耗,避免超出预算。
- 善用本地模型:对于一些不那么复杂的、注重隐私的自动化任务,可以尝试配置本地模型来处理,以节省 API 调用费用。
四、安装使用|与飞书的协同操作——能用的工具才是好工具
第一步:购买或者开机闲置的服务器资源
- 环境要求:
- Node.js :≥ 22.x
- 操作系统 :macOS / Linux / Windows (WSL2),支持Docker部署
- 内存 : ≥ 2GB 可用
- AI API:Claude 或 OpenAI API Key
第二步:全局安装
# 使用 curl拉取安装程序,自动配置环境(新手推荐、老手不推荐)
# 使用 npm 安装 (推荐)
npm install -g clawdbot@latest
# 或使用 pnpm
pnpm add -g clawdbot@latesttt
第三步: 运行配置向导
# 启动交互式配置向导
clawdbot onboard --install-daemonnn
- 向导会引导你完成:
- AI 模型配置 – 输入 Claude 或 OpenAI API Key
- 工作目录设置 – 默认 ~/clawd
- 渠道启用 – 选择要连接的聊天平台
- 守护进程安装 – 让 Gateway 后台持续运行
第四步: 验证安装
# 检查服务状态
clawdbot status
# 深度健康检查
clawdbot health
# 诊断配置问题
clawdbot doctorrr
预期输出:
Channels: ✓ Discord, Telegram connected
LLM: ✓ Claude API configured
Memory: ✓ 42 memories indexeddd
第五步:Clawdbot 常用 Skills 配置
- 网页搜索 Skill
# 配置 Brave Search API
clawdbot configure --section web
# 输入你的 Brave Search API Keyyy
配置后 Clawdbot 可以搜索实时网络信息回答问题。
- 文件操作 Skill
Clawdbot 内置文件读写能力:
- 浏览器 Skill
Bot: [启动浏览器] → [加载页面] → [生成截图] → [返回图片]]]
- 自定义 Skill
在 ~/clawd/skills/ 目录创建 Markdown 文件即可:
# skill: daily-report
每日工作汇报生成器
## 描述
根据今日对话记录生成工作日报
## 触发词
生成日报, 今日总结
## 执行逻辑
1. 读取今日所有对话记忆
2. 提取工作相关内容
3. 生成结构化日报报报
第六步:与飞书进行协同
- 安装飞书插件
Clawdbot 默认不内置飞书 Channel,需要额外安装插件。同学 @m1heng 实现并开源,实测稳定可用。
- 1️⃣ 安装插件
在 clawdbot 运行的服务器 / 容器 中执行:
clawdbot plugins install @m1heng-clawd/feishuuu
- 2️⃣ 配置飞书参数
安装完成后,继续执行以下命令:
clawdbot config set channels.feishu.appId "cli_xxxxx"
clawdbot config set channels.feishu.appSecret "your_app_secret"
clawdbot config set channels.feishu.enabled trueee
- 飞书应用(机器人)配置
- 1️⃣ 进入飞书应用中心:开发者后台 - 飞书开放平台
- 2️⃣ 新建企业自建应用
- 路径: 创建应用 → 企业自建应用
基础信息按提示填写即可(名称、描述等),完成后进入应用详情页。
- 3️⃣ 配置应用权限
进入 权限管理,添加以下权限(按插件文档要求):
具体权限如下:
- 基础权限
- 可选全功能权限
确保消息、机器人、事件订阅等相关权限均已开启。
- 4️⃣ 更新应用 Token
回到 凭证与基础信息 页面,将黄色区域中的 App ID / App Secret / Token 同步更新到 Clawdbot 配置中(对应第三步的配置项)。
250px|700px|reset
250px|700px|reset
接着运行命令重启,生效。
clawdbot gateway restarttt
- 5️⃣ 设置事件回调(Callback)
在 事件订阅 / 回调配置 中,勾线使用长连接接受回调:
250px|700px|reset
最后保存验证成功,即可开始使用。
五、安全模型与风险考量
拥有Shell权限的AI如果不加限制,无异于在系统中安装了后门
官方文档坦言:“当运行具有 Shell 访问权限的前沿 AI 模型时,完美的安全性是不可能的”。因此,理解其安全模型并采取恰当的防护措施,是每一位 Clawd 用户的必修课。
实践中的安全平衡
与 Clawd 共存,更像是在一个“有门禁的小区”里生活,而不是住在一个“固若金汤的堡垒”里。你无法奢求 100% 的绝对安全,但可以通过合理的配置,将风险控制在可接受的范围内。
- 最小权限原则:只授予 Clawd 完成其任务所需的最小权限。从一个严格限制的沙箱环境开始,当你需要它完成更复杂的任务时,再逐步、审慎地为其开放权限。
- 隔离专用账户:为 Clawd 使用专用的电话号码、邮箱账户和云服务账户,而不是你的个人主账户。这样即使发生意外,影响范围也是可控的。
- 警惕不可信内容:要时刻记住,任何外部输入(网页、邮件、文档附件)都可能是潜在的指令注入来源。在让 Clawd 处理这些内容时,最好先让一个权限较低的“阅读”Agent 对其进行摘要和清洗。
- 选择更安全的模型:更新、更强大的模型(如 Claude 4 Opus)通常在理解复杂指令和抵抗指令注入方面表现得更好。对于执行高风险任务的 Agent,应优先选择最安全的模型。
总而言之,使用 Clawd 是一场关于信任、授权和风险管理的持续实践。通过理解其安全机制并遵循最佳实践,你可以在享受其强大自动化能力的同时,最大限度地保护自己的数字资产安全。
六、给新手的实践建议
- 从 onboard 向导开始:Clawd 提供了极其友好的命令行向导 clawdbot onboard。这是最推荐的入门方式,它会引导你完成从模型选择、渠道配置到后台服务安装的全过程。请暂时放下对命令行的恐惧,跟着向导一步步操作,整个过程通常在 15-30 分钟内即可完成。
- 选择 VPS 作为你的第一台“主机”:虽然使用闲置电脑很诱人,但为了获得 24/7 稳定在线的体验,强烈建议初学者从一台常规配置的 VPS 开始。这能让你专注于体验 Clawd 的核心功能,而不用担心本地网络、设备休眠等问题。
- 用好官方文档和社区:Clawd 的官方文档 (docs.clawd.bot) 内容详尽,从快速入门到安全配置应有尽有。当遇到问题时,它应该是你的首要参考。此外,Clawd 拥有一个非常活跃的 Discord 社区,其中甚至有 AI 机器人 24 小时回答问题。遇到难题时,去社区提问往往能很快得到解决。
- 从简单的自动化任务开始:不要一开始就尝试过于复杂的任务。可以从以下几个经典场景入手,逐步建立信心:
- 设置晨间简报:这是感受 Clawd 主动性的最佳方式。
- URL 总结:向 Clawd 发送一个网址,让它为你总结文章内容。
- 文件管理:让它帮你整理下载文件夹,或根据文件名自动分类文件。
- 安全第一,逐步授权:严格遵循“最小权限原则”。默认情况下,让你的 Agent 运行在沙箱中。只有在你完全理解其行为,并确实需要更高权限时,才逐步为其放开限制。定期运行 clawdbot security audit 是一个好习惯
- 把你的“记忆”变成 Git 仓库:将你的 ~/clawd 工作区目录初始化为一个私有的 Git 仓库,并定期提交更改。这不仅能备份你助手的宝贵记忆,还能让你清晰地看到它的“成长”轨迹。
七、未来展望
Clawd 的迅速发展并非偶然,它精准击中了当前 AI 应用的关键痛点——从“云端大脑”到“本地手脚”的“最后一公里”。这样的创新不仅是一项技术突破,更预示着 AI 正在从单一工具,逐步演化为真正能够理解用户、主动协作的智能平台。
我们有理由相信,未来的个人计算体验将不再是各式 App 图标的简单集合,而是由具备自主调度能力的 AI Agent 作为核心交互界面。用户只需用自然语言表达意图,AI Agent 即可驱动底层硬件、操作系统、应用和服务资源主动完成任务。
在这个趋势中,Clawd 的开源精神和可扩展架构,让全球开发者共同构建起一个生机勃勃的能力生态,它所激发的热情有如 20 年前 Linux 社区的精神,让每一位参与者都能为未来系统添砖加瓦。
当然,当前 Clawd 仍处于成长早期,安装、配置仍有门槛,安全性和稳定性也有待持续打磨。但它展示出的那种“永远在线、主动执行、拥有人类语境理解与记忆”的能力雏形,为我们揭示了一种激动人心的未来 —— 人不再适应机器,而是机器主动适应人。
作为面向工作场景与组织协作的 AI 工作平台,飞书始终认为:
AI 技术的真正价值,不在于它多么智能,而在于它能否让每个人都能用得上、用得好,帮助组织更高效、更有创造力地运转。飞书正在构建一个融合协同、自动化与智能伙伴的全新生态,希望让 人与 AI 的协同 成为工作方式的常态,而不是偶然的工具体验。
在这场从“自动化工具”向“智能助手平台”的漫长演进中,飞书也希望成为架起的桥梁:是搭好连接人、组织与 AI 的基础设施,让 AI 从“被动响应”走向“主动协作”,让每个人和每个组织都能在智能时代找到属于自己的高效成长路径。















