OpenClaw操作代理開源項(xiàng)目:本地運(yùn)行AI自動執(zhí)行Excel/PDF/郵件等桌面任務(wù)
摘要:OpenClaw:讓AI從“動口”到“動手”ChatGPT 和 Claude 擅長寫文案、解題、編邏輯——但它們不會點(diǎn)鼠標(biāo)、不會切窗口、不會打開 Excel 并標(biāo)紅某幾行。OpenClaw 會。它不生成建議,它直接執(zhí)行。你讓它“把銷售表里 Q3 超過 80 萬的客戶名加粗并導(dǎo)出 PDF”,它就真去干:啟動 Excel、定位 Sheet、篩選數(shù)據(jù)、加粗、導(dǎo)出、發(fā)郵件給你。OpenClaw 是什...

OpenClaw:讓AI從“動口”到“動手”
ChatGPT 和 Claude 擅長寫文案、解題、編邏輯——但它們不會點(diǎn)鼠標(biāo)、不會切窗口、不會打開 Excel 并標(biāo)紅某幾行。OpenClaw 會。
它不生成建議,它直接執(zhí)行。你讓它“把銷售表里 Q3 超過 80 萬的客戶名加粗并導(dǎo)出 PDF”,它就真去干:啟動 Excel、定位 Sheet、篩選數(shù)據(jù)、加粗、導(dǎo)出、發(fā)郵件給你。
OpenClaw 是什么
OpenClaw 是一個運(yùn)行在本地的操作代理(operation agent)。它不是聊天界面背后的黑盒,而是一個能感知屏幕、操控輸入、調(diào)用 API、讀寫文件的終端進(jìn)程。核心不是“更聰明的語言模型”,而是把語言理解、動作規(guī)劃、系統(tǒng)控制三者焊死在一起。
它怎么干活
OpenClaw 的操作引擎不依賴預(yù)設(shè)腳本或錄制回放。它靠兩件事落地:
- 視覺+語義對齊:用輕量 CV 模型實(shí)時解析屏幕內(nèi)容(比如識別 Excel 窗口標(biāo)題欄、按鈕位置、表格邊界),再和 NLU 解析出的指令意圖對齊;
- 原子動作庫:封裝了
click_at(x,y),type_text("xxx"),read_cell("B5"),call_api("weather", {"city": "shanghai"})這類確定性動作,所有復(fù)雜任務(wù)都拆成這些原子操作串。
舉幾個真實(shí)能跑的例子:
截取當(dāng)前網(wǎng)頁頂部 600px 區(qū)域,保存為 /tmp/top.png
→ OpenClaw 識別瀏覽器窗口,計算視口坐標(biāo),調(diào)用截圖工具,寫文件。打開 ~/data/invoices.xlsx,把“狀態(tài)”列里值為“pending”的整行背景設(shè)為黃色,另存為 invoices_pending_highlighted.xlsx
→ 啟動 Excel(或用 openpyxl 后端),定位列,遍歷匹配行,設(shè)樣式,保存。查 Slack 中 #finance 頻道今天提到“budget”的最新 3 條消息,提取發(fā)送人和時間,匯總成 Markdown 表格發(fā)我郵箱
→ 調(diào) Slack API 獲取消息,正則匹配,格式化,調(diào) SMTP 發(fā)送。
典型工作流
- 日常辦公提效
“整理上周五所有會議的 Zoom 錄像鏈接,按時間排序,生成帶標(biāo)題的 Notion 頁面”
→ OpenClaw 自動翻 Outlook 日歷、查 Zoom 郵件、提取鏈接、調(diào) Notion API 創(chuàng)建頁面。 - RPA 場景免編碼
傳統(tǒng) RPA 要拖拽組件、寫 XPath、處理彈窗異常。OpenClaw 接收自然語言后,自己做元素定位、容錯重試、狀態(tài)判斷。比如:“登錄 SAP GUI,進(jìn)事務(wù)碼 VA03,輸訂單號 123456,截圖‘抬頭’和‘行項(xiàng)目’兩個標(biāo)簽頁”。它真能完成。 - 客服后臺輔助
用戶在工單系統(tǒng)里寫:“客戶說收不到發(fā)票,查他郵箱是否在黑名單”。OpenClaw 直接連內(nèi)部郵件網(wǎng)關(guān) API 查記錄,再查 CRM 里的客戶郵箱字段,比對后返回結(jié)論。 - 數(shù)據(jù)分析閉環(huán)
“拉出上月 AWS 賬單里 EC2 成本最高的 5 個區(qū)域,畫柱狀圖,貼進(jìn)周報 PPT 第 3 頁”
→ 調(diào) AWS Cost Explorer API → pandas 處理 → matplotlib 畫圖 → python-pptx 插入幻燈片。
當(dāng)前狀態(tài)(2026)
- 平臺支持:Windows/macOS/Linux 均提供原生二進(jìn)制,無虛擬機(jī)或容器依賴;macOS 版通過 Accessibility API 控制 UI,Windows 版用 UI Automation,Linux 版基于 X11/Wayland + OCR 補(bǔ)位。
- 集成能力:內(nèi)置連接器覆蓋 Google Workspace、Microsoft Graph、Slack、Notion、Jira、Salesforce、SAP GUI、MySQL/PostgreSQL、本地文件系統(tǒng)。API 調(diào)用全部走 OAuth2 或 token 管理,憑證不硬編碼。
- 真實(shí)部署:1000+ 企業(yè)用戶,集中在金融中后臺(自動生成監(jiān)管報表)、醫(yī)療 IT(自動同步 HIS 系統(tǒng)數(shù)據(jù))、制造業(yè) ERP(工單狀態(tài)批量更新)等強(qiáng)流程場景。
- 國產(chǎn)生態(tài)協(xié)同:AutoClaw 在家庭 IoT 層做設(shè)備聯(lián)動(如“把客廳空調(diào)調(diào)到 26℃ 并關(guān)掉書房燈”),NanoClaw 專注 Android 自動化(無障礙服務(wù) + ADB 指令),OpenClaw 提供跨平臺動作基座。三者共享同一套動作描述語言(ClawDSL),模塊可互換。
技術(shù)棧拆解
OpenClaw 架構(gòu)分四層,全部開源(Apache 2.0):
- NLU 層:微調(diào)的 TinyBERT + 指令模板匹配器,輸出結(jié)構(gòu)化動作意圖(
{action: "find_in_excel", file: "~/data.xlsx", column: "status", value: "pending", style: "highlight_yellow"}) - Planner 層:基于 LLM 的輕量推理器(本地運(yùn)行 Phi-3),把意圖轉(zhuǎn)為動作序列,并插入必要檢查點(diǎn)(如“確認(rèn) Excel 已打開”、“等待單元格加載完成”)
- Executor 層:純 Rust 編寫,調(diào)系統(tǒng) API、模擬輸入、驅(qū)動瀏覽器(Playwright)、調(diào)用 CLI 工具。失敗時自動降級(如 GUI 失敗則切 CLI 模式)
- Feedback 層:操作完成后,截圖關(guān)鍵幀、記錄動作日志、生成自然語言摘要(“已標(biāo)紅 12 行,保存至 /tmp/highlighted.xlsx”),支持 CLI 輸出或 Webhook 推送
它改變了什么
- 效率不是提升 20%,是消滅整類任務(wù):財務(wù)每月初的對賬、HR 的入職材料歸檔、運(yùn)營的日報截圖匯總——這些不再需要人盯流程。
- 自動化不再需要“懂技術(shù)”:業(yè)務(wù)人員直接寫中文指令,IT 不用寫腳本、不用維護(hù) XPath、不用處理 UI 更新導(dǎo)致的 selector 失效。
- 協(xié)作方式變了:團(tuán)隊(duì)共享的不是文檔,而是可復(fù)用的
.claw動作包(比如onboard_new_hire.claw),雙擊就能跑完整入職流程。 - 安全模型更可控:所有動作在本地執(zhí)行,敏感數(shù)據(jù)不出內(nèi)網(wǎng);權(quán)限按動作粒度控制(如“只允許讀 Excel,禁止寫”),比給 AI 一個賬號密碼更細(xì)。
現(xiàn)在就能做什么
- 下載 openclaw.dev 的最新 release,解壓即用(macOS/Windows 有圖形配置向?qū)В?/li>
- 寫第一條指令:
openclaw run "截圖當(dāng)前桌面,保存為 ~/Desktop/screenshot.png" - 查看內(nèi)置動作庫:
openclaw list-actions - 改一個現(xiàn)有動作:
openclaw edit excel_highlight_rows(打開 YAML 配置,改字段名或閾值) - 用 Python 擴(kuò)展:
pip install openclaw-sdk,調(diào)Agent().run("導(dǎo)出數(shù)據(jù)庫表 users")
國產(chǎn) Claws 項(xiàng)目也值得盯:AutoClaw 的 Home Assistant 插件已支持語音觸發(fā)設(shè)備聯(lián)動,NanoClaw 的 Android 測試框架正在被大廠用于 UI 自動化回歸。它們和 OpenClaw 共享底層動作協(xié)議,未來一個指令能跨 PC、手機(jī)、家電執(zhí)行。